前回作成した初期局面生成処理で生成した初期局面から、ランダムにプレイしても和了できるか確認を行った。深層強化学習ではモデルが初期値の状態ではランダムに近いため、ランダムでもある程度和了できると学習の効率的に学習できる。 初期局面からランダムプレイ 初期局面を生成して、合法手をランダムに選択して、和了/流局までプレイするスクリプトを作成した。 3向聴の初期局面から終局までプレイすると、数回に1回は和了することが確認できた。 from cmajiang import random_game_state, Status, Message, xiangting import random n_xian…