前回に続き、examples/visualization_demo.py のソースを解説する。 探索 探索の処理は、gumbel_muzero_policyに書かれている。引数は、以下の通り。 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: (prior_logits, value, embedding)の形式のRootFnOutput。prior_logitsは方策ネットワークからのもので、形状はそれぞれ([B, num_actions], [B], [B, ...])。 recurrent_fn: シミュレーションステップで取得…