2018-07-11

　要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使えそう。

　GA将に組み込むなら、自己対戦＆パラメータ更新1ステップ*2前後でのレーティング差を計測して*3、レーティング差をそのままメタ報酬として扱えば可能かと。方策はガウス分布に基づいて計算すれば良いかな？

　現在はプランAの実装中なんで、この方式はプランAが完成してからとっかかろうかと思います。

*1:学習率とかSoftmax方策の温度とか

*2:100局とか500局とか

*3:単純にやるなら、1ステップの前後のパラメータで対局させて計測

GA将？開発日記～王理のその先へ～