GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

昨日の論文、アイデアは応用出来るかも

 http://d.hatena.ne.jp/Gasyou/20180710/1531215640

 要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使えそう。

 GA将に組み込むなら、自己対戦&パラメータ更新1ステップ*2前後でのレーティング差を計測して*3、レーティング差をそのままメタ報酬として扱えば可能かと。方策はガウス分布に基づいて計算すれば良いかな?

 現在はプランAの実装中なんで、この方式はプランAが完成してからとっかかろうかと思います。

*1:学習率とかSoftmax方策の温度とか

*2:100局とか500局とか

*3:単純にやるなら、1ステップの前後のパラメータで対局させて計測