昨日の論文、アイデアは応用出来るかも
http://d.hatena.ne.jp/Gasyou/20180710/1531215640
要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使えそう。
GA将に組み込むなら、自己対戦&パラメータ更新1ステップ*2前後でのレーティング差を計測して*3、レーティング差をそのままメタ報酬として扱えば可能かと。方策はガウス分布に基づいて計算すれば良いかな?
現在はプランAの実装中なんで、この方式はプランAが完成してからとっかかろうかと思います。