GA将?作ってます 〜強化学習一発芸!!!〜 RSSフィード

2018/07/11

[]昨日の論文、アイデアは応用出来るかも 17:34

 http://d.hatena.ne.jp/Gasyou/20180710/1531215640

 要するに「獲得した報酬が増えた→良いメタパラメータだった」「獲得した報酬が減った→悪いメタパラメータだった」って判断する訳ですから、Exploration Policyではなく通常のメタパラメータ*1の学習にも使えそう。

 GA将に組み込むなら、自己対戦&パラメータ更新1ステップ*2前後でのレーティング差を計測して*3、レーティング差をそのままメタ報酬として扱えば可能かと。方策はガウス分布に基づいて計算すれば良いかな?

 現在はプランAの実装中なんで、この方式はプランAが完成してからとっかかろうかと思います。

*1:学習率とかSoftmax方策の温度とか

*2:100局とか500局とか

*3:単純にやるなら、1ステップの前後のパラメータで対局させて計測

トラックバック - http://d.hatena.ne.jp/Gasyou/20180711

2018/07/10

[]Learning to Explore via Meta-Policy Gradient 18:40

 Learning to Explore via Meta-Policy Gradient

 ざっと読んだ感じだと

  • Off-Policy学習*1と組み合わせるのが前提のメタ学習アルゴリズム
  • Exploration Policyと呼ぶ方策を導入し、これを方策勾配法で学習する。
  • 通常の*2方策のパラメータ更新前後の予測報酬の差を計算し、これを最大化する様にExploration Policyを学習する。

という方式らしいです。

 コンピュータ将棋に応用可能かどうかは分かりませんが、面白いアイデアだと思うので、後でちゃんと読んでみます。

*1:Q学習やDDPG等

*2:学習対象の

2018/07/07

[]原因は分かってみればシンプルだった 12:36

 昨日書いた件ですが、「読みが正確になる→勝敗読み切りが早くなる→勝敗読み切り局面はBootstrappingしないので正しく学習出来なくなる」と言うのが原因でした。

 んで、勝敗読み切り局面もBootstrappingする様に修正したら、無事に正しく収束しました。

 ただ、方策勾配法・TD法に関してはまだちゃんと動作していないので、完成度は2割で変わらず、といった感じです。

トラックバック - http://d.hatena.ne.jp/Gasyou/20180707

2018/07/06

[]バグ修正したら挙動がおかしくなった話、する? 19:49

 え〜、プランAの方ですが、探索ルーチンにバグが有って、評価値を更新すべきなのにしていない部分がありました。

 で、ここをチョロっと修正。一行追加しただけです。

 …したら、三目並べモードで収束しなくなりました _| ̄|○

 探索のログを見る限りでは読みは正確になってるんですが、何が原因ですかねぇ…

トラックバック - http://d.hatena.ne.jp/Gasyou/20180706

2018/06/30

[]近況など 17:21

 えー、ひさかたぶりの更新ですが生きています。一応。

 んで、肝心の開発ですが、ほとんど進んでいません(汗

 まず、先日書いたカルマンフィルタの件ですが、方策勾配法と組み合わせるのは私には無理そうです。

 それから、ステルスモードで動いているプランA(こっちが本命)ですが、三目並べモードでは2割がた完成、といった感じです。

 プランAは「方策勾配法+TD法*1+浅い探索と深い探索の一致率向上」という方針はPGLeaf Zweiと同様ですが、探索ルーチンを差し替える関係で勾配計算部分がマルっと書き直しになります。んで、これが大変で大変で、どこにバグが有るのかすら見当が付かない状況で行き詰まっています。

 という訳で、当面はテスト・デバッグ続きなんで開発日記のネタも無いかと思います。

*1:またはその派生アルゴリズム

トラックバック - http://d.hatena.ne.jp/Gasyou/20180630