GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

う〜ん、同じ棋譜から学習を繰り返すと正常っポイ

 試しに1棋譜とか12棋譜とかを自己対局で生成して、その棋譜に含まれる局面だけを対象に探索→パラメータ修正→探索…とループさせてみたら、綺麗にKL情報量が減少していきました。

 という事は、通常の自己対局で学習させた場合にKL情報量が増大する現象は、「出現する局面がどんどん変化していくから、それに対応した最適な*1浅い探索が出来なくなる」か、「評価関数パラメータの変化に対して、浅い探索結果が上手く追従出来ていない」のどちらかが原因ですかねぇ。

 後者が原因なら、「PGLeaf+TDLeaf(λ)+L2正則化のみでパラメータ修正後に、ミニバッチの全局面を対象に交差エントロピー最小化の処理を行う」って言う二段階でのパラメータ更新をすればOKかもしれません。

 ただ、まだ原因がはっきりしないし、この修正は中規模改修が必要ですから、もうちょっと判断保留します。

*1:ここでは「交差エントロピーが最小となる」