う〜ん、同じ棋譜から学習を繰り返すと正常っポイ - GA将？開発日記～王理のその先へ～

　試しに1棋譜とか12棋譜とかを自己対局で生成して、その棋譜に含まれる局面だけを対象に探索→パラメータ修正→探索…とループさせてみたら、綺麗にKL情報量が減少していきました。

　という事は、通常の自己対局で学習させた場合にKL情報量が増大する現象は、「出現する局面がどんどん変化していくから、それに対応した最適な*1浅い探索が出来なくなる」か、「評価関数パラメータの変化に対して、浅い探索結果が上手く追従出来ていない」のどちらかが原因ですかねぇ。

　後者が原因なら、「PGLeaf＋TDLeaf(λ)＋L2正則化のみでパラメータ修正後に、ミニバッチの全局面を対象に交差エントロピー最小化の処理を行う」って言う二段階でのパラメータ更新をすればOKかもしれません。

　ただ、まだ原因がはっきりしないし、この修正は中規模改修が必要ですから、もうちょっと判断保留します。

*1:ここでは「交差エントロピーが最小となる」