勾配計算部分をリファクタリング中
自乗誤差やら交差エントロピーやらの勾配計算で、モード切替の変数に応じて処理をちょっとずつ分岐させていたんですが、流石にメンテナンス性が悪くなってきたんでリファクタリングなう。
結局、損失関数は下記の構成に決め打ちする事にしました。
- PGLeaf → 報酬最大化
- TDLeaf(λ) → 評価値の時間差分最小化
- 全合法手の予測勝率の交差エントロピー → 浅い探索の結果を深い探索の結果に近付ける
- L2正則化 → オーバーフィッティング対策
んで、現在3.以外は再実装完了。とりあえず三目並べでは動いています。
残るは交差エントロピーなんですが、今日中に終わるかどうか不安なんで、着手しようかどうしようか検討中。とりあえず入浴しながら考えます。