まだまだまだデータ採取中
以前の先後で評価関数のインスタンスを分けた場合のグラフに、先手のみ・後手のみ学習のログを追加したものです。
んで、先手のみ学習の結果が異常に良いのが気になりますね。
一旦勝率上がってから下がるのは、ベースラインの設定をしていないのが原因かもしれないので、現在はそこを修正したバージョンを走らせています。
どういう事かというと、「ssp相手だと大体これ位の報酬が得られる」という値がベースラインで、パラメータ修正時は「報酬-ベースライン」を基準にパラメータ修正量を決めるのが良いらしいです。
つまり、勝率9割の相手なら「報酬が+1」と「報酬が-1」はパラメータ修正量の絶対値が異なるはずです。(前者の方が、パラメータ修正量が小さくなるべき。)
ただ、同じ設定で何回か走らせても、その都度結果が異なるので、一回の結果だけから判断するのも難しそうな感じです。
…困った。