実験結果 from 金曜
大体こんな感じでした。
全局面の平均二乗誤差
- | 着手数あり | 着手数なし |
---|---|---|
開放度あり | 4.86 | 5.86 |
開放度なし | 4.97 | 5.77 |
対局中に表れた局面の平均二乗誤差
- | 着手数あり | 着手数なし |
---|---|---|
開放度あり | 1.53 | 0.38 |
開放度なし | 0.37 | 0.72 |
対局中の平均二乗誤差はid:streakeagle:20070905:1188998083で書いた教師あり学習バージョンよりだいぶ減っていていい感じです。着手可能数・開放度共にありの場合に誤差が大きいのは、変な方向に学習した結果らしいです。
ただ、全局面での平均二乗誤差は一時的に減った後に徐々に増えているので、ちょっと良くない傾向ですね。
んで、小宮さんの提案で局面図を。
まず、後手8石勝ちだと正しく学習した場合。
○ | ● | ● | ● |
● | ● | ● | |
● | ● | ● | |
○ | ● | ● | ○ |
これと対象形になる場合もありますが、大抵こんな感じです。
で、変に学習した場合。
○ | ● | ● | ● |
○ | ● | ● | ● |
● | ● | ● | ● |
● | ○ | ○ | ○ |
後手の勝ち、という事はちゃんと学習しているのですが、石差がおかしいです。
何千局も同じ終局図が続いているので、多分学習率を下げるのが早すぎたとかそんな所でしょう。
という訳で、方針変更。
まずメタ強化学習を実装して、学習率などのメタパラメータも学習で決める事にします。