明後日に向けて全力投球 〜Bonanza 6.0に魂を売ってみる(半分だけ)〜 RSSフィード

2016/04/01

[][]選手権はキャンセルします 19:59

 諸々の体調悪化により、選手権に出られるメドが立たなくなりましたので、キャンセルしました。

 関係者の皆様には、直前のキャンセルでご迷惑をお掛けして申し訳ありません。

 ただ、GA将の開発を辞めるわけでは無いので、また来年(OR 秋のイベント)でお会いしましょう。

usapyonusapyon 2016/04/01 20:01 ありゃぁ…仕事が多忙なのかと思っていたら…。
体調に気を付けながら、開発を続けて下さることをお願いいたします。
いつか選手権か電王戦かでお会いしましょう…。

GasyouGasyou 2016/04/01 20:17 日頃の不摂生がたたってこのザマです _| ̄|○
当分は開発辞める事は無いと思いますので、よろしくお願いします。
(体調的な)余裕があれば、うさ親さんが優勝する所だけでも見に行きたいですが…

usapyonusapyon 2016/04/01 21:32 う、圧力(プレッシャー)キタコレ!
実は私は、今年の優勝はGPSだろうと思います(苦笑)。
マシンパワーの暴力の前に屈せざるを得ない感じがしています…。

GasyouGasyou 2016/04/02 06:44 確かに、クラスタ組んだGPSのマシンパワーは凄いですからねぇ。
今年は会場が東京近郊ですし、通信ラグ的にも改善してますかね。

usapyonusapyon 2016/04/02 09:58 通信のラグも多分改善されると思いますが、フィッシャークロックへのルール改訂により、あまり時間ギリギリまで考えないで済むのが大きいのではないかなと思っています。(その結果として、時間逼迫による負けが少なくなりそうで…。)

GasyouGasyou 2016/04/03 16:26 そうですね、対局サーバとの通信遅延での決着は減りそうな感じですね。となると、運の要素が大分減って、地力の勝負、ですか。

usapyonusapyon 2016/04/03 21:46 「くじらちゃん」が帯域を圧迫しそうなので、通信遅延は起きるかも知れないですね。
まぁ、それでも運の要素はかなり減るとは思います。
また、今回はリモート参加が多いようなので、全体的に帯域の圧迫は起こってしまいそうには思います。

GasyouGasyou 2016/04/07 06:53 返信が遅くなって申し訳ありません。
帯域圧迫に関しては、気になるなら自前で回線を用意すれば回避出来ますし、そんなに問題にならないかなぁ、と思っています。
ただ、運営側で用意してくれる回線は確かに混みそうですね。

トラックバック - http://d.hatena.ne.jp/Gasyou/20160401

2016/03/15

[]AlphaGo 4勝1敗でしたか 20:36

 チョロっとニュースを眺めただけなんですが、劣勢の局面から挽回したりなんだかんだあって、見応えがあった対局みたいですね(私は囲碁はサッパリ分かりませんが)。

 んで、困った事が一つ。

 今後「強化学習でコンピュータ将棋の評価関数パラメータの調整をしています」と言っても、「フーン、どうせAlphaGoの後追いでしょ。」って言われる可能性が大になってきました。

 まぁ、別にそういう誤解を受けても良いんですがね。

 さて、それではGA将の開発に戻ります。

[]AlphaGoの学習アルゴリズムの解説記事 20:55

 http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/021000126/?ST=bigdata&P=2ITProへのユーザ登録が必要です)

 「AlphaGoは自己対局からの強化学習で強くなった」と理解していたのですが、微妙に違ったみたいです。

 私が考えていたのは(&今GA将でやっているのは)「最新バージョンのパラメータ同士での対局」なんですが、「過去のバージョンのパラメータからランダムに選択した相手」と対局させたみたいですね。

 言われてみれば、それならオーバーフィッティングが解消されるかもしれませんし、そういう手もアリですね。

 という訳で、早速実装してみますが、コンピュータ将棋に応用するとなると困った問題が一つ。

 …メモリが足りません。

 評価関数1個(1バージョン)で1.5GB程なんで、過去バージョンはファイルにセーブして取っておくしか無さげですね。

[]あ、忘れてた 21:13

 アピール文書書かないと失格になってしまう…

トラックバック - http://d.hatena.ne.jp/Gasyou/20160315

2016/03/09

[]悩ましい二択 18:18

 評価関数パラメータに関しては、現在学習用マシンで走らせている最中です。

 これが収束するのはおそらく4月に入ってからなので、それまでの間に何か別の事をしようかな、と検討中。

 んで、やりたい事は「探索パラメータの学習」と決まっているのですが、選択肢が二つあってどっちにしようか悩んでます。

 一つはGA*1を使って、全幅(前向き枝刈り無し)との一致率をある程度確保しつつ高速化させる、というもの。

 もう一つは、強化学習の一手法であるPGPE*2を使って、自己対局での勝率が上がる様にパラメータ調整をする、というもの。

 「今年のGA将はGA使ってます!」と言いたい気持ちもあるし、後者の方が強くなりそうな気もするし…

 まぁ、両方やってみて強くなった方を採用、って手もありますね。

 …「両方失敗しました」になるとガックリなんで、ちゃんと検討してから実装する事にします。

トラックバック - http://d.hatena.ne.jp/Gasyou/20160309

2016/03/08

[]全幅3手+静止探索で学習開始 22:06

 学習用マシンでは、全幅3手+静止探索1段目10手だと24時間あたり2万〜2万5千局ペースみたいです。

 全幅5手+静止探索にすると更に遅くなるんで、全幅3手が実用上の限界だと判断しました。

 んで、選手権まで約2ヶ月あるんで、ずっと学習させっぱなしで何とか100万局に届きそうです。

 つー訳で、当面は学習ルーチンはフィックスして学習させる事にします。

 それから、パラメータのセーブ・ロード周りも修正。

 従来はテキスト形式だったのを、バイナリ形式に変更しました。

 これでセーブ・ロードが大分高速化しましたし、ファイルサイズの削減も出来ました。

岩崎 高宗岩崎 高宗 2016/03/09 17:06 選手権後に、ボナメソ並みの4カ月放置とかやってみてはどうでしょうか? まあ、失敗したらかなりガックリしますが…w

GasyouGasyou 2016/03/09 18:08 4ヶ月あれば、全幅5手で学習させられそうですね。
その時にネタが無ければ、そういう手も考えてみますw

トラックバック - http://d.hatena.ne.jp/Gasyou/20160308

2016/03/07

[]PP絶対を実装&自己対局の条件を変更 22:51

 まず、評価関数にPP絶対を実装しました。対局時はKPPのテーブルに値を足し込んで使うので、NPSの低下は無いはずです。

 これで、ちょっとでも汎化能力が向上すれば嬉しいな、と。

 それから、全幅1手+静止探索10手での学習では強くなってくれなかったので、全幅3〜5手+静止探索10手に変更。

 全幅部の深さは、一晩2台のマシンで走らせてみて、実用的に行けそうな方を選ぼうと思います。

 さて、選手権まで残り57日。何とかなるのかな?

トラックバック - http://d.hatena.ne.jp/Gasyou/20160307