GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

第22回世界コンピュータ将棋選手権の感想&今年の展望

 個人的には選手権が「1年の境目」なので、タイトルの“今年の展望”は次回選手権までの…というつもりです。

一次予選

 GA将!!!!!の戦績は5勝2敗の4位。勝ち越しすら危ういと思っていたのに、まさかの二次予選進出です。勝負は時の運といいますし、今回の結果は星のめぐりが良かったからだと思っています。

 会場で選手の皆さんと話してて思ったのは、今年初参加の人たちは皆力を入れてるなぁ、という事ですね。ビットボードは普通に使ってますし、コンピュータチェスの情報を仕入れたり、ソース読んだりとか。私はその手の事は全くやる気にならなかったので、かなり反省しました。

 二次予選進出は8チーム中5チームが新人さんで、その辺りを見ても今年の新人さんたちは凄いと思います。

二次予選

 GA将!!!!!は3勝6敗で21位。一昨年同様、二次シード組には手も足も出ませんでした。まぁ、これは2年間何の成果も出せなかった自分のせいなので、反省材料として次に活かしたいと思います。

 で、二次予選で一番印象に残っているのは、Bonanzaさんがまさかの2次敗退したって事ですね。本当に今年の二次予選(の上位)はレベルが高かったんだなぁ、と。

決勝

 個人的にツツカナさんを応援していて、対局中もほとんど横にへばり付いたりしていました。優勝はできなかったとはいえ、3位というのは凄いです。

 本当は昼食を食べてから家に帰る予定だったんですが、会場の熱気と盛り上がりにつられて、結局最後までいました。

 おかげで家に着いたのは夜11時でしたが、会場でリアルタイムに観戦出来たのは良かったと思っています。

選手権に関してその他

 布教用に強化学習の本を持って行ったのですが、結構興味を持ってくれた方が多くて嬉しかったです。

 来年は「ボナメソクラスタ*1」の他に「強化学習クラスタ」が出来れば嬉しいなぁ、と妄想しています。

今年の展望

 まずは基本方針。「GA将自身の対局結果から評価関数のパラメータを学習する」。これは絶対堅持します。

 んで、その為の方策として、とりあえずこれだけ考えています。

  1. 方策勾配法エージェントのデバッグ
  2. 合議方策勾配法の完成
  3. 評価項目の追加
  4. 探索の強化(ムーブオーダリングの精度向上)
  5. インクリメンタルサポートベクターマシン

 評価項目についてですが、会場で「3x3のマスの中での3駒関係の評価」というものを教えてもらいました。ちょっと誰に教わったか忘れてしまいました、すいませんm(_ _)m。

 この評価項目だと、パラメータ数を抑えつつ有効な評価が出来そうなので、一度実装してみたいです。他にも色々と評価項目のアイデアはあるので、行けそうなのは片っ端から試してみようと思います。

 探索の強化は一見基本方針と矛盾しますが、これはあくまでも「学習の為に探索の強化をする」という事です。現状のGA将!!!!!だと、自己対戦学習時の探索深さは全幅1手+静止探索4手が実用上の限界です。

 で、探索が速くなれば実用的な時間内で全幅3手+静止探索6手とかで学習出来るんで、その分評価関数の精度向上が期待出来ます*2

 最後のインクリメンタルサポートベクターマシンですが、論文を読んだ限りだとコンピュータ将棋への応用は難しそうです。

 当面は優先度低めですが、応用出来そうなら一度使ってみたいです。

 んで、パラメータ学習が成功したらやりたい事。

  1. 複数種類の評価関数での合議
  2. ABC探索
  3. Ponderもどき(相手の思考中に、現局面以降の指し手を学習する)

 コレはまぁ、まだ先の話ですね。まずはパラメータ学習を成功させて、それからこっちをやります。

*1:「PCのクラスタ」という意味では無く、「チーム・プログラムのクラスタ」の意味です。

*2:自己対戦の棋譜の質が上がるので、より実戦的な局面での評価値学習が可能になる…ハズ。