"Monte-Carlo tree search and rapid action value estimation in computer Go"

概要:
モンテカルロ木探索(MCTS)の改良

MCTSは、囲碁における次の手を求めるために有効なアルゴリズムである。MCTSでは、手の有望性を確認するために、その手を打った後にランダムにシミュレーションを行う。そのシミュレーションの勝率が高いほど、良い手であると判断される。
その際、どのようにシミュレーションを行うべき盤面を決定するかが問題となるが、UCTという基準を用いると、シミュレーション回数を無限にすれば最善手が求まることが理論的に保証されている。UCTは、平均勝率が高く、シミュレーション回数が少ない手を優先的に選ぶ。この論文は、平均勝率以外にもシミュレーションする盤面を選ぶ方法を提案している。
アイディアとして、囲碁では手順に(ある程度)関係なくいい手というものが存在することが仮定となっている。盤面sから打つ着手aの価値を判断する方法として、それまでのシミュレーションで盤面sを経由して(直後でなくても)aにたどり着いたようなケースの勝率を考えている。
ただし、単独では良い基準とならない(仮定が常に成立するとは限らないため)ので、UCTとの重み付き線形和を最大にするような手を選択する手法を提案している。