Hatena::ブログ(Diary)

hiroyukikojimaの日記

2008-07-27 『入門ベイズ統計』の読みどころ

 今回は、前回の日記の補足。

 前回の統計学の面白さはどこにあるか - hiroyukikojimaの日記松原望先生の本

入門ベイズ統計―意思決定の理論と発展

入門ベイズ統計―意思決定の理論と発展

を紹介した。そのときは、この本を手にしていなかったので、早速注文した。そして今、手に入って、ぱらぱらと眺めてみた。そう、予想通り、これは名著『統計的決定』放送大学に大幅加筆をしたものだった。というわけで、紹介してしまった手前、責任をもってもうちょっとフォローしなければ、と思ってこれを書いている。

 この本は確かに名著である。その理由をいくつか挙げてみよう。まず挙げるべきは、

ベイズ推定の哲学的背景について包み隠さず正面から書いている

という点である。前回も書いたが、ベイズ推定(ないしベイズ統計、ないしベイズ逆確率、ないしベイズ理論)というのは、非常に「幻想的」というしかないような「思想」を持っているのである。その最たるものは、この推定による確率は、客観確率ではなく、(個人の内面に存在する) 主観確率だ、という点だ。(これを理由に、いったんは、フィッシャー・ネイマン統計に主流の座を奪われたのである) 。だから、このような方法論をウハウハ嬉々として受け入れられるか、アレルギーを発症するか、はその人の考え方や勉強の履歴によると思う。多くのベイズ理論の本では、この点を避けたり曖昧にしてごまかしているような印象を受けるが、真正面からその幻想的ともいえる「思想的背景」を説得しようという努力をしているのが、この本の真骨頂なのである。実際、41ページの研究ノートには、

今日"ふつう"の統計学である「ネイマン−ピアソン理論」は、実は「理論」というよりは「派」、「流派」と理解したほうがすっきりする点も少なくない。対するのが「フィッシャー派」である。

とまで大胆なことが書いてある。ぼく自身は、というと、正直最初は戸惑った。松原先生の講義を受けながら、心の中では、この理論の論理欠陥を探しだそうと躍起になっていた。今、思えば、講義中にずいぶん不躾な質問も発していたと思う。松原先生は、どんなぼくの失礼な、というか、無知蒙昧な質問にも、一つ一つ丁寧に答えてくださった。そうしたやりとりの中、ぼくの内面では、「ベイズ推定は幻想的・文学的である」という批判めいた結論と、「ベイズ推定には推定理論としての大きな可能性が潜んでいる」というわくわくするような高揚感とが、共存するようになったのだ。次に挙げるべきこの本の利点は、

ベイズ推定の応用範囲の広さを余すところなく書いている

という点だ。ベイズ推定は、くどくど繰り返しているが、幻想的ともいえる深い思想・哲学に裏打ちされているにもかかわらず、広く実用的なのである。いや、そういう実用性があるからこそ、そのような思想・哲学臭に目をつぶっている人が多い、といってもいいだろう。実際、本書には、最近どのネットユーザーも利用しているに違いないスパムメール・フィルターにはじまって、安全性の判定、ファクシミリなどの画像技術、医療におけるベイズ診断、図書の検索・分類技術、ベイジアンネットワークカルマンフィルターなどさまざまな応用例が網羅されていて驚かされる。とりわけ、ベイズ推定をネットビジネスに活かして一発当てよう、と企むなら、本書はアイデアの宝庫であり、そういう意味で必携だろう。もう一つ利点を挙げるとするなら、

ベイズ推定の数学的操作性について、親切な説明がなされている

という点だろう。例えば、ベイズ推定には、「逐次合理性」というめちゃくちゃすごい性質が備わっている。それは、以下のようなことである。

ベイズ推定というのは、外から入ってくる情報によって、判断を更新して行くものである。例えば、「職場の同僚のA子さんが、実は自分に惚れている確率」というものを考えよう。これをベイズ推定するなら、次のような感じでやることになる。まず、何も情報がない時点での勝手な思いこみを作っておく。これを事前確率という。例えば、事前確率として0.5を設定しておこう。次に、情報として、「A子さんは、かなりな頻度で、自分に視線を合わせる」というのが入ったとする。このとき、これを自分にとって好都合な情報として、確率は0.5から例えば0.7にアップデート(更新)される。(計算の方法は省略する。興味ある人は、拙著『確率的発想法』NHKブックスなどでどうぞ)。次に、「A子さんからバレンタインデーにチョコをもらった」、という情報が入手される。これで今、0.7の確率は0.8の確率にアップデートされる。もちろん、義理チョコである可能性も否めないので、確率1.0に更新したりはしないわけだ。

ここで「逐次合理性」というのは、事前確率0.5の段階で、2つの情報「A子さんは、かなりな頻度で、自分に視線を合わせる」「A子さんからバレンタインデーにチョコをもらった」がいっしょに入手されて確率を更新しても、今のように順々に情報が入って、その都度逐次的に更新しても、結果として0.8に更新される結末はいっしょになる、という性質のことである。(もうちょっと詳しい説明も、やはり拙著『確率的発想法』NHKブックスにて)。この性質は、推定としてはとても使い勝手がいい。何かをナビゲートしているとき、環境というのは随時変化する。その情報というのは、一個ずつ追加的に入ってくるものだ。だから、情報が入ってくるたびに、今まで得られた情報全部をすべて総合的に洗い直して判断をするのでは、時間も手間がかかりすぎて、状況変化に適切に対応できないだろう。しかし、ベイズ推定を使って状況判断をしているならば、新しく入手された情報だけを利用してアップデートすればいいのである。これまでの情報は、今の推定値にすべて反映されてしまっているから、忘れて(捨てて)しまっていいのだ。これはとても便利だし、人間に向いた性質だといえる。

この本に書かれているベイズ推定の数学的操作性についてもう一つだけあげるなら、それは、「ベイズ推定の一部分は、ランダムウォークの理論に帰着させることができる」ということだ。ここで詳しく論じることはできないけど、ロジスティック変換というのを利用すると、ベイズ推定の方法論というのは、ランダムウォーク(酔歩)の数列と見なすことができるのである。さきほどの例でいうなら、「職場の同僚のA子さんが、実は自分に惚れているかどうか」という判断に対して、「A子さんは、かなりな頻度で、自分に視線を合わせる」や「A子さんからバレンタインデーにチョコをもらった」などの情報が入るたびに、「正真正銘惚れられている(確率1.0)」と「全くの想定外(確率0.0)」の間で、自分の判断が揺れる様子、つまり前者と後者の間を自分の気持ちが右往左往(ランダムウォーク)する様子を描写している、と見なすことができる、ということである。

 さて、上記のような本書の効能をめちゃめちゃ述べまくった上で、やはりブログ読者への良心から、欠点についても書き留めておかねばならないだろう。

確かにこの本は名著なのだが、二つの点で覚悟が必要である。第一は、もともと放送大学の教科書なので、「講義があることが前提となって書かれている」という点だ。数学が苦手だから中学や高校の教科書を買ってきて勉強し直している、という人をよく見かけるが、この戦略はうまくないことが多い。教科書だから親切な説明がなされている、というのは誤解である。なぜなら、教科書というのは、講義で補完されることを前提として書かかれている。だから、潜在的に、ないし、確信犯的に、説明の行き届かないところや無味乾燥なところがあるのだ。練習問題に解答がない場合も多い。(載せちゃうと学生に宿題に出せないからね)。このように教科書というのは一般に独習に向かないが、そういう意味で、本書も教科書としての欠点を持っている。ぼく自身は、講義を聴きながら読んだので大丈夫だったが、もしも独習したら、ここまで絶讃できたかどうかはわからない。第二は、数学的には大学教養程度の数学は前提となっている、という点である。少なくとも、大学の積分の知識、具体的にはベータ分布、正規分布などの積分表現とその計算くらいはできないと読むのは苦しいだろう。このような難点を挙げると尻込みしてしまう人も出るかもしれないが、それでもこの本はベイズに興味惹かれる人は手にしてみたほうがいいと思う。わからないところは、飛ばすなり、他の入門系の本(例えば、ぼくの本。しつこいってか?)を傍らにおいて参考にするなりして、ハンドブック的に使っても十分な価値のある内容だからである。そして、最も強調したいことは、

ネットビジネスでIT長者を目指すなら、ベイズ理論は最も安価なツールになる!

ということである。なぜなら、ベイズ推定をネットに利用することは、「自分のクローン」のような人工知能をネット上に潜ませることと同じなのである。このことは、ベイズ推定が事前確率という形で恣意性を持っており、したがって「主観的」確率であるという「弱点」を、むしろ逆手にとって「利点」に換えているものだといえよう。だからこそ、ビル・ゲイツは、2001年の基調講演で、「21世紀のマイクロソフト社の戦略は、ベイズである」と高らかに宣言し、世界中からベイズ理論の専門家をヘッドハントしたのだ。このゲイツの話を耳にしたとき、ぼくは、21世紀はいずれベイズの時代と呼ばれるようになる、と確信したけど、既に早々になっちゃった感があるね。(って、ぼくだけか??)

 ベイズ推定のもうちょっと詳しい解説は、いずれこのブログにも書くつもり。お待ちあれ。