赤池情報量基準ってナニ?

 ゴールデンウィーク突入で、本学ははざまの平日も特別休校になったので、一週間の連休。そんなわけで、科研の論文執筆を進めるとともに、統計学に関する新書の執筆を進めている。(編集者さん、ちゃんと休日返上で書いてますからね〜。アリバイ・アリバイ)。統計学の新書を書く都合上、赤池情報量基準を勉強した。もちろん、高度すぎて新書には取り入れられないけど、著作の奥行き・隠し味として知っておきたいからだ。
それで、前回(ミス・ユニバース日本代表の統計学 - hiroyukikojimaの日記)には、鈴木義一郎『情報量基準による統計解析入門』講談社サイエンティフィク(以下、この本のことを[鈴]と略記する)を紹介したわけだけど、話が横滑りをしてるうちに、結局、赤池情報量基準について書くのを忘れてしまったのだ(笑い)。そんだから、今回は、ちゃんと赤池情報量基準について、わかった範囲で書こうと思う。

情報量規準による統計解析入門

情報量規準による統計解析入門

もちろん、にわか仕込みなので、正しく解説できないかもしれないし、上手に解説できない可能性も高い。でも、一般レベルではあまり知られていない知識(ぼくも知らなかったし)だと思うので、なんとかぼくの理解を形にして、皆さんの参考になればと思う。
そこで、今回(GWの勢いにまかせて)、追加で読んでみたのが、前から買ってあって未読だった、『モデル選択』岩波書店所収の解説論文、下平英寿『情報量基準によるモデル選択とその信頼性評価』である(以下、この論説を[下]と略記する)。
モデル選択 予測・検定・推定の交差点 (統計科学のフロンティア 3)

モデル選択 予測・検定・推定の交差点 (統計科学のフロンティア 3)

ちなみに、この著者の下平さんは、ぼくの知り合い(昔なじみ)である可能性が高いと思う(違ってたらスミマセン)。この論文は、赤池情報量基準の詳しい解説から始まって、もっと最新の情報量(一般情報量基準、ベイズ情報量基準)なども解説している。とにかく、この論文の解説はみごとだと思う。ぼくが知りたいことにピンポイントで答えてくれ、しかもその説明がとてもわかりやすいし、きちんとした数式による計算と、イメージを与える図式とのバランスもとてもよいと思う。もしもぼくの知っている下平さんであるなら、彼らしいな、と思う。ただし、数理的なハードルが相当高いので、なんらかの数理科学の専門家であるなら読みこなせると思うけど、一般の人には苦しいに違いない。それでも知りたい、という一般のかたには、[鈴]のほうをお勧めする。
まず、統計的推定というのは「モデルを設定した上で、そのモデルのパラメーターを完全に特定する」作業だということを確認しよう。ここで、モデルというのは、注目している不確実現象を簡単な確率的な構造で表現するものであり、モデルの選び方はいろいろある。「どのモデルを設定すべきか」を考察するのが、「モデル選択」の理論であり、その選択基準の一つを与えるものが赤池情報量基準(AIC)なのである。
 [鈴]では、モデル選択を説明するための例として、最も簡単な確率的構造「コイン投げ」を挙げている。その際、モデルの選択肢として、「理論モデル」と「経験モデル」を用意する。「理論モデル」とは「表の確率0.5」とするもの。一方、「経験モデル」のほうは「実際に投げた回数のうちの表の占める割合」とするもの。例えば、10回投げて6回表が出た場合、「表の確率0.6」とするわけだ。問題は、どちらが適切なモデルかをどう判断したらいいか、ということだ。
 一般には、「仮説検定」とか「区間推定」とかで行われる。仮説検定では、一方を帰無仮説として、他方を対立仮説と設定して検定を行う。区間推定では、(意味的には仮説検定と同じだが)、信頼区間を求めてどちらがその範囲に入るかで判定する。結論は投げた観測回数に依存することになる。10回だけ投げて表が6回が表だったのと、50回投げて表が30回だったのでは、選択されるモデルが異なる。これを、特定の計算によって判断してしまおうというのが赤池情報量基準なのだというのが、[鈴]での説明である。
 具体的には次のような式を用いる。観測回数をnとするとき、
(理論モデルのAIC)=1.3862n
(確率0.6とする経験モデルのAIC)=1.3460n+2
この計算は、「モデルの当てはまりの悪さ」を評価するもので、「数値の小さいモデルを選択すべし」と判断するのである。ちなみに、観測回数が10回の場合には、後者のほうが当てはまりが悪いので、前者の「理論モデル」を選ぶ。観測回数が50回の場合には、前者のほうが当てはまりが悪いので、後者の「経験モデル」のほうを選択するのを推奨するのが赤池情報量基準である。
 ここで、この計算(AIC)とはいったいナニか、というと、これは[(−2)×{(最大対数尤度)−(パラメーターの個数)}]という計算である。理論モデルの場合は、パラメーターがなく、単に確率を0.5と設定しているので、AICの定数項がない。他方、経験モデルのほうは、確率をパラメーターpで設定し、「6割が表となるという現象の確率」が最大(=最大尤度)となるパラメーターpの値を0.6と求めるので、パラメーターの個数が1個であることから、AICの定数項が2となっている。つまり、赤池情報量基準は、検定や区間推定で行っている判断を、情報量だけで判断する技術だと[鈴]では説明している(ように読める)。
 ここで最大対数尤度をもうちょっと説明してみる。最大対数尤度というのは、与えられた母集団のモデル(確率分布モデル)において、その中のパラメーターを動かしてみた中で、実際に観測された現象の確率が最も大きくなる(最尤になる)ときのその確率値の対数を取った値のこと。例えば、コイン投げでは、2項分布のモデルを設定しているので、表の確率pがパラメーター。観測値が「10回のうち6回表」だったら、それが起きる確率は(定数)×(pの6乗)×((1-p)の4乗)。この確率値を最大にするpは(微分法を使えば)0.6であるから、(0.6の6乗)×((0.4の4乗)の対数をとったものが、最大対数尤度となる。ここで、最大尤度(パラメーターを動かしたときの、観測現象の生起確率の最大値)を主役に据えるのは、統計学の思想を如実に表している。現代統計学の根底には、「最も確率の大きいことが起きているはず」という「最尤原理」がドグマとされているのである。
 [鈴]では、分散分析とか回帰分析でのAICの使い方も説明しているが、ぼくにはやはり「AICとは何者か」が掴みにくかった。それに対して、[下]のほうは、「モデル選択」の意味が非常に明確につかめるように、例を工夫してくれていて、ぼくには「なるほど」感が大きかった。
 [下]で挙げられている例は二つ。第一は、住宅価格を13個の変数から説明しようとする重回帰分析。第二は、生物の進化上での分岐をDNA配列から推定する確率過程モデルである。
 住宅価格の例では、ボストンの住宅価格を、犯罪率や窒素酸化物濃度や古さやハイウェイへのアクセスなど13個の変数によって、その影響の度合いを説明する重回帰分析を提示している。この分析では、13個のうちの3個の変数のt値が小さく、住宅価格に影響がないかもしれないと考えられ、変数として除去すべきかどうかが問われる。これをAICで判断する例を与えている。
 進化的分岐では、6種類の哺乳類、すなわち、ヒト、アザラシ、ウシ、ウサギ、マウス、オボッサムについて、進化の過程でどのように異なる種に分岐したかを、DNAの一致と不一致の度合いから確率論的に決定することを考えている。その際、分岐の樹形図は生物学的に105通りあるらしく、そのどれが妥当かを考えるのが「モデル選択」となる。これについて、AICの使い方を説明している。
どちらの場合も、[(−2)×{(最大対数尤度)−(パラメーターの個数)}]を計算して、数値が小さくなるものを選ぶ、ということである。この[下]で挙げられている例は、たぶん、モデル選択という問題設定の本質を良く説明しているものに違いないと思える。少なくとも、ぼく自身はとてもよく納得できた。
また、この解説論文では、カルバック・ライブラー情報量(前回ミス・ユニバース日本代表の統計学 - hiroyukikojimaの日記でも触れた)についてのとても明快な説明もある。[下]いわく、確率にlogをつけてマイナスをつけたものを情報量とするのは自然である。なぜなら、確率が低いほど情報量が大きくなることが表現されるからである。さらには、logは積を和に変換するので、「試行の繰り返し→確率の積→情報の和」となるから妥当である。また、シャノンの情報理論によって、確率のlogにマイナスをつけたものの期待値が情報量の期待値となる。これは(-1)×(確率×log(確率)の和)となるが、真の確率はわからないから、log(確率)のほうをモデル化の確率としたものを扱う。それによって、2つの確率分布の「似ている度合い・近さの度合い」を定義することができ、それこそが前回に解説したカルバック・ライブラー情報量なのである。このカルバック・ライブラー情報量をテイラー展開することで、まず、竹内情報量基準(TIC)というのが得られるらしい。そして、その計算を簡単化したものが赤池情報量基準(AIC)なのだそうである。[下]には、その式の導出がきちんと書かれている。しかし、この計算はかなりヘビーで、ぼくはきちんとフォローできていない。
 こんなふうにいろいろと発展的な勉強をしてみると、統計学も面白いなあ、というわくわく感が生まれる。ぼくの2006年時点での統計学の個人的理解を本にしたのが、小島寛之『完全独習 統計学入門』ダイヤモンド社で、つい最近、19刷になった(これが言いたくこの長いエントリーを書いてたりして。笑)。
完全独習 統計学入門

完全独習 統計学入門

この本に書いたことは、いまだに入門書のブレイクスルーだと思っているし、初学者には最もわかりやすい最適の本だという自信がある。ただ、この本にはうすうす感じていながら、明示的には書かなかった感覚もある。それを今はきちんと書けるようになっていると思う。例えば、このエントリーに示したような「最尤思想」がその一つである。たぶん年内に刊行できるであろう新書は、そういう「統計学の必然性」をぼくの感覚から提示するものとなると思う。