Hatena::ブログ(Diary)

hiroyukikojimaの日記

2014-04-13

ミス・ユニバース日本代表の統計学

18:39

 今、統計学系の新書を執筆している途中だ。ぼくの次の刊行物は、来月に出るPHP新書なんだけど(詳細はもう少し時間が経ってからで紹介する)、その次に刊行すべく今執筆中なのが、統計学についての新書ということ。おまけに、来月に出るある雑誌の統計学の特集にも寄稿することになっている。なので、今年に入ってから、ずっと、数理統計学の復習と統計学を利用したビジネスシーンのリサーチをしていた。そんな中、とても面白い本を見つけたので、今回はそれをエントリーしようと思う。

その前に、近況を少々。

もうね、いくつかのことを誰かがぼくに止めて欲しいよ。まず、このどうにもならない食欲を、誰か止めてほしい。あとね、2ちゃんねるの生物板をいい歳して一日中閲覧する、このとんでもなく無駄な時間の悦楽を誰か止めてくれ(書き込みはしとらんぞ)。とりわけ、アスキーアートが面白すぎて癖になってる。それから、将棋タイトル戦、将棋・電王戦、stap現象関係の記者会見のノーカット中継が嬉しすぎて、ニコ生のプレミアム会員になってしまいそうな勢いの自分を誰か制止してくれたまえ。あとあと、今年に入って、3ヶ月で5回もバンド・赤い公園のライブに行ってしまったこのアホおやぢを誰か諫めて欲しいぞ。

まあ、近況はそんなもんで、本題の統計学の話。今回紹介したいのは、鈴木義一郎『情報量基準による統計解析入門』講談社サイエンティフィク。これは、めちゃくちゃ面白くて為になる本だった(リンク貼るけど、絶版みたいだね)。

情報量規準による統計解析入門

情報量規準による統計解析入門

この本は、基本的には、世界に冠たる赤池情報量基準(AIC; Akaike's Information Criterion)というものを紹介・解説する本だ。でも、それだけじゃなく、統計学全体を非常に簡潔に総覧し、わかりやすく解説しているみごとな本でもある。点推定、仮説検定はいうまでもなく、分散分析、回帰分析、重回帰モデル、時系列分析、主成分分析と、ほぼすべての項目をたった160ページほどの薄さで解説している。とは言っても、ページ数が少ないだけに、これを初学者が全くの白紙から読みこなすのは難しいと思う。むしろ、一度一通り統計学を勉強した人が、頭を整理し、別の観点から統計学の全体像を理解するのに適しているだろう。

 この本のすばらしさは、「例の挙げかた」に尽きていると思う。ほんとに、例があまりに適切にして面白すぎるのである。

それをわかってもらうには、主成分分析のところに登場するミス・ユニバース日本代表」のプロポーションのデータがいいだろう。第2回から第11回の10人の代表の身長・体重・バスト・ウェスト・ヒップのデータが紹介されている。そして、その5つの変数を主成分分析をして、誰が中でも「際だった特徴」を備えているかを見つけだすのである。

主成分分析というのは、今の例でいうなら、「5つの変数からデータが成るとき、それらを変数変換して、寄与度が大きい変数順に整理する」技術である。

さすがにこのエントリーで詳しくは述べられないが、本質的には線形代数における「固有値の理論」の応用である。もう少しだけ踏み込むと、2次形式(ax^2+2bxy+cy^2のような2次式)は対称行列を使って表現することができ、さらに対称行列は直交行列を使って対角化される。対角化に現れる数値が固有値と呼ばれる。このとき、各固有値に対応する固有ベクトルにある方法で対応するベクトルが主成分であり、その分散固有値に一致する。そして、固有値が大きい順に「第1主成分」、「第2主成分」、・・・などと名付けられる。この主成分は、要するに、元のデータにまつわる変数を線形に処理して、標本たちの特徴に大きく寄与するもの順に並べたものなのである。ちなみに、2次形式と対称行列の直交化については、拙著『ゼロから学ぶ線形代数講談社が(我ながら)良く書けていると思うので、是非参照して欲しい。

 ミス・ユニバース日本代表プロポーションのデータの例では、主成分分析において第1主成分と第2主成分だけを取り出して、それだけから何がわかるかを考察している。元の変数は5つだけれど、変数変換後では寄与度の大きい2つの変数だけに注目して、残る3つは無視しているのである。結論はどうなったか。

第1主成分と第2主成分だけを見ると、7番目のデータの日本代表が際立って数値が大きい。すなわち、特異なデータなのである。そして、このミスこそ、昭和34年代表の児島明子さんであり、唯一、ミスユニバースの栄冠を勝ち得た人だったのだ。次に突出しているのは、その6年前の伊藤絹子さんだが、彼女は3位入賞している。つまり、ミスユニバースを獲得したり、入賞したりするほどの特別なプロポーションを持っている人は、統計的に抽出することができ、さらにそれは5次元のデータを全部使う必要はなく、第1主成分と第2主成分だけで選り分けられる、という結論なのである。いやあ、なんだかめちゃめちゃ面白いし、読んでて楽しかった。

 この本のテーマは、先ほど述べた通り、赤池情報量基準(AIC; Akaike's Information Criterion)である。言い換えると、「モデル選択」の理論の紹介なのである。この理論についてぼくは少ししか本を読んでいないが、こんなにわかりやすい解説は初めてだった。この知識をざっくり手に入れたい人にはお勧めである。

 背景には、カルバック・ライブラー情報量という計算式がある。これは、「2つの関数の似ている度」を計測する指標だ。関数f(x)とg(x)のカルバック・ライブラー情報量は、f(x)÷g(x)の自然対数をとったものにf(x)を掛けて積分したものと定義される。非対称だし、変な式なのだけど、f(x)log(f(x)/g(x))はf(x)logf(x)−f(x)logg(x)と変形できて、前者は物理でいうところのエントロピーだから、「情報量」と言われれば、なるほどという感じもする。ちなみに、ぼくが遠い昔、河合塾数学講師をしていた頃、大学受験問題として、このカルバック・ライブラー情報量の計算が出て(静岡大学だったように記憶しているが定かではない)、この式はなんじゃらほい、と不思議に感じたものだった。それで、知り合いの予備校講師たちに聞いてみたんだけど、誰も正体を知らなかった、という思い出がある。そして、その後に経済学大学院入学して統計学を学んでいるときに、この式に再会したときはとてもびっくりしたものだった。赤池情報量基準は、このカルバック・ライブラー情報量を上手に変形することで得られる。

ゼロから学ぶ線形代数 (KS自然科学書ピ-ス)

ゼロから学ぶ線形代数 (KS自然科学書ピ-ス)

最後に、近況ついでとして、最近聴きくるってるロックアルバムを紹介して終わろう。それは、前回(赤坂ブリッツで、Tricotのワンマンライブを観てきた。 - hiroyukikojimaの日記)でも紹介したバンドTricotの(幻の)デビュー盤『爆裂トリコさん』である。前回の時点ではあまり聴き込んでいなかったので、中身には詳しくは触れなかったが、聴き込んでみると、あまりにすごいアルバムである。ある意味、メジャーデビュー盤の『The』よりも傑作かもしれない。何がすごい、って、その一曲一曲の斬新さである。意気込みである。新しい音楽を生みだそう、というエネルギーである。また、青くさい切なさに満ちた歌詞の曲がいくつか入ってることにもぐっとくる。青春は二度はない。メジャーになってしまったら、もう、そこには青くさい青春は失われ、「気概ある計算」だけがポイントになる。だから、この幻のデビュー盤は、ぼくにはこよなく愛くるしいのである。

とりわけ、「42°C」という曲は、稀代の名曲だと思う。リズムを切り替えていく手法といい、クリムゾン的なミニマリズムといい、全くすごいのだけど、とにかく歌詞が泣ける。「誰か大事な人を失ってしまったその後の世界を生きる」というテーマの歌詞で、ぼくは、この曲をリピートしながら、さめざめと何度も泣いてしまった。この歳になると、何人もの友人に先立たれている。そのとき思うのは、「彼らが逝ってしまった」というのではなく、「ぼくがこっちに残されてしまった」という感慨だ。この曲は、そういう孤独感をみごとに歌詞にしている。こういうのは、青くさい感傷と漠然とした将来への不安感の中でしか書けない。そういう意味で、Tricot(と中嶋イッキュウ)の最高傑作の曲となるであろう。

爆裂トリコさん

爆裂トリコさん