shorebird 進化心理学中心の書評など

2018-06-10 書評 「統計思考の世界」

[] 「統計思考の世界」 09:52  「統計思考の世界」を含むブックマーク



本書は三中信宏による「思考の体系学」「系統体系学の世界」と併せて単系統群トリロジーを構成する統計思考にかかる一冊.三中は様々な場所でリサーチャー向けに統計学の講義を担当しており,その際にカリキュラムとして話してきた内容が整理されたいわば「講義録」になる.

後の2冊が春秋社,勁草書房といういかにも文系向けの出版社から,「縦書き物理本のみ」という数字アルファベット数式混じりの文章を扱う上で全くユーザーフレンドリーでない形式で出版されたのに対して,本書は技術評論社から「横書き電子版同時出版」というスマートでユーザーフレンドリーな形式で出版されておりうれしい限りだ.


プロローグ

冒頭ではいきなり,昨今では「魑魅魍魎のごときビッグ・データが昼夜を問わず出没し,データ・サイエンティストと名乗る錬金術師どもが跳梁跋扈」する中,「至高の統計分析」があるとすがりつこうとしている人もいるかもしれないが,本書では「データの荒海を泳ぎ切ってもどこにも『究極の真実』などありはしないのだ」という引導を渡した上で憑き物を落として差し上げると言い切っていて楽しい.「統計学はそのときその場限りでの「最良の結論」を導く便法にすぎない」というのが本書を貫く三中の主張になるのだ.


続いて統計学はヒトが元々持っていた推論能力を強力に補佐する「武器」であり,それを使うことにより目の前の現実に対する認識がどのぐらい深まるかが重要であると強調し,統計修業の助けになるのは(数式と数学力ではなく)図表と想像力であるとコメントしている.

またそびえ立つ統計学の世界を登攀するためにはまず全体像の把握が重要だとし,三中が遙か昔に手書きで一気に書き上げた「統計の世界全体を俯瞰する統計曼荼羅」を提示し,読者にそれぞれ自分の精進の成果としての「曼荼羅」を描くことを勧めている.


第1講 素朴統計学:涙なしの統計ユーザーへの道

まず簡単な図形変形操作の前後の図表を比較して,ヒトは皆直感的な統計学的センスあるいは「素朴統計学」を持っていること,それは進化心理学的に適応産物であると説明できることを示す.しかしそのような進化産物には認知バイアスも含まれる.三中は特に「心理的本質主義」が曲者で,「ない」ものを「ある」と誤判定するリスク(このため第一種過誤を第二種過誤より犯しがちになる)を強調する.

次に本書のテーマである統計思考つまり「アブダクション」推論形式もヒトには進化的に備わっているのだとして,それはたとえば狩猟の際に残された手がかりから獲物の正体や移動先を推論するのに有用だったからだろうとギンズブルグの「痕跡解読型パラダイム」を引用しつつ解説している.


ヒトの認識が特に因果やエージェントの意図の推定において第1種過誤に陥りやすいことは,それがリスク及びその回避に関連しやすく進化適応として火災感知器と同じ理屈で説明されることが多いが,より抽象的なレベルではそれは心理的本質主義とも関連するのだろう.なかなか面白いところだ.


第2講 グラフィック統計学:数と図のリテラシー

第2講は統計分析の前に「生のデータをみること」の重要性について.現在では様々な統計ソフトによって統計計算自体は楽になった.その分,まず「データをみる」ことが重要だと三中は指摘する.そしてその際には直感的で個人的なやり方と数字を信用する合理的なやり方の両者を併用することが肝心であり,それを可能にするのが統計グラフィックスなのだ.

ここからはその例示になる.三中は3つの生育条件で育てた植物標本の乾燥重量データ,条件ごと10個づつ,合計30個のデータをどう示すのかを,インデックスプロット,ドット・プロット,ドット・チャート,箱ひげ図で示してみせる.これはヒトの認知能力を積極的に利用してデータを「読む」試みということになる.もちろん認知バイアスが働く可能性もある*1.基本的にメリットはそのリスクを上回るだろうが,注意を払う必要がある.三中はアブダクションに安全な王道はなく,いつもデータと対話し,試行錯誤を繰り返しながらよりよい統計モデルへと地道に積み重ねるしかないと戒めをおいている.


第3講 観察データから統計モデルへ

いよいよデータから統計モデルへの橋渡しの講義になる.まずあるデータとその直線への当てはめの例を見せる.そしてこれは「いったい何を説明しようとしているのか」と問いかける.

三中は,これは「観察データの背後に不可視の関係性・規則性(心理学的本質)があり,それがデータの生起を支配している」という直感的な信念があり,それによる単純化された説明をしようとしているのだという.つまり統計学科学哲学的ルーツは経験主義であり,その認知的ルーツは素朴統計学をふまえた思考と推論であり,そうであるなら統計理論の根幹はすべて直感的に理解できるはずということになる.

ここからその理解をもって行うピアソンのパラメトリック統計学の解説になる.ピアソンはまずデータのばらつきを正規分布に当てはめようとした.三中はそれを元にパラメトリック統計学の基礎的な概念を説明する.

次はフィッシャーの実験計画法の解説になる.フィッシャーは推測統計学の基礎を築き,帰無仮説を明示することにより有意水準での検定を実行するという方針を据えた.(これに対してネイマンーピアソン流の統計検定は帰無仮説と対立仮説を対比させ,どちらを選ぶかの意思決定を行うという枠組みになる)フィッシャーの計画法の要諦は「反復実施」「無作為化」「局所管理」ということになる.これは現在でもしばしば見過ごされる重要な原則になる.三中はここでそのような残念な例をいくつか挙げている.


第4講 統計学をめぐる論争は今なおやまず

引き続いての第4講は統計データ解析を巡る理論の誤用から始まる.ここでは2016年にアメリカ統計学会が出したp値を巡る誤用にかかる声明が採り上げられる(これについては当ブログでもすでに採り上げている.http://d.hatena.ne.jp/shorebird/20161007参照).三中は以下のようにコメントしている.

  • このp値を巡る「誤用」の存在は以前から知られていた.実験目的が有意差の発見のみにあれば研究分野を問わず様々な「不正」手口が編み出されるのは不思議ではないだろう.
  • 実験系の科学では再現可能性がポイントになる.非実験系の科学では再現可能性よりも,そもそもちゃんと推定できているのか,まっとうに説明できているのかに重きがおかれるべきだろう.私の経験では統計ソフトの使い方を教えるよりは統計のものの考え方を教える方が遙かに難しい.
  • アメリカ統計学会の声明では「p値は仮説の真実性や証拠や効果量と関係がない」としている.しかしこれらは統計学をちゃんと学んでいれば犯すはずのない間違いだ.統計ソフトのインターフェイスが快適になればなるほど統計ユーザーはものを考えなくなるようだ.
  • 推論をいかに進め,結論をどのように解釈するのかは,統計数学だけの問題ではない.

ここから三中は古典的仮説検定の方法論にかかる(科学哲学的な)論争と時代の移り変わりを解説する.

  • 古典的な仮説検定の方法論は時代によって移り変わった.フィッシャーは対立仮説を設定せずに帰無仮説を検定しようとし,ネイマンーピアソンは帰無仮説に対置する対立仮説を仮定した.
  • ネイマンーピアソンの理論は「統計学は意思決定のための理論である」という前提の上に立てられている.三中はこれを「意思決定に直結しない統計的な推論でさえ意思決定(推論する行為を選ぶという意味の決定)だとみなせばいい」というかなり強圧的な見解だとコメントしている.
  • フィッシャーが目指した統計的検定は科学的帰納のための手段であり,限られたデータからいかにして正確な推論を行うかに主眼があった.その仮説検定は「データのもとで帰無仮説を棄却する」ことのみを扱った.フィッシャーは同一条件の元での実験はただ一回限り可能であり,(ネイマンーピアソンのような)繰り返しサンプリングはあり得ないと考えていた.
  • この「データの一意性」と「母集団からの無限回抽出」を巡る両者の溝は深く,その論争は未だに未解決のまま放り出されているし,現在では忘れ去られているようである.
  • ロイヤルはネイマンーピアソンのパラダイムに深刻な問題があることを指摘した.それは「限られたデータがあるときに,それはどのようなときに一方の仮説を支持するが他方の仮説を支持しないといえるのか」という問題の解決を怠ってきたことだ.これは彼等のパラダイムが意思決定問題のためのみに定式化され,データを証拠とみなしてこなかったからだ.
  • 統計学者ロイヤルは新しい「データを証拠とみる」パラダイムとして尤度パラダイムを提唱した.これはフィッシャーの考え方に復帰しているといえるだろう.尤度パラダイムでは仮説間の証拠(尤度)による相対的な重み付けをするだけで仮説の受容や意思決定を伴わない.
  • 科学哲学者ソーバーは,得られたデータによって仮説の「真偽」を判断しようとする立場を「強確証/強反証」,仮説の相対的な支持の虚弱を判断しようとする立場を「弱確証/弱反証」と名付けた.これは統計推論をアブダクションとする立場を支えるものになる.

三中はこの講を,限られたデータから統計的推論を行うときには,我々は自分の手がけている科学がどんな性格を持ったものかを常に問い続ける必要があるのだとコメントして終えている.データをみて,統計的推論に入る前に,そもそも自分はこれから何をしようとしているのをはっきりさせておかなければ,よい統計の使い手にはなれないということだろう.


第5講 統計的思考に必要なリテラシー:文字・数字・図表

第5講はナボコフとブラウンの論争の紹介から始まっている.

  • ロリータの作者としても知られるナボコフはチョウを専門とする昆虫学者でもあった.ナボコフは中南米のヒメシジミ類の記載,分類,地理的分布にかかる多くの論文を発表している.これに対して同じく昆虫学者であったブラウンは,ナボコフはチョウの形態のデータを示しているにも関わらず統計分析をしていないと批判した.
  • ナボコフは,このチョウ類はそもそも分類が困難な種群であり,統計分析をかけたからといってきれいに解決できるはずがないと反論した.その際に「自然科学にとって哲学は重要だが統計学はそうではない」と口走り,ブラウンに即座に「近代的な分類学統計学を捨てたなら自然科学にはもはや変革は望めなくなる」と反論される.
  • ナボコフの真意は「どの形態形質が系統学的な重要性を持っているか」を見分けるアプローチの必要性を訴えるものだったが,この論争はすれ違いのまま終わった.これは数理的な統計的思考とソフトな直感的思考との対置を浮かび上がらせる.
  • 10年後に生じたクラスター分析手法を手にしたソーカル率いる数量分類学派と伝統的分類学の対立はこのナボコフーブラウン論争の再現というしかない.そして数量分類学は派わずか10年足らずで瓦解する.彼等の主張した手法の「客観性」と「頑健性」がいずれも幻影であることがわかってしまったからだ.

要するに統計学数学的手法や数理的側面のみに気を取られずに,背後に隠れた自分の直感にも目を向ける余裕を持った方がいいというわけだ.三中はここからデータや統計的推論の意味をダイアグラムによって直感的に把握する取り組みをチューキーやエプスタインを紹介しながら解説する.もちろんこのような図形表現であっても,それを正しく理解して適切に使うためには,訓練と経験つまり図形的リテラシーが必要になるのだ.


第6講 パラメトリック統計学:数理の世界

講義は「データをみる」「やろうとする統計的推論の哲学的な意味」「直感的把握の重要性」を経て「パラメトリック統計学という要塞の入り口」に到着した.ここからいよいよ数理部分に突入する.まず全貌を曼荼羅で確認し,その基礎が確率分布に関する数学理論にあることを示し,その解説になる.

ここからは初歩の数理解説だ.確率分布とは何か,その分布の形状を示すパラメータにはどのようなものがあるか,期待値,確率変数,平均,分散がまず説明される.

次に標本に基づいて母集団のパラメータを推定する問題(推測統計学),算術平均,偏差の集計(絶対値和と平方和)が解説される.ここではなぜ絶対値和ではなく平方和がよく用いられるのかの解説が深い*2

続いて推測統計学の重要な概念である「不偏推定値」と「自由度」の解説がある.ここも非常に深く解説されている.

そして最後に確率分布曼荼羅が掲載され,様々な確率分布間に美しい関係があることが解説されている.このあたりはパラメトリック統計学をかじろうとしたときに最初に圧倒される部分であり,なぜ「正規分布」が「最強」の確率分布なのかがうまく示されている.


第7講 実験計画法(1):完全無作為化法への道,第8講 実験計画法(2):分散分析と多重比較

ここからは実践的な講義になる.採り上げられるのはフィッシャーによる実験計画法だ.ここでなぜ正規分布パラメトリック統計学を「統治」しているのかが解説される.

  • 正規分布する確率変数の線形変換がやはり正規分布である(正規性の保存).これは実験計画法の統計的検定をする上で重要な性質になる.
  • 母集団がいかなる確率分布に従っていても,無作為抽出された標本の標本平均は,データサイズが無限大になれば正規分布に収束する(中心極限定理).そして通常母集団について最初に関心を抱く統計値は平均であるために正規分布は別格の存在になった.
  • 確率分布の関係ネットワークの中で正規分布は中核的なハブになっている.

そして特にこの3番目を示すために実験計画法が詳しく解説されている.具体的に詳しく解説があるが,大きな理論的な流れは以下のようになる.

  • 実験計画法の原則は「反復実施」「無作為化」「局所管理」である.そしてこれは実験設計段階から始まる.
  • 「反復実施」が重要なのは,様々な偶然によって生じる誤差を正規分布によってモデルに組み込めるようにするためである.「無作為化」は交絡を避けるために重要になる.
  • この原則に従って計画された実験は,線形統計モデル(平均と処理効果と誤差を足しあわせてデータを説明する.誤差効果は独立で同一の正規分布に従う)を仮定することができる.
  • 統計処理はデータのばらつきを定量化する事により行う.全偏差=処理偏差+誤差偏差になり,誤差の正規分布の性質から全平方和=処理平方和+誤差平方和となる.さらに自由度からそれぞれの分散の不偏推定値(処理平均平方,誤差平均平方)が得られる.そしてのその比がF値になる.これはいわば処理効果のS/N比になる.

  • ここで処理効果がないとしたときの線形統計モデルを「帰無モデル」と呼ぶことにする.このモデルでは(偏差が誤差偏差のみなので)データが正規分布に従うことになる.
  • これを平均と分散で一次変換すると標準正規分布になる.この確率変数の平方和を分散で割ったものはカイ二乗分布に従う.また独立なカイ二乗分布をする二つの確率変数を対応する自由度で割った値の比はF分布に従う.
  • つまり帰無仮説の元では,データから得られた偏差からF値までの統計量について確率分布が与えられていることになる.そしてこれにより処理平方和と誤差平方和のF値に基づく分散分析(ANOVA)の仮説検定,帰無仮説と対立仮説についてのF検定が可能になる.
  • また単に処理効果があるかないかではなく,どの水準(実験計画法の処理条件)が効いたのかが知りたい場合もある.まず二群間の平均比較(群1と群2の平均間に有意差があるのか)についてはt検定が可能となる.
  • また多重群の比較も可能だ.多重比較の場合には群の平均のペア数が多くなり危険率が増幅されるという問題が生じる.これは多重比較問題と呼ばれ,パラメトリック統計学の世界では長年議論されてきているもので,いくつかの補正法が提唱されている.

F値,t検定,分散分析,F検定の互いの関係は統計を囓り始めた最初は結構混乱しやすい部分であり,この部分は頭の交通整理にとても役立ちそうだ.ここに関する詳細曼荼羅があればさらにわかりやすかっただろう.


第9講 実験計画法(3):乱塊法,要因実験,交互作用

第7〜8講は完全無作為法の解説だった.ここからより実務で使われることの多い応用的な手法が解説されている.

  • 無作為化する理由は背景要因を正規分布する偶然誤差にするためだ.しかし背景要因に関する情報が事前にあればそれを実験計画に組み入れることにより,より精度の高い分析が可能になる.
  • その背景要因が何らかの勾配を持つものであれば,圃場を勾配と直交する様に区切って,その上で水準を無作為配置することによってより精度の高い分析が可能になる.これを乱塊法と呼ぶ.(詳しくやり方が解説されている)
  • 複数の要因についてそれぞれ複数の水準を設定して実験する計画も可能だ.2要因の場合には2要因乱塊法が使える.さらに多要因にする場合には各要因の主効果のほかに交互作用効果を考える必要が生じる.交互作用をまず把握するには可視化して直感的にとらえるのも有効だ.
  • さらに(研究目的や実験作業上の便宜の観点から)複数の要因間に差を付けて実験計画し分析することもできる.(乱塊法の応用として分割区法が説明されている)

第10講 線形モデルのさらなる拡張

第10講ではここまでの3講で説明してきた線形統計モデルの拡張に話が進む.拡張前にそもそも線形統計モデルとはどのような仮定の上にあったのかが整理される.

  • 線形統計モデルの重要な仮定は誤差効果が独立かつ同一の正規分布に従うというものだ.独立性はサンプリングの無作為化で満たされる.
  • しかし正規性はあくまで仮定であり,実際のデータがこの仮定を満たしているかどうかは検定されるべきものになる.また同一性(等分散性),特に水準間での同一性も検定されるべきものになる.

  • これまで説明した分析においては処理効果は離散的な定数と見なしてきた.これもモデルにおける仮定の一つになる.
  • 離散的な処理効果ではなく,連続的な変数に対して同じく連続的な効果を仮定することもできる.このような分析の一つが回帰分析になる.このうち「Y=β+αX=誤差」という形を取るものは線形回帰分析と呼ばれる.
  • また回帰モデルの中に離散的パラメータと連続的パラメータをともに含むものは共分散分析,さらにモデルが多項式関数になっているものは多項式回帰分析と呼ばれ,これらを含めて「一般線形モデル」あるいは単に「線形モデル」と呼ばれる.これらはすべて「誤差項が正規分布に従う」という仮定をおいていることで共通している.(そういう意味では「正規分布帝国のしもべ」である)

  • ほんの半世紀前までは,この仮定に従わないような「お行儀の悪い」データは適当な変数変換(対数変換や平方根変換など)を加えて正規分布に矯正するというお作法がごく普通に用いられてきた.しかしこれは背後の誤差構造まで変数変換にかかるという副作用がある.
  • 正規分布に従わないデータに対しては,パラメトリック統計学をさっさとあきらめて(比例尺度だけでなく順序尺度や名義尺度などのデータも扱える)ノンパラメトリック統計学に直行するという選択肢ももちろんある.しかし比例尺度の持つ情報を捨ててしまうので分析の精度が落ちることもまた事実だ.

  • ところが1970年代から第三の道が切り拓かれた.これは「一般化線形モデル:GLM」と呼ばれる線形統計モデルの別次元への一般化だ.これは誤差の「正規性」の仮定をゆるめることにより正規分布以外の確率分布を誤差に持つような場合でも線形モデルとして分析できるようになった.
  • GLMでは誤差分布が「指数分布族」で表現される確率密度関数をとるようなすべてのデータに対して適用できる.またGLMはデータと線形予測子とをリンク関数を介して結びつけることを可能にする.これはきわめて広範囲の実用性を持つ.(ここで性比*3と個体数の関係という比率データのロジスティック回帰の例,及び処理効果があるばらつきを持つ変数であると考えられる場合の混合効果モデルの例が解説されている.)

第11講 統計モデル選択論:統計学的アブダクションのために

ここまで様々な統計モデルが解説されてきた.ではあるデータに対してどの統計モデルを当てはめるべきかはどう考えればいいのだろうか.三中はこれは「複数のモデルの中から『最良の候補』を選ぶ」問題であり,データに基づく統計学的なアブダクションの基準をどう設けるかを考察することになり,より一般的な科学哲学の問題だとしている.

  • 最良モデルは真実である必要はない.現在あるデータをもとに候補の中のどれが最良なのかを決めればいい.
  • これを決める際には,「パラメータ推定問題」と「モデル選択問題」という質的に異なる二つの問題に直面する.
  • パラメータ推定問題は何らかの最適化基準を設ければ解決できる.よく用いられるのは最小二乗法だ.
  • モデル選択問題を考えるには計算の前に「そもそもよいモデルとは何か」を問い直さなければならない.
  • これらの問題を考えるには「尤度」概念が有用だ.尤度とはある仮説の元で観察データが生じる確率の積として定義される.そしてあるデータの元での尤度を最大化する方法は最尤法と呼ばれる.最小二乗法はある回帰モデルの中の未知パラメータの最尤推定の方法だと理解できる.
  • しかし尤度はどのようなモデルをそもそも仮定すべきかという点については何の制約もない.パラメータ数の多い複雑なモデルの方が(パラメータを最尤推定した場合の)尤度が高くなる.しかしさらに抽出されたデータにそれが当てはまるかどうかは別の話になる.
  • これを解決したのが「赤池情報基準:AIC」になる.AICは母集団から無作為抽出されたときのデータにともなうばらつきを考慮して「尤度の期待値」を求めようとする.(詳しい数理的な解説がなされている)その結果あるモデルの尤度の期待値は「最大対数尤度ーパラメータ数」という単純な尺度によって表現されることになる.

三中は最後にこのAICについてこうコメントしている.今回の単系統群3冊の内容をふまえるとなかなか含蓄のあるところだ.

必要にして十分な単純性を持つ仮説が望ましいというAICのモデル選択基準は,中世形而上学から継承されてきた「オッカムの剃刀」と呼ばれる最節約原理の現代的効用を理論統計学から再評価したと読みとることも可能でしょう.


第12講 コンピュータ統計学:データに自らを語らせる

モデルの次はデータの話.これまでは母集団から無作為抽出されたデータが既にあるというところから始まっていた.ここではその無作為抽出されたデータの持つ意味とは何か,そしてコンピュータによる莫大な計算能力が容易に入手できるようになってその面でどのような変革があったのかがテーマになる.

  • パラメトリック統計学では母集団から無作為抽出された標本に基づく統計量を詳細に調べ上げている.特に母集団が正規分布に従うと仮定できるなら標本平均もまた正規分布し,標本平均の分散推定値は標本データそれ自体から計算できることがわかっている.これは誤差評価が容易にできるという意味で重要だ.
  • しかし母集団の正規性が仮定できない,あるいは正規性が仮定できても複雑な統計量が問題になり,問題となっている統計量の分散推定値が得られないことがある.もちろん力業で無作為サンプリングを繰り返してその統計量を何度も求めたうえで分散推定することも可能だが,実務的には難しいことが多い.
  • そして発想の転換による解決法が無作為標本からのリサンプリングという新しい考え方だ.コンピュータの発達によりいったん得られたデータから膨大な数の無作為リサンプリングを行うことが容易になった.これは標本自体を仮想的母集団と見做して,そこから力業無作為サンプリングを繰り返すことにより誤差を評価するという考え方だ.
  • リサンプリング統計手法にはブーツストラップ法とジャックナイフ法がある.両者の違いはリサンプリング時に重複を許すか許さないかというところにある.(なおこの2手法がそれぞれどのような場合により適切なのかについては解説がない)
  • これらのリサンプリング法には注意点もある.それは結局元データは母集団そのものではなく,その標本データであり,母集団からどれだけずれているか知ることができないということだ.リサンプリング法を用いるときには,標本サイズとサンプルデータのバイアスの大きさを良く理解し,手元のデータの信頼性について事前に十分な検討をするべきだ.

第13講 ベイズの世界:論よりラン

第13項はベイズ統計学.標本がまだない状態でも母集団について何らかの情報があってもおかしくはない,ベイズ統計学ではそのような事前情報をデータの持つ情報と結合してある仮説の事後の妥当性を確率によって評価する.最初は基礎ということで,まずベイズの定理が簡単に証明され,そこに現れる2つの事象をそれぞれ仮説AとデータRと置きかえると,「仮説Aの持つ事前確率」と「仮説Aの元でのデータRの尤度}および「データRが得られる確率」(基準化定数)から「仮説Aの事後確率」が得られることが解説される.最も重要なポイントは「事後確率は事前確率と尤度の積に比例する」ということになる.この上でベイズ推定が説明される.

  • 推論の仮説選択基準について,最尤法が尤度を基準にするのに対して,ベイズ主義は事後確率を基準に採用する.
  • 伝統的頻度主義とベイズ主義の論争は,ベイズ主義の採る「主観的確率」に関するところが最も激しい論点となってきた.頻度主義は「母集団の確率分布に基づく無限回の試行」によって確率を定義し,ベイズ主義は「個人的あるいは集団的な信念を確率の本質であるとする.頻度主義は主観的な事前情報を持つ個人同士の結論が一旦対立すると解決する方法がないと批判し,ベイズ主義者は事前情報を織り込み総合的に判断できる方が実務的に優れていると反論する.この両者が根本的なところで折り合いがつく見通しはない.

ここからは実務的なベイズ推定データ解析の手順の説明がある.ポイントは事前確率および事後確率はある仮説の持つ統計量の確率分布の密度関数として表現され,そこに観測データを確率変数ベクトルとして組み込み,「ベイズ定理を事前,事後の確率分布の関係式として書き換える」というところになる.

ここから事前分布と事後分布が同じ形式の密度関数になる(共役事前分布をもつ)の例としてベータ事前分布を持つ二項分布パラメータの事後分布,正規事前分布を持つ正規分布の平均パラメータの事後分布の計算例が示されている.計算式はいずれも複雑*4だが,おちついて眺めるとうまく事前確率と尤度の積が計算でき,解析的に事後分布を求めることができることがわかる.このあとに共役性のない場合の解説がある.

  • ではこのように解析的な計算ができないものはどうするのか.
  • 分子系統学の系統樹の推定は,塩基配列の進化的な変化の確率モデル化が容易である一方で,パラメータに樹形という離散的なものと枝長という連続的なものが混在しており,まさに事前分布の共役性を仮定できない解析的な計算が困難な問題*5になる.
  • それ以外にも実務的な問題の多くでは事後確率分布を解析的に計算できない場合がほとんどである.
  • これがベイズが主流になれなかった大きな要因だったが,1990年代に大きなブレークスルーが生じた.それは「マルコフ連鎖モンテカルロMCMC」だ.事後分布を「解析的」ではなく「数値的」に構築するこのMCMCアルゴリズムベイズ統計モデリングを一気に実用ツールの押し上げた.

ここから2個のパラメータの事後確率分布にかかる実際のMCMC計算の例を3次元グラフで図示しながら説明している.基本的には適当なパラメータ初期値の事後確率をまず求め,そこからパラメータを近傍にランダムに移動させながら事後確率の極大値をとるパラメータを探索するというアルゴリズムになる.三中は「多くのパラメータを含む複雑な統計モデルであってもMCMCアルゴリズムが収束するまで計算を続けるだけで,各パラメータの事後分布が数理的に構築できる」というのはある意味で「福音」というしかないとコメントしている.その上で残された問題として三中は次の3点を指摘している.

  1. 事前分布をどのように設定するのか,その妥当性あるいは結果の影響はどのようにして評価されるのか
  2. MCMCが収束したかどうかはどのように判定すればいいのか
  3. いずれにせよベイズ主義を巡る「哲学的」な問題は何一つ解決していない

私自身ベイズについては修業が足らず,よくわかっていないこともあり,本講はなかなか啓発的で面白かった.ただ今回の三中単系統群トリロジーを踏破してきた上での感想としては,系統樹ベイズ推定について(1990年代に書かれた「生物系統学」ではあまり解説されていないこともあり)もう少し詳細に解説があった方が楽しかったのではないかと思う.実務的には系統樹や枝長の事前分布はどのようにすることが多いのか,形態による既往系統樹や,既にある分子系統樹をどのように事前分布に組み込むのか,次世代シーケンサによる膨大なデータが利用可能になるとどのような問題が生じるのかなどいろいろ興味深い論点がありそうなだけに少し物足りないという印象だ.


第14講 多変量解析の細道をたどる

最終講義は多変量解析.2変量解析から解説される.基本的に知りたいことはデータセット全体として共変動の傾向がどのようであるかということになる.そこから共分散,そのイメージ,相関係数がまず解説される.次に2変量の同時確率分布の概念を導入し,2変量正規分布確率密度関数分散分散行列を用いると1変量の分散の拡張として理解できることがそのイメージとともに説明される.またここではすべての変量が正規分布する場合の確率密度関数の拡張が詳しく解説されている.

その上で多変量データは直感的に理解しにくいのでそれをいかに「見る」かが重要であるとして,3次元散布図の例を示しながら,そのポイントは「グラフ化」と「次元削減」であることを示唆する.そしてその具体例としてクラスター分析のデンドログラム,主成分分析による次元数削減を詳しく紹介している.


エピローグ

本書の重要な指摘はまずデータを「見よう」ということであるともう一度強調し,チューキーの統計グラフィックスの活用の主張,アンスコムによるいかにまずデータを見ることが重要であるかをよく示す仮想データ例,アンダーソンのイデオグラフを紹介して本書の締めにしている.


 

本書はこれから現場で様々なデータと格闘しなければならない実務家向けの講義録であり,基本的な統計の考え方が,統計世界の全体がどうなっているか,その中で今どこを解説しているかを明示しつつ,さらに実務的な数理解説の間に,その科学哲学的な意味も散りばめつつ,分かりやすく解説されている.個別の統計処理を勉強したり,様々な統計ソフトでデータ処理する前に一読しておくと大変有意義な本だという印象だ.

私にとっては2017年2018年の三中の単系統トリロジー登攀計画の仕上げという読書であった.著者が何十年かかけてため込み2年かけて書き出した内容を1ヶ月で集中的に取り込めたような充実した読書体験で,なかなか達成感がある.


関連書籍

三中の単系統トリロジー,あとの2冊,私の書評はそれぞれhttp://d.hatena.ne.jp/shorebird/20180522http://d.hatena.ne.jp/shorebird/20180601


名著「生物統計学」.私の書評http://d.hatena.ne.jp/shorebird/20060822

生物系統学 (Natural History)

生物系統学 (Natural History)


旧3部作.私の書評http://d.hatena.ne.jp/shorebird/20060730/http://d.hatena.ne.jp/shorebird/20091014http://d.hatena.ne.jp/shorebird/20101102

系統樹思考の世界 (講談社現代新書)

系統樹思考の世界 (講談社現代新書)

分類思考の世界 (講談社現代新書)

分類思考の世界 (講談社現代新書)

進化思考の世界 ヒトは森羅万象をどう体系化するか (NHKブックス)

進化思考の世界 ヒトは森羅万象をどう体系化するか (NHKブックス)


本書のテーマである統計思考という点で最も関連する本はソーバーによるこの本だろう.元々系統推定に絡む大著の導入部分として書かれた統計にかかる科学哲学の部分のみが訳出出版されているもの.私の書評http://d.hatena.ne.jp/shorebird/20130811

科学と証拠―統計の哲学 入門―

科学と証拠―統計の哲学 入門―


統計学の論争史を扱った本.ピアソン,フィッシャー,ネイマンたち巨人の変人振りが読みどころ.私の書評http://d.hatena.ne.jp/shorebird/20060415


ベイズ統計学の本質と歴史を描いた本.私の書評http://d.hatena.ne.jp/shorebird/20131228

*1:三中は認知バイアスが誤作動しやすいデータ例も示している

*2:絶対値和はこれを最小化する基準値が平均値ではなく中央値であり,中央値は一意性が保証されていないという問題があるために,数学的には弱いということになるそうだ

*3:性比は正規分布ではなく二項分布に従っていると考える方が合理的であるのでGLMの出番になる

*4:さらに一部誤植があるので混乱しやすい.この部分を読むときにはサポートページhttp://gihyo.jp/book/2018/978-4-7741-9753-1/supportの訂正を読み込んでおくことが重要だ.

*5:三中は「樹形のみに関心を絞ってそれ以外のパラメータを不要な攪乱パラメータとして積分計算で尤度関数から除外することは可能だが,それでも分子の尤度計算は必要になるし,分母の基準化定数の総和計算は避けられない.樹形の事前分布が一様分布でない場合には事後分布式の算出はさらに困難になる.」と説明している.

ページビュー
4100209