Hatena::ブログ(Diary)

Mi manca qualche giovedi`? このページをアンテナに追加 RSSフィード Twitter

2014-10-22 「人は知ってるモデルしか使えない」って言ってみちゃうのとかどう?

とりあえず plot だけでもしてみるのススメ #みどりぼん


10/21 に開催された「データ解析のための統計モデリング入門」(以下みどりぼん)読書会の最終回にのこのこ参加。主催の yamakatsu さん、参加者&発表者のみなさん、会場を提供してくださったドワンゴさん、ありがとうございました。

懇親会はちょっと断念した。無念。



最後なのでちょっと口はばったいことを言ってみる。

WinBUGS がインストールできなくて試せなかった的な話もあったが、参加された60人ほどの方たちでサンプルデータをとりあえず plot だけでもしてみたって人はどれくらいいただろうか。

みどりぼんにもちろん plot 図はもともと載っている。ただ(学習という面で考えると特に)残念なことに、全ての図に「正解」の点線や、「正解モデル」で推定した分布などが重ねられており、生のデータのものがない。


たいしたことではない。久保先生のサイトで配布されているデータを R で load して plot するだけだ。慣れてれば1分、慣れてなくてもまあ5分くらいの作業。

個人的には RData で配布されるのはちょっとめんどくさい。中を気軽に見れないし。50個の整数データくらいなら、テキストの方が扱いやすくて嬉しい。

というわけで、11章のデータをテキストにしたものを貼り付けておこう。これならコピペして5秒だ。


Y <- c(0,3,2,5,6,16,8,14,11,10,17,19,14,19,19,18,15,13,13,9,11,15,18,12,
       11,17,14,16,15,9,6,15,10,11,14,7,14,14,13,17,8,7,10,4,5,5,7,4,3,1)
plot(Y)

f:id:n_shuyo:20141022165238p:image


みどりぼんで見た「正解入り」 plot 図と比べて、ずいぶん印象が違う。本当は「正解」なんて知っているはずがないので、実際に目にすることができるのはこちらの方だ。

「正解」を知らないでこの図を見たとしたら、と考えると、正解以外の解釈の可能性がちらちらよぎらないだろうか。例えば「両端は外れ値だな!」とか。

ちなみに、このデータの平均値は 10.9 であるのに対し分散は 27.4 もある。みどりぼんが言うところの「過分散」が起きており、単純なポアソン分布ではモデリングできない → 階層ベイズで空間構造や! というのが 11章のストーリーなわけだが、両端の5点を外れ値とみなして捨てれば、平均 12.7、分散 16.3 と過分散はかなり抑えられる。図もこうなる。


f:id:n_shuyo:20141022171034p:image


おっとこれって右下のもう2点捨てれば……みたいな作為的な後出しジャンケンは統計の嫌うところではあるが、試してみるのも面白いと思うし、すぐに試せる(から、ここではこれ以上やらない)。


みどりぼんはいくつものモデルを紹介してくれているし、この本で紹介されていないモデルももちろんまだまだたくさんある。その数多あるモデルの中から、実際の場面ではどのモデルを使うべきか決めてくれる論理的な根拠というものは、残念ながら存在しない(せいぜい消去法。例:過分散だから生ポアソンは×)。だから、そこの判断は人間が適切にやるしかない。

データを見て、データに関する事前知識とすり合わせ、「ふむふむ、どうやら空間構造があるかも?(ドヤ」とか推測し、11章のモデルを使ってみるところにたどりつき、実際に試してみて、空間構造を入れた場合と入れてない場合とでナントカ IC を比べたりして、ビミョウな結果に「やっぱ外れ値かも……」とか凹んじゃうわけだ。

でもそれってモデルの上っ面の知識だけでできることだろうか。データを愛で、解釈やモデルを取っ替え引っ替えし、ハマった場合とハマらなかった場合のモデルの挙動に一喜一憂したことがなくてできることだろうか。


LT で berobero11 さんが「みんなもっと plot しよう! WinBUGS しよう!」(意訳)とおっしゃっていたとおり、ホントもっと plot しよう。

WinBUGS は確かにセットアップがいろいろめんどくさい(特に環境によっては)が、JUGS だって Stan だってある。

みどりぼんをせっかく最後まで読んだのだから、意義のあるものにして欲しいと期待。

atgatg 2014/10/30 23:33  図示するのはいいけど、それを見て、単純に異常値だよねと外してしまうのは悲しいことだ。
 みどりぼん読書会の公表されている他の方の発表資料を見たけど、データに過剰適合させてしまっているのではないか、と思わないのも面白い。例示されているデータがどのように標本調査されたか知らない(何しろこの本をほとんど読んでいない)が、このデータを素直に見ると、境界条件があるものからサンプリングされたと見取ることができる。そして、無限ではないから歪み正規分布とは言えないけど、あたかも非対称の歪んだ分布の形をしているかのようだ。
 何を言いたいのかと言えば、つまり発散するようなものではなく、例えば、弦でも、太鼓でも何でもいいのだけど、これはそんな境界条件があって、そのようなものからデータが発生したものだろうな、と単純に異常な私は思うが、如何だろうか。両端の異常値には意味があると思う。なぜ、0に近い数値なのかを考えてみては如何だろうか。

 統計は、ケチの精神によって成される、とよく小林龍一さんは言っていた。
 そういう意味でも、資源が豊富にあって、物欲いっぱいな中途半端な金持ちの人には向いていないと私は思うし、昨今の流行によってもわかるとおり、はやってはすたれるものでしかないのは、そのような意味でも判る。いろいろ難しいことやっていても、なんだか的外れなことを言っているような気もするし、怖さがある。
 統計は、データを素直に見ることと疑ってみることとが合わさってはじめて、統計というものが意味あるものになる。社会的すり込みによって得られたデータによって、それを例えば社会モデルとしても、それは循環してしまうだけなので、そのような統計解析や分析は、害になるばかりであることは承知されていると考える。従って、これが理論にならないのは当然であり、だれも理論だと言わないのは人の社会における常識であるとさえ言ってもよいだろう。理論であるという人も中にはいるけど、誰もそれを真に感じてはいない。だが、自然界のものは、物理学のように乗法定理のみを扱って現象を見てモデリングしてもよいだろうし、そのモデルによって理論に発展するとも思う。独立ではないかもしれないけど、それでも入れ子のような相互関係でなかったり、保存則が成り立つものならば、難易度という観点から言えばそれは容易な部類に入るだろう。勿論、難しいのだけれども、比較すれば易しい。
 統計の難しさは、再現性があることだけではない。再現性だけを言うならばベイズ統計だけで済むのかも知れないと毒づいてみたり、なーんてね。
 それにしても物理関係の人はベイズが好きな人が多い気がする。独立前提で教科書にしても扱っているから、教育による結果なのかなぁ。私は教育がない貧乏人でケチなものだから、どうもベイズがわからない。そのうち確率による回帰モデル、つまり条件付き確率によるモデルと固有値問題とを結んだものについて雑談したいと思うけど、興味ありますか。私はアホやから、簡単な絵を描いて話したいのけど、今は絵がうまく描けないのが一番の悩み。そうそう、立川でのグラフモデルに関係した集会に行きますか。

n_shuyon_shuyo 2014/10/31 16:56 この記事の論点は
「正解を知ってて、その正解通りにモデリングしても、使えるようにならない」という点にあって、
外れ値は、他にもたくさんあるだろう解釈の一例に過ぎません。

両端の0にも意味はあるかもしれませんし、ないかもしれません。
この場合は人工データなので本当は「ある」のですが、それでもあえて「ない」観点を示すことで、
その問題を考え悩む意味を見つけて欲しい、という意図で書いています。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証