ハリ・セルダンになりたくて

便利なエントリーへのリンク
矢野の講義サイトへのリンク集

2005-03-18

[] 標本数より代表性が重要だ

ある所で雑談をしていた時に、標本抽出に関して基本を誤解している人がいたので少し解説した。その時のことを少しエピソードを交えてblogに書いてみよう。

フジテレビの「トリビアの泉」という番組の中に「トリビアの種」というコーナーがある。そこではたとえば「日本の理髪店に置かれている漫画で一番多いのは○○である」というようなことを調べて「トリビア(面白いけど無駄な知識)」として紹介する。その場合には実際に全国の理髪店に行ってどんな漫画があるのかを調べてランキングを作ってトリビアを決定するのだが、全国のすべての理髪店を調べるわけには行かないので一部を取り上げて全体を推定することになる(統計学の出番だ!)。

そのため、いつもそのコーナーでは「何々大学の統計学の先生」というのが登場して「全国の理髪店からおよそ2000店を調べれば信頼性がおけます」などと解説するのだ。僕はそういった場面を見るたびに心の中で叫びたくなる。「先生、おっしゃるとおりで正しいです。でも、フジテレビの人たちは先生の言葉を正しくは理解していませんよ!」

少し統計学の用語を解説しよう。「日本全国のすべて理髪店に置かれた漫画の全部」を考えよう。この「漫画の全部」のことを統計学では「母集団」という。もちろん、この漫画の全部を調べることは不可能ではない。ただし、とても大変だ。お金もかかるに違いない。そのため、一部の理髪店を調べるだけで、全体がどうなっているかを知ることができれば、手間が省けてよい。その一部の理髪店を選び出す作業を「標本抽出」という。選ばれた理髪店の数を「標本数」という。

統計学では十分な標本数を調べれば(たとえば全国の理髪店で2000店を調べれば)、全体の様子を知ることができると考える。それは2000店の理髪店が全体のミニチュアのようになっていて、それを調べれば全体が推測できるということで、これは何となくそうかなという感じがする人も多いだろう。

しかし、ちょっと待って欲しい。実は標本数の前に落とし穴があるのだ。それは「一部の理髪店を選び出す作業」にある。たとえば極端な場合を考えよう。「2000店を調べればよい」というアドバイスにしたがって調べるとして、調査人たちが間違って「東京にある理髪店の2000店の漫画」を調べてしまったとしよう。

この調査結果は、「全国の理髪店にある漫画の全部」のよいミニチュアになっているだろうか?いや、そんなはずはない。「東京にある理髪店の2000店の漫画」はあくまでも東京に限った話に過ぎないのだ。たとえば、大阪の理髪店は東京の理髪店と全然違うかもしれない。

「トリビアの泉」ではどうしていただろうか?番組では調査人を全国に派遣して調査していた。すばらしい!これですべて問題は解決だろうか?

いやいや、まだまだ問題は残っている。理髪店は大きな都会にも小さな町にもある。もしかしたら都会の理髪店と小さな町の理髪店は違うかもしれない。調査人はちゃんと小さな町の理髪店も調べたのだろうか?それについては番組では何も述べていなかった。それどころか大きな町でも大通りにある理髪店とちょっと裏通りにある理髪店では違うかもしれない。疑惑を述べ始めるときりがない。

では、正しくはどうするのだろうか?

統計学的に正しい方法は「無作為抽出をする」である。たとえば、全国の理髪店すべてに番号を振って、その中から無規則に店を取り出してその店を調べるのである。そして、その作業を十分な回数だけ繰り返す。無規則というのは正しくは「乱数を発生させて選択する」というのだが、重要なのは人間の都合に左右されないということである。無規則に理髪店を選択すれば、その中に大都会の理髪店も小さな町の理髪店も、大通りの店もちょっと裏通りの店も標本の中に自然に入ってくるに違いない(何々大学の統計学の先生が「2000店を調べればOKです」というとき、先生が言っているのは「無作為抽出でやれば」という暗黙の仮定があるのだ。先生にとってはあまりにも当たり前すぎて言わないだけで)。

さて、この方法はなぜ良いのだろうか?実は大きな全体を小さな一部から推測する場合、「小さな一部が妙な偏りを持たない」ことが非常に大切なのである。無規則に選び出すという作業は「偏り」を発生させないための必要なのである。偏りを持たないから小さな一部であっても大きな全体を「代表」できるというわけだ。このように小さな一部が大きな全体を代表できるという性質を「代表性」という

実は調査においては多くの場合、標本数よりも代表性の方が重要である。代表性が十分にあれば、標本数が少なくても正しい結果が出る可能性は高い。逆に標本数が多くても代表性が悪ければ、正しい結果にはならない。それにも関わらず多くの場合に見逃されている。もちろん、「トリビアの泉」はそれ自体がおふざけのようなものなので、あまり真剣に悩む必要はないのだが。

pon98pon98 2005/03/18 13:04 コメント、トラックバックありがとうございます。yanoさんの説明のほうがしっかりとしていてお恥ずかしい限りです。実は僕はyanoさんのことを(直接ではないですが)存じています。(プロフィールを載せていないので分からなかったと思うのですが、)僕はmase先生のもとで勉強している者で、Rについての本を一緒に書いたことがあります。本当に驚きました。

koiti_yanokoiti_yano 2005/03/18 14:15 コメント、ありがとうございます。僕もビックリしました。統計屋さんの世界は狭いですね。ぜひ今後ともよろしくお願いします。

iidaiida 2005/03/20 11:57 トリビアの調査に至っては各都道府県から同数のサンプル取ってますから代表性はさらに低いですね.ちなみにトリビアによく出てくるY先生は物価や日本の季節調整法と僕の研究にとっても重要なことをしている経済統計の泰斗です.

koiti_yanokoiti_yano 2005/03/20 19:27 コメントありがとうございます。そういえばY先生は日本ではめずらしいベイジアン(自分がベイジアンであると表明している統計学者はあまりいないと思います)ですね。

bunbun 2005/04/24 08:21 最近では「いつも2000としか言わない人たち」という定評を作ろうという悪意を感じます。どうかと思います。

koiti_yanokoiti_yano 2005/04/24 23:25 うーん、最近、ちょっとそんな感じがしてしまいますよね。でも、トリビアの泉に出演しておられる先生方はその辺りは先刻承知の上で、「世間に『統計学者』という統計の専門家がいる」ということを世に知らしめるためにあえて出演しておられるのではないかと僕は思っています(日本では統計屋の認知度は低いですから)。

eStateStat 2014/04/24 04:56 素人質問ですが、無作為抽出さえすれば代表性は担保されるものでしょうか。

トラックバック - http://d.hatena.ne.jp/koiti_yano/20050318/p2