音風景ブログ RSSフィード

2011-02-24

研究者の多くはエラーバーの意味をろくに理解していない

研究者の多くはエラーバーの意味をろくに理解していない


今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学神経科学医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルブログの読者ができることを前提としてよいだろうか?


信頼区間

まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコンセプトの背景には、全人口を網羅する研究調査はめったに行われないという事実がある。50人の女性の反射神経を測定して、そこから全世界の女性の反射神経について一般化した結論を得ることもあるかもしれない。全女性の本当の平均を知ることは不可能だが、たまたま測定することになった50人の女性について平均と95%信頼区間を公表する場合、何度も50人の女性を再抽出すると、95%の確率で、信頼区間内に実際の全女性の平均があることを示している。


今、男性の平均の反射神経を測定して、女性のものと違いがあるかどうか知りたいとしよう。50人の男性も調査対象として、95%信頼区間を算出し、2つの平均とそれぞれの信頼区間を比較すると、それはおそらく図1のような感じになるだろう。もしグループ1が女性でグループ2が男性なら、そのグラフが示すのは、女性の反射神経について、真の平均値が信頼区間1に入っている確率は95%であり、男性の反射神経について、真の平均値が信頼区間2に入っている確率は95%であるということである。問題は、どれくらいの2区間の近接度までは、有意差があると言えるのだろうか?


心理学神経科学では、pが.05以下、要するに真の平均の違いを見誤る確率が5%以下であるときに、有意差があるという基準をみたす。統計学的な理由については触れないことにするが、だいたい同じ数でだいたい信頼区間の大きさも同じとすると、このグラフがベリアらのチームが提案した問題の答えを示している。

図1:

f:id:kamedo2:20110224173113g:image


信頼区間は全長さの25%まではオーバーラップしても2グループ平均の有意差を示している。それ以上は重なると有意とはいえない。それで、ベリアらのチームが対象としたどのくらいの研究者が正しい答えを導き出せたか? 誤差25%以内までを許容範囲としてもたった35%であった。30%以上の回答者は2信頼区間が触れた段階から有意ではないと答えた。それは容認されるp<0.05に比べて厳しすぎる基準であり、p<0.006、真の平均が同じである確率は1%未満であるということになる。


標準誤差

しかしおそらく、対象の回答者たちは単に信頼区間と標準誤差の概念を混同しただけなのかもしれない。多くの分野では、標準誤差のほうが一般的だ。それに関して、ベリアらのチームは前回の集団から1/3の人々をランダムに抽出して、95%信頼区間の代わりに標準誤差のグラフを見せてみた。

f:id:kamedo2:20110224173213g:image



どんな仕事をさせた? もう一度、少々の説明が必要である。標準誤差は、信頼区間よりも小さいことが多い。十分大規模なグループでは、真の平均が標準誤差内にあてはまる確率は68%である。大多数の場合68%信頼区間とほぼ同じことである。実は、おおざっぱな経験則として、2つのグループについて標準誤差がオーバーラップするとき、2つのグループが有意ではないと言える。


実は、グラフを視認する目的では、標準誤差の範囲はエラーバーの半分ほど離れてはじめて違いが有意だといえる。次のグラフが問題の答えを示している。

f:id:kamedo2:20110224173248g:image


たった41%の回答者しか正解しなかった。全体として、回答者は気前がよすぎて、平均を近づけすぎた。30%近くがエラーバーを触れさせた。一般的なp<.05と比較して、その場合の有意レベルはp<.16である。

エラーバーが適用できないとき

3番目の最後の研究者たちには、”ひっかけ”問題を与えられた。似たような図を与えられたところまでは同じだが、グラフは同一グループによる練習テストと本番テストのものだと告げられた。同一の人々による再テストは非常に相関があるので、エラーバーは有意かどうかを決定するのには使えない(*)。たった11%の回答者しか、その問題を割り当てられた空欄にコメントしなかった。ちなみに、ついさっきエラーバーに関して弁解を書く羽目になった認知科学日記のグラフは、たしかにテスト-再テスト法についてのものなので、このケースでエラーバーを書くことは、よく言っても不適当、誤解を招くことになるだろう。


ベリアらのチームはエラーバーをもっと使うことを推奨している;具体的には信頼区間を、そして自分自身や、生徒に対してどう理解すればよいかを教育すべきだといっている。


読者の中には、認知科学日記の、エラーバーをさっぱり省く方法について、責任を回避するかのようだという方もいるかもしれない。しかし私たちは文章の形で研究者の主張がどれだけ信頼に足るものであるかを十分説明していると考えている。そのうえ、多くのジャーナルの記事は今でもエラーバーの類を一切書かないでいるから、私たちがそれを書くことは難しいか、不可能である。そしてエラーバーを確かに理解している人は、いつでもオリジナルの記事を必要に応じて調べることができる。それでも、多くの人々が――多くの研究者ですら――エラーバーを理解しないことをわかった上ででも、読者の、エラーバーを書くか、省くかの方針についての提言を興味を持って聞こうと思っている。

Most researchers don’t understand error bars – Cognitive Daily

(*) 訳注:この状況では、練習で良い結果を出した人は本番でも同じような良い結果を出すという相関が予想される。この場合、大きく重なっているから有意ではない、という判断ができなくなる。エラーバーが離れているから有意である、という判断ならできる。

ayumyamaayumyama 2011/08/07 03:06 とても参考になりました。後期になったら学生にも読むよう推薦したいと思います。

IgorCIgorC 2012/01/23 22:49 It will be great to read an English version of your articles.
Google translate doesn't help a lot with Japanese :)

Can You write it on hydrogenaudio forum? Many people will be interested to read it.

Thank You Very Much.

kamedo2kamedo2 2012/01/23 23:44 The original language is English.
http://scienceblogs.com/cognitivedaily/2008/07/most_researchers_dont_understa_1.php

Note that ABC/HR scores are "somewhat" correlated, that may make the 25% rule too strict and overkill. It's hard to draw a generic conclusion, but universally easy sounds and universally difficult sounds do exist, right? Such sounds make the error bars less useful to determine significance. When we try to compare some slightly different encoders like LAME3.98 vs 3.99, it can be too wary and strict too. That's why I started using the dot plot.(but I'll leave the CI95% bars for compatibility.)

remcatremcat 2013/02/12 12:22 >練習で良い結果を出した人は本番でも同じような良い結果を出すという相関が予想される。
>……
>エラーバーが離れているから有意である、という判断ならできる。

負の相関がある場合はその判断もできないので、相関が非負であることを別途検証するか、前提として明記する必要がありまね。

kamedo2kamedo2 2013/02/12 12:54 練習で良い結果を出した人たちが疲れ果てて、有意に本番では悪い結果を出すというような負の相関はいまいち想像できませんが、そういう負の相関が存在しそうな状況では、そもそも見た感じで有意かどうかを判断するのをあきらめるのが良いでしょう。

井口豊井口豊 2014/10/28 05:44 Fig1と2の関係をもう少し詳しく解説してほしかったなあ,というのが感想です。信頼区間は,母分散が既知の時,あるいは,標本サイズが大きい時,平均プラスマイナス1.96SEの範囲となります。大雑把に言えば,信頼区間は,標準誤差の2倍のエラーバーです。だから,Fig2のエラーバーを2倍すれば,信頼区間の説明と同等になります。原文にもそういった説明がほしかった。

博多ぶらぶら博多ぶらぶら 2014/10/31 10:25 そもそもピアソン的な信頼区間の意味が、日常的な感覚では謎すぎます。
このデータに正規性を仮定するのも気持ち悪い(対数正規の方が合うのでは?)し、そこまでゴリ押ししたんだから、エラーバーの種類なんてどうでもいいんじゃないの?って気がする。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証