あけてくれ - おれカネゴンの「算数できんのやっぱり気にしすぎとや」日記 このページをアンテナに追加 RSSフィード

[あけてくれ]

お知らせ

技術系ブログ「TechRacho(https://techracho.bpsinc.jp)」で
hachi8833という名前で毎日記事書いてます。
どうぞおいでませ。

なお個人ブログはnote に引っ越しました。不定期更新です。詳細
Tumblrではリブログしてます。

●日記の内容をくれぐれも本気にしないでください。ほぼ何にも調べずに書いています。

●何を言っているのかよくわからない場合はとりあえず用語集を参照してください。

●時々同じ事を何度も書いています。心配するだけ無駄だと思うけど。

●敬称略。

●おしゃべりがどうしても治りません。

●日記を書いていないときは何も考えていません。

●リンクは御自由に(リンクを外すのも含め連絡不要です)。

●ここに書かれていることや文章の形式などはごっそりパクっても構いません。

●万一ここに書いてあることが何かの間違いでありがたく見えてしまうときは【あるわけなかろうおれカネゴン】、あなたの精神力が弱っていますので視聴を控えてください。危険です。

●もしここからリンクされると格が下がる/貫目が落ちるとお嘆きの場合はご連絡いただければ外します。

●日記インポート時のエラーがそこここに残っていたり恥ずかしくていたたまれない箇所があったりするので、折に触れて過去の日記も書き直しています。

●こんな日記を読むより、最上の日々最尤日記研修用資料active galactic科学と技術の諸相の方をお勧めします。

●twitter: hachi8833

●tumblr: orekane.tumblr.com


2000年 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2001年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2002年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2003年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2004年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2005年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2006年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2007年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2008年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2009年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】【12月】

2010年【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2011年【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2012年【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2013年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2014年 【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【8月】 【9月】 【10月】 【11月】 【12月】

2015年【1月】 【2月】 【3月】 【4月】 【5月】 【6月】 【7月】 【7月】(終)


 | 

2008年05月01日(木)

今日の頭音:「唐獅子牡丹」(Key=Gm)

魂が飛んでいかないよう四苦八苦【飛んで終わりのおれカネゴン】。

2ヶ月ぶりに日経サイエンスを読む時間が取れた【忘れておったおれカネゴン】。

世論調査より当たる?大統領選を占う予測市場

専門家予測世論調査より、トトカルチョ市場の方が大統領選挙の結果を高い確度で予測できるとのこと。今では研究用だけではなく商用のさまざまなトトカルチョ市場が開かれているらしい。トトカルチョに参加しているのがほとんどの場合裕福な白人男性で、統計に持ち込むにはこの偏りが邪魔で仕方がないらしい。

調子に乗ってしまったのか、DARPAの偉い人がこれを応用して「テロが起きるかどうか」を賭けるトトカルチョ市場を開いてテロを予測するという計画を発表した途端「不謹慎だ」との非難が囂々押し寄せて撤回せざるを得なくなったとのこと【腹を抱えるおれカネゴン】。

面白いのは、トトカルチョ市場の方が専門家の予測や世論調査より確度が高い理由がわからないということ。研究者は誰も麻雀放浪記を読んだことがないらしい。

麻雀放浪記(だったか阿佐田哲也の他のエッセーだったか)によると、サイコロを振るだけという最もシンプルな博打であるチンチロリンにも必勝法(正確には勝つ確率を高める方法)があるとのこと。それは、「ツイていないプレイヤーと逆のことをする」といういたって単純なもの。人はどういうわけか自分自身に関する予測と自分自身の願望を区別するのが非常に苦手で、自分が今ツイているかどうかを正確に知ることは極めて難しいが、他人がツイていないことを知ることはこれに比べたら遥かに簡単だったりする。

ところで、朝から晩までテレビ漬けの人であれば誰でも【他の誰よりおれカネゴン】、TVに出ているお笑い芸人を見て「あ、この人もうすぐ落ち目になる」という唐突な予感を得、しかもそれが非常によく当たったりする。そして多くの人がなぜか同時多発的に同じ予感を抱き、実のところそれこそが原因で本当にその芸人が落ち目になったりもするのだけど。ともあれ、成功する人を事前に見極めるのはとても難しいのだけど、だめになる人を事前に見極めるのはそれに比べれば遥かにやさしい。

さらに、どこで聞いたのか忘れたのだけど「起業の9割は失敗する」のだそうで、成功と失敗の割合が1対9ぐらいとすれば、成功する人を見極めるより失敗する人を見極めてとっととそこから離れる方が生存の戦略として二重に有利なような気がする。戦国時代の家臣が、その全知全能を賭けて自分の主君がだめかどうかを一刻も早く見極めようとしていたように。

いずれ脳科学あたりでもこの辺が裏付けられそうな予感。

大統領選に賭けるトトカルチョのプロたちも、実際には「当選する人」を見極めているのではなく「当選しそうにない人」を見極めているような気がする【見極められたおれカネゴン】。博打で生き残ったプロであれば、この程度の認識は当然身につけているはず。この辺を自動化するアルゴリズムを設計するのであればこの方針にするのが吉【沼地に誘うおれカネゴン】。

ちょうど上と関連しているようなそうでないような感じなのだけど、「その数学が戦略を決める」をやっと読み終わる。原文がだらだらと長いので、人物名などのどうでもいい情報を省略してカネゴン向けに内容をダイジェスト、というかこうしないと頭に入らないありさま【コチコチ脳とおれカネゴン】。書いてないこともいっぱいあります。

  • 統計の基本的なツールである「回帰分析」と「無作為抽出」、たったこれだけで、従来の専門家より遥かに信頼性の高い予測を立てることができる。今ではこれに「ニューラルネットワーク」も加わりつつある。本書ではこれらを独自に「絶対計算」と呼んでいる。
  • 絶対計算は、一企業の金儲けだけではなく、政府の政策にまで影響を及ぼしつつある。
  • 絶対計算は、今後間違いなく多くの専門家のお株を奪う。芸術家も危ない。
  • 絶対計算に使うパラメータは、必ずしもギンギンにチューンアップされていなくてもよい。割と適当であっても大きな効果を得られる。その代わり間違えたら悲惨。
  • 絶対計算がやりやすくなったのは、間違いなくPCデータ量が莫大なものになったこととインターネットの普及による。CPUの速度はおまけ程度にしか影響しない。

回帰分析(regression analysis)」という言葉は、最初にその分析が行われた対象がたまたま(平均への)回帰傾向を示したために付けられたもので、不適切。

回帰分析の例

  • 熟成に時間のかかるワインの味の予測は、専門家よりも絶対計算の方が上。絶対計算で使われたパラメータは、平均気温と降雨量(冬と収穫期それぞれ)のみ。
  • 野球のスカウトでも、専門家より絶対計算の方が、稼げる選手を確実に選び出した。重要視したパラメータは(四球を含む)出塁数のみ。
  • レンタカー会社や保険会社は今や、クレジット会社の返済実績の低い人々へのサービスを拒否する。返済実績の低い人は事故も起こしやすいことが絶対計算で示されている。
  • 航空会社は、フライトキャンセルの発生時に、絶対計算で割り出された「他の航空会社に乗り換えそうな客」を優先してなだめにかかる。つまり、乗り換えそうにないおとなしい客は放っておく。
  • ロージャックという、盗難車の位置を知らせる装置は盗難防止/盗難車特定に非常に有効であるだけではなく、その地域の車の盗難を大幅に減らす効果がある。車泥棒には、どの車にロージャックが仕掛けられているのかわからない(実は車の持ち主にも車のどこに仕掛けられているのかは知らされない)ため、従来の一目でわかるような防犯装置と違って車を盗むこと自体を敬遠させる。
  • 絶対計算の典型的な応用例である「おすすめ機能」を備えたWebサイトは既にいやになるほど出現している。
  • Googleの上位に現れる有名人ほど離婚しやすい。
  • 最近の入社試験では、労働者生産性と長続きするかどうかを見極めようとし、「正直さ」「親しみやすさ」「外向性」に絞ってふるいにかけようとする。入社試験で「どんな会社にも一匹狼の居場所はある」という質問に○を付ける社員はやめやすいということが回帰分析で示されている。
  • カジノは、客ごとに金の遣い方を詳細に分析し、(客が怒りだす)臨界点を超えてすってしまいそうになったら従業員がすかさず近寄ってさりげなく頭を冷やしてやり、客がすっても幸せな気分のままでいられるように保とうとする。
  • (本書では裏付けられていないが)クレジットカードの履歴から、その人が離婚する確率がわかるらしい。
  • 航空チケット情報サイトfarecast.comでは、絶対計算を初歩的に応用して、そのチケットがフライトまでに値上がりするか値下がりするかまで教えてくれる。
  • zillow.comは、不動産情報データをマイニングして最も適切な家の値段を算出するサイト。
  • 映画のシナリオの要素を入力するだけで、その映画がヒットするかどうかをかなりの確度で予測できるようになっている。当然ながら映画業界から恨みの声が上がり、激しい抵抗が起きている。そのついでに、スターを使っても使わなくても収益は変わらないことまで暴かれてしまった。
  • lulu.comは、タイトルから売れ行きを推測する。また法学論文に限れば、タイトルが短くて脚注が少ないほど論文の引用回数が増える(つまり人気がある)。

統計を貫く基本原理は「一事が万事」ということでよいだろうか。

無作為抽出も、回帰分析に勝るとも劣らないツール。無作為抽出のよいところは、対象が無作為に選ばれたものでさえあれば既存のデータをそのまま流用できてしまう点(=わざわざ新規にデータを集めなくてよい)。

無作為抽出は医療/薬学での試験の定番。

無作為抽出に限らないけど、サンプルは十分に多くないといけない。

無作為抽出の例

  • 2種類のWeb広告のどちらが有効かを調べるには、2種類とも無作為に出して効果の高い方を残す。簡単だけど、Google広告も基本はこれ。
  • 米国のあるサラ金業者は、解約を求めてきた客をプロファイリングし、まだ利益を生みそうであれば慰留係に回す。これは無作為抽出から得られたデータが元になっている。
  • 同じ業者が、さまざまな広告を出して比較検討した結果、「最初の6ヶ月は金利4.9%」とうたう方が「最初の12ヶ月は金利7.9%」とするより客を獲得できることがわかった。また、ダイレクトメールの右上に女性顔写真を入れておくだけで男性客の反応がよくなることもわかった(金利を4.5%下げたのと同じ効果)。
  • この本の英語タイトル(Super Crunchers)も、Googleアドワーズで成績のよかったタイトルが使用された。
  • Amazonは新規の客に安い値段を提示していた(つまり常連は高く買わされていた)。常連客がたまたまブラウザのCookieを削除したらたちまち安い値段が表示され、Amazonに苦情を申し立てると、Amazonは「無作為抽出のせいです」と必死で謝った。今はやっていないことになっている。
  • Verisignのセキュリティ証明を付けると、ほぼ確実に売り上げが伸びる。
  • 男性が割礼(包皮切除)を行うと、HIVに感染する確率が半分以下になることが無作為抽出で判明した。

政策への影響

  • 「貧しい人に、所得が一定以下に下がったら政府が補助金を与える」(=勤労意欲を削ぐとして多くの経済学者が嫌がる政策)という制度を実行したらどうなるかを無作為抽出で行ったところ、雇用は大して下がらなかったが、なぜか離婚率が大きく上昇した。
  • 「失業者に職探し支援を提供すると失業保険料の支払いが減るか」を無作為抽出+回帰分析で実地に試したところ、大きな効果があることがわかった (失業期間が平均して1週間から4週間短縮された)。ただし参加してもしなくても、再雇用された人の給料は同じぐらいの額だった。この結果は実際に政府を動かし、費用が大きく削減された。
  • 「貧しい人に家賃補助券を与えて裕福な地域への引越しを促す」という政策は、学業にも犯罪抑止にもほとんど効果がなかった。
  • 連邦裁判所では伝統的に、刑事裁判は裁判官に無作為に割り当てられる。このため、裁判データが好都合にもそのまま無作為抽出データとして使用できる。その結果、刑期を長くしても短くしても、再犯率には影響しないことがわかった。
  • 発展途上国で、女性を首長としなければいけない村を無作為に指定してそうでない村と比較実験した。女性首長のいる村では、水や燃料など女性の日常労働にかかわる投資が行われやすく、男性首長は教育に投資する傾向があることがわかった。先進国では絶対できない実験。
  • メキシコの貧困救済政策として、「子どもを学校に通わせ、妊娠中に出産前診療を受け、栄養状態のモニタリングを受けた」人(ただし使い込み勝ちな父親ではなく母親)にだけ現金を支給するというプログラム(プログレッサ)が、無作為抽出の実地テストを経て導入された。その効果は絶大で、登校率は10%、就学率は20%向上し、通学期間は半年長くなり、離学校率も下がった。健康面の改善はさらに大きく、重篤な病気や貧血症の件数が12%下がり、平均身長も1cm伸び、新生児体重は100g増え、低体重児の率も下がった。今ではメキシコではあらゆる社会計画は事前に評価されなければならないと議会で決定されるまでになり、効果が実証されているために政権が代わってもプログラムがつぶされなくなった。

医療への影響

  • 医療の研究においては統計はかなり前から使われているが、現場は必ずしもそうではなかった。
  • 医療従事者が手洗いを徹底することで死亡率が劇的に下がることを1840年代に指摘したある医者は、他の医者から猛反発を受け、そのショックで精神を病んで死んでしまった。
  • そして現代のアメリカですら未だに多くの医者がまめに手を洗っておらず、そのために感染症で死ぬ人が後を絶たない。ある小児科医は、自分の妻が重病で入院したときに病院の対応に不手際が多すぎることに業を煮やし、無作為抽出テストによって、医者が手洗いを系統的に行う、人工呼吸器や静脈カテーテル挿入の手順を改善するなどの、6つの改善を行うことで、年間25,000人を救えることを実証する。この改善は多くの医者の抵抗を乗り越えて全国的に導入され、最終的に500日で100,000人が救われた計算になる。
  • 年次健康診断は実は意味がないことがほとんど。ほとんどの場合、受ける必要のない人が受けていて医療費無駄になっている。
  • 医者が実践しているいくつかの医療行為は、実は効果がない/逆効果であることが外部からの無作為抽出で暴かれつつある。たとえば、角膜炎の患者には眼帯をしない方が治療効果があるが、多くの医者が未だに眼帯をすべしと信じている。
  • 今や医者の経験よりも、医療データベース(またはGoogle検索)の方が適切な診断を下す。少なくとも医療データベースは、可能性のある病気を残らずリストアップしてくれるため、見逃しが激減する。
  • このため、多くの医者が自分の専門知識よりも、絶対計算に基づいた医療データベースの方が優れていることを認めたがらない。日本ではこの医療データベースはまったく売れていない。

取り扱いミス

  • ある高齢の常習犯罪者が、絶対計算の応用である性犯罪者再犯率急速リスク評価で4点(=10年以内の再犯率が55%)と算出されたにもかかわらず、司法関係者が何となく仮釈放してしまい、たちまち逃亡したうえ少年レイプして再び収監された。絶対計算が正しくても専門家が間違えてしまった例。
  • 「カフェイン摂取は心臓病のリスクを高める」というのは、カフェイン好きに煙草好きが多い点を統計時に補正していなかったための誤った結論。
  • ある絶対計算の専門家(著者の知人)は「皆が銃を所持すれば犯罪が減る」という結論を出し、多くの銃器開放論者を喜ばせたが、公開されているデータを著者たちが調べると計算に誤りがあり、再計算すると逆の結論が出た。しかし相手はそれを認めようとせず、匿名での掲示板書き込みや裁判を含むあらゆる方法で著者たちを妨害し続けている。データが公開されていただけましな例。
  • 「実験に参加する被験者の数が途中で大幅に減るような無作為抽出テストの結果は使うべきでない」という戒めの言葉がある。
  • ハーバード大学学長が「数学において男性の知能指数は女性の知能指数より分散が大きい(=出来不出来が激しい)」と発言したところ、マスコミが「学長『女性は男性より数学の能力で劣る』と語る」と見事に勘違いして報道し、世間の猛反発を受けて辞任に追い込まれた。そのぐらい世間は統計について何も知らない。

教育への影響

  • インドで深刻な問題になっている、貧しい農村における教師の現場放棄の解決法を模索する上で無作為抽出が使用された。その結果、撮影日付を改ざんできないカメラを教師に渡して授業の最初と最後に教室と生徒を撮影させ、その写真の数がそのまま給与に比例するようにする方法が最も効果的であることがわかった。
  • ダイレクト・インストラクション(DI)と呼ばれる教育手法がある。教師は最初から最後までシナリオに沿ってテンポよく進め、生徒(少数である必要がある)にもテンポよく一斉に答えさせる、型破りな教育法。完全にマニュアル化され、教師には何の専門性も創造性も要求しないにもかかわらず、絶対計算による吟味の結果、ほかのどんな教育法よりも優れた結果を出していることが判明してしまった(DIで育った生徒は単にすべての成績がよいだけでなく、高次の思考力にも優れ、自尊心も高められた)。特に、成績の悪い子どもほどDIが効果的であるらしい。ご多分に漏れず現場教師および関係者から猛反発を食らい、ブッシュ大統領が後押ししたにもかかわらず、未だにほとんど普及していない。

カネゴンアイには、DIは日本の寺子屋での素読み勉強法とほぼ同じようなものに見える【松下村塾おれカネゴン】。

絶対計算は悪用も可能。悪用を防ぐために使うことも可能。

  • 結婚出会いサイトの中には、人種を指定できたり、同性愛カップルができにくいように仕向けているところがある。
  • たとえデータに人種という項目が盛り込まれていなくても、たとえば居住区(少数民族が多いなど)のデータをリンクさせると、事実上そういう間接的な差別を行うことも可能になる。(日本では、目的外のデータのリンク自体が禁止されている)
  • ニューヨークの建設工事入札で行われていた不正が、回帰分析によって暴露された。
  • 車のディーラーは、黒人や女性には車を高く売りつける傾向があることが、著者自身の調査によって明らかになっている。

エディ・マーフィー小ネタで、エディが白人変装して街に出ると、白人たちが「いつものとおり、黒人どもには内緒だぜ」などといいながら料金割引などさまざまな便宜を図ってくれるというギャグがあったのだけど、実はシャレではなかったということでいいだろうか。

カネゴンは、統計はあくまでツールであって科学そのものではないと思っています。

 | 
最近のコメント