2014-02-17

Uncharted: Big Data as a Lens on Human Culture

作者: Erez Aiden,Jean-Baptiste Michel
出版社/メーカー: Riverhead Books
発売日: 2013/12/26
メディア: Kindle版
この商品を含むブログ (1件) を見る

本書はハーバード出身の2人の若手研究者の探求物語だ．2005年，ハーバードの学部学生であったエイデンとミシェルは漠然と文化の歴史的な変化に興味を持っていた．そしてノヴァクやピンカーの講義に影響を受けて進化的な視点，思考方法を身につけ，ビッグデータを文化変化のリサーチに応用する方法を思いつき，それを実践していくのだ．彼等は自分たちをCulturomics（文化についての-omics，omicsにはビッグデータを扱うという趣旨を込めているそうだ）のリサーチャーだと定義している．

冒頭は，アメリカ人はいつから「the United States」を複数扱いせずに単数扱いするようになったのかという話題から始まる．一般的に「the southern states」「the New England states」などというときには複数扱いするのだが，「the United States」は現在通常単数扱いされる．そしてそれは南北戦争を期に合衆国は単一の国だという意識に変わり，文法的な語句使用が変わったのだとされていた．しかしそれは本当だろうか．それを調べるにはどうしたらいいのだろうか．すべての図書館の蔵書をすべて読んで自動的にデータを整理してくれるロボットがあれば可能だろう．そして著者の２人はそれを手に入れる旅に出る*1．

著者たちはハーバード在学中にノヴァクの進化ダイナミクスプロジェクトに触発されて文化の変化を進化的に捉えてみたいと考えるようになる．特に英語の不規則動詞に興味を持った．なぜ一部の動詞は不規則で，一部の動詞は規則的なのだろうか？どうすればそれを調べることができるデータが得られるだろうか？
ここで著者たちは2冊の奇妙な本を紹介する．1冊目はカレン・ライマーの「Legendary, Lexical, Loquacious Love」（1996）だ．これはあるロマンス小説に現れるすべての単語をばらばらにしてアルファベット順に並べ替えたものだ．それは「第一章A 　A A A A A A A・・・」と始まり，「beautiful beautiful beautiful beautiful ・・・」などを経由して「第25章 Z　zealous」で終わる．2冊目はマイルズ・ハンレイによる「Word Index to James Joyce’s Ulysses」（1937）*2だ．これはジョイスのユリシーズの用語索引を本にしたものだ．これらの本は文章に表れる特定の単語の頻度を調べることを可能にする．そしてこのハンレイの仕事を利用したジーフィーは単語の頻度分布が正規分布ではなく冪乗分布であることを見つける．なぜ単語の頻度分布が冪乗則に従うかについては論争が続いているが，とにかくこれは広く当てはまる法則であることが明らかになっていく．だとするとこの法則の例外が見つかればそこには何か面白いダイナミクスが働いていることがわかるはずだ．そして英語の不規則動詞の分布はその例外なのだ．

英語の不規則動詞とは何か．著者たちは歴史的な経緯を説明する．もともともプロトインドヨーロッパ語ではablautと呼ばれる時制変化システムを持っていた．これは動詞の中の母音を変化させて時制を変えるものだ．しかし紀元前3-5世紀頃プロトドイツ語にdental suffixによる時制変化法が加わる．動詞の最後にedを付け加えれば過去形になる．これは便利だったので非常に素速く広がった．そしてこの流れに抵抗する少数（約300ぐらい）の動詞*3が今日不規則動詞と呼ばれるものになっているのだ．
著者たちはこの歴史的変化を調べるために，中世からの英語の文法書を調べることにする．そしてわかってきたのは，不規則動詞が規則化する流れは現在も続いていて，そしてある動詞がある期間内に規則化する確率はその頻度に依存する（半減期は頻度の平方根に比例する）ということだった．

そのころ時代はまさにビッグデータ革命が進行中だった．GoogleやFacebookやeBayにはそれまでにない規模の人間行動や文化のデータが蓄積され続けており，一部の研究者はそれを使ったリサーチを出し始めていた*4．なお本書ではビッグデータを扱うことの難しさも説明されている．通常ビッグデータは誤りや脱落でぐちゃぐちゃになっている．それは科学者がこれまで得てきたデータのような形式にはなっていない．だからまずデータの整形が必要になる．次にデータは政府や巨大企業が持っており，その利用には企業の意向，そして法的な制限が大きく立ちはだかる．

そしてGoogle 創始者の１人ラリー・ペイジは世界中のすべての本をデジタル化するGoogle booksのプロジェクトを始める．これはデータ開始時点がその他のビッグデータと比べて何百年もさかのぼるという点でユニークなデータだった．著者たちは，ハーバードの図書館の回廊の奥深くで自分たちしかアクセスしていないような中世の文法書を調べていたが，ある日それがGoogleにデジタル化されていることに気づく．なんとかこのビッグデータにアクセスできないだろうか．機会は突然訪れた．2007年，著者の１人エイデンの妻アヴィーヴァがGoogleのコンピュータサイエンスの女性賞を受賞することになる．そして同伴者としてGoogleplexに潜り込んだ著者たちはリサーチ責任者ノーヴィッグに会うことに成功する．ノーヴィッグは興味を持ってくれたが，最終的には「なかなか面白いが，でも一体どうすれば著作権を侵さないですむのかね」といわれる．企業側の懸念ももっともだった．GoogleはGoogle booksプロジェクトをアナウンスしたとたんに数々の著作権がらみの訴訟を提起されているし，AOLは善意で研究者に提供すべく個人情報を抜いた（と信じた）データを公開したところ，それはビッグデータであるために様々な手がかりから個人特定可能になるものであることがわかり莫大な賠償をせざるをえなくなったのだ．
どうすればいいのか，ここでライマーとハンレイの本がヒントになる．単語（そして数語の連なりの語句）頻度とその書かれた年代のデータだけでも貴重な知見を得ることができるだろう．一定以上頻度の小さな単語をデータセットから落とせば，DNA分析のような手法を使って文章全体を再構成することは統計的に不可能になる．またビッグデータの汚れをどう取るかも検討し*5．年代特定のために疑わしいデータを特定し捨てるアルゴリズムを開発する．そしてこれらをすべて合わせたGoogle booksデータの年代別語句頻度検索システムをn-gramと命名する．
さて著作権問題で腰が引けているGoogleをどう説得するか．著者たちはGoogle booksの最高責任者ダン・クランシーがスティーブン・ピンカーの大ファンであることを聞きつけ，ピンカーに力添えを頼み込む．ピンカーはクランシーにn-gramの意義についての流麗なプレゼンを行い，Googleはデータ提供，プログラム作成に同意してくれる．

ここからはこのn-gramを使って得られた知見についてが語られる．最初は「名声」だ．様々な個人名をn-gramに放り込むと，名声の時系列推移グラフが得られる．彼等は，生まれた年ごとの最有名人をリストしたり，コホート別に整理したりしていろんな角度から解説している．このあたりは詳細が大変面白い．コホートごとの平均カーブは基本的に同じ形になる．デビュー後最初は指数関数的に有名になりピークをつけた後ゆっくり減衰していく．職業ごとのデータも面白い．早く有名になりたければ俳優，作家が良く，政治家は50歳ぐらい以降でないと有名になれないが最も有名になれるチャンスがある．そして最も有名になりにくい職業の１つは数学家だそうだ．

次のテーマは「検閲，抑圧」だ．ドイツ語の本のn-gramデータと英語の本のそれをみるとナチが思想統制したことについてデータで定量的に示すことができる．彼等は現代絵画を退廃的として退けた．実際にシャガールやクレーの名前は1933〜1945年の間ドイツ語のデータで著しく頻度が下がっている．ロシア語データでは，スターリンによる1936年のパージから1988年のゴルバチョフのペレストロイカまで，トロツキーなどの名前について抑圧された跡がみられる．アメリカでは（ハリウッドの映画人のブラックリストに載った名前について）マッカーシーの赤狩りの影響が，中国では「天安門」という単語について抑圧の影響が現れている．n-gramのようなデータシステムから検閲を隠すことはできないのだ．

次は「社会的記憶」だ．ルシタニア号事件，パールハーバー，ウォーターゲートなどの語句頻度はあっという間にピークをつけ，減衰していく．しかしこれらの減衰カーブはいろいろな関連事項に影響される．著者たちは1950，2004などの単なる西暦年号を使ってより純粋な減衰カーブの形，そしてその歴史的変化を探る．そして次に様々な発明品を発明年代ごとにコホート化してその社会への浸透ペースを調べる．予想される通り，浸透ペースは最近速くなっているようだ．この部分も詳細がなかなか楽しい．ここで著者たちはこのn-gramがいかに中毒的症状を引き起こすかを語っている．ここもちょっと面白い．

最終章ではこのようなデータがさらに利用可能になると何が生じるのかを想像している．
まず過去のデータから．本のデータは2020年ぐらいにはかなりデジタル化が完了する．しかし利用に際しての著作権の制限は残るだろう．そしてデジタル化が進むにつれて図書館から物理本が消えやすくなる問題も指摘されている．過去の新聞記事のデジタル化はあまり進んでいない．もはや入手できないものも多い．手紙やノートなどは積極的に探し出してデジタル化しないとどんどん失われる．さらにテキスト以外の物理的存在もデジタル化できるが，それも進んでいない．
現在生じているデータはどうか．現在のメールやSNSなどのデジタルデータはすさまじい量になっている．そしてこれは個人的記録についてさらに進むだろう．ある個人が見聞きしたものすべてをデータ化することも可能になる．さらに頭の中で思い浮かんだ単語を記録することだってできるようになるかもしれない．そして情報の記録は技術的問題からモラルジレンマに変わる．片方で自然科学と人文科学の融合は進むだろう．今でもデータを操る人文科学者は自分たちのことを「digital humanists」「corpus linguists」「computational social scientists」と呼び始めているそうだ．著者たちはアシモフのファウンデーションシリーズのハリ・セルダンとサイコヒストリーの夢を語って本書を終えている．

というわけで本書は迫真の探求物語と得られた知見の説明の組み合わさった興味深い本に仕上がっている．実際にhttps://books.google.com/ngrams/に行ってみると，どんな語句も簡単にその頻度の歴史的推移を調べることができる．本書には各章の章末コラムと付録に著者たち自身が興味深いと思った結果がたくさん紹介されていて*6，それを見ているだけでも飽きないが，さらに自分で何でも放り込めるのがすばらしい．残念ながら日本語には対応していないが，確かにこれは中毒的に面白い．最後に私が得たデータをいくつか載せておこう．

最初は進化関連用語．

ドーキンス vs グールド　やはり長生きした方が勝ちか

進化理論

包括適応度理論 vs マルチレベル淘汰理論

社会生物学，進化心理学，そしてアシモフの心理歴史学

最後にこれも

*1:なお最終的に入手したツールn-gramの結果によると実際には複数扱いと単数扱いがクロスするのは南北戦争が終わって15年経過した1880年であることが示されている

*2:これはコンピュータによる検索が可能になる前ということを考えると大変な労作であることがわかる

*3:著者たちはこれをペルシア戦争時のテルモピュライのスパルタ軍に例えている

*4:リーヴィンによるeBayのデータを使った価格決定過程のリサーチ，ファウラーによるFacebookのデータを使った投票行動のリサーチ，バルバシによる携帯電話会社のデータを使った人々の移動傾向のリサーチ，ギンズバーグによるGoogleの検索単語と位置情報からインフルエンザの流行をリアルタイムで把握するリサーチなどが紹介されている

*5:ここで著者たちは単語とは何か，辞書はどうあるべきかというトピックを扱っている，結局それは人々が使うものを記述するしかなく，多くの単語が入れ替わっている．そしてその意味では英語の多くはまだ記述されていない（uncharted）のだ．本書のタイトルはそこに由来する．

*6:私のお気に入りはSantaとSatan，correlationとcausation，unemploymentとinflation，sausageとpizzaあたりだ．

shorebird　進化心理学中心の書評など

「Uncharted」