Amazon.comの新機能

Wiredの記事"Judging a Book by Its Contents"で知る。
以下は各機能の概要。Wiredでは『白鯨』が例に挙がっているので、その各値も書いておく。

Readability

まず、Readabillity(可読性)。3種の指標を用いて、本の読みやすさをインデックス化。どの指標も「1ワードあたりの平均シラブル数」と「1センテンスあたりの平均ワード数」を測定している(Fog Indexはちょっと違うけど)。

  • Fog Index

ここを参照。7から8が理想的で、12以上になると読解が難しい。『白鯨』は13。

  • Flesch Index

ここを参照。だいたい0から100の間に収まり、値が高いほど読みやすい。『白鯨』は57.7。雑誌"Time"の57とほとんど同じ。

  • Flesch-Kincaid Index

Flesch Indexの改訂版。値の出しかたはFlesch Indexと同様だが、アメリカの学年制の学年数に対応するよう式を調整している。例えばFlesch-Kincaid Indexが10.2なら第10学年に相当するといった具合に。『白鯨』は10.8。

Concordance

次にコンコーダンス。これはその本で頻出する単語の上位100個をアルファベット順に並べたもの。『白鯨』だと、"whale"、"Ahab"が上位。

SIPs(Statistically Improbable Phrases)

そして、もっとも面白げな機能がSIPs(Statistically Improbable Phrases)。これはAmazonの"Search Inside!"に登録されている全テキストを検索し、対象の本と比較。統計的頻度が低いにもかかわらず、多数用いられているフレーズを抜き出したもの。*1『白鯨』だと、"pagan harpooners"、"whaling voyage"など。ノンフィクションのほうが比較的良好な結果が出るようだが、フィクションでも本によってはそのものズバリのフレーズを抜き出してくる。例えば『競売ナンバー49の叫び』だと"muted post horn"がSIP
また、このSIPsの結果を比較して、内容が関連すると予想される本("Books on Related Topics")も表示できる。

*1:しかしどうやって実装してるんだろう。いちいちマルコフ連鎖で確率統計とってるわけでもないよな。