Hatena::ブログ(Diary)

小人さんの妄想 このページをアンテナに追加 RSSフィード Twitter

2009-08-20

人気投票はベキ分布

ネット上でもよく見かける「人気投票」。

投票結果を見ると、だいたい上位の少数が大多数の票を獲得しているように見えませんか。

いわゆる人気の一極集中化現象です。

聞くところによると、こうした人気ランキングは「ベキ分布」に従うことが多いそうです。

本当にそうなっているのか、確かめてみました。


今回はこのサイトにあった投票結果を取り上げてみました。

* ライトノベル作法研究所 -- 高得点作品掲載所

>> http://www.raitonoveru.jp/novel/okidenn.html

なぜこのデータを選んだかって? あまり特別な理由はありません。

サイズが手頃で扱いやすかったのと、ライトノベルに興味があったってことですね。

 ・エントリーしているライトノベル数: 197

 ・総投票数: 2354

投票結果を集計して、ヒストグラムを作ってみました。

結果は、下のグラフの左側の赤い方。

f:id:rikunora:20090820152148p:image

横軸の階級の幅は、18票ごとに区切ってあります。

つまり、階級1は0〜18票獲得した作品の数です。

得票1位は158票でした。これが階級8に入っています。

(この18票という中途半端な階級の幅は「スタージェスの公式」から求めたものです。

 階級の数 = 1+log2(サンプル数))

グラフを見ると、大半の作品が階級1に留まっていて、そこからごく少数の作品だけが抜きんでていることが分かります。

右側の青いグラフは、比較のために並べた指数分布のグラフです。

古典的な考え方だと、こうした投票結果は指数分布になりそうに思えます。

もし一定数の票を、エントリーした作品に対して全くランダムにばらまいたら、結果は指数分布になるからです。

ところが実際の結果は、指数分布よりももっとカーブがきついと言うべきか、もっと極端な一極集中になっています。

両者の違いは、グラフの縦軸を対数に描き直してみれば(片対数グラフにすれば)はっきりします。

f:id:rikunora:20090820152435p:image

人気投票結果は、対数目盛に直してもなお下に凸型のカーブを描いています。

指数分布であったなら、右側のグラフのように、直線となっているはずです。


それでは、人気投票結果は本当に冪乗則に従っているのか。

今度は結果を両対数グラフにプロットしてみました。

f:id:rikunora:20090820152150p:image

このプロットが一直線になれば、冪乗則に従っていると言えるのですが・・・

どうでしょうか、わりといい感じで直線っぽくなってますね。

プロットの右側は、比較のために指数関数を両対数で描いたものです。

指数関数の場合には、上にふくらんだ曲線になっています。

グラフから、およその傾きを読み取ることができます。

横軸の10と、縦軸の100を結んだ線が、傾き−2ですから、

おおざっぱに言って

  (同じ階級にある小説の数) = 1 / (階級)^2

となっているわけです。

もともと1階級あたり18票としてカウントしていましたから、

  (同じ票を獲得した小説の数)/18 = 1 / (18 * 票の数)^2

 = (同じ票を獲得した小説の数) = 1 / 18 * (票の数)^2

ですね。

この傾き−2というのは、いつでも成り立つ普遍的な法則なのでしょうか?

もしそうだとしたら、人気投票というのは、ちょうど重力場のように逆二乗の力で人を引きつけているのだと言えそうです。


試しにちょっと調べてみただけで、ここまで上手く冪乗法則が成り立っているとは、驚きでした。

(決して都合の良いデータを選んできた訳ではない)

冪乗法則に興味を持ったのは、この本がきっかけです。

経済物理学の発見 (光文社新書)

経済物理学の発見 (光文社新書)

(前回のエントリーid:rikunora:20090818でも紹介しましたが、再掲)

古典的な統計は、何と言っても正規分布を中心に組み立てられています。

(上の人気投票の例では、正規分布ではなくて指数分布が古典的な考え方に相当します)

ところが実際には、為替や株価の変動など、様々な社会現象正規分布よりもむしろベキ分布に従っているとのこと。

ベキ分布」というキーワードでググってみると、こんな記事がありました。

* DESIGN IT! w/LOVE -- 流入キーワードベキ分布だった!

>> http://gitanez.seesaa.net/article/22472562.html

なるほど、「流入キーワード」「参照元」などもベキ分布に従っている。

こうなるとWebアクセスについては、ベキ分布を基本に考えないといけないでしょうね。

この他にも、いろんなところに冪乗法則が見出せそうです。


とねとね 2009/08/23 11:23 べき乗法則というのは自然科学では見たことがありません。面白そうですね。
人気度は[比例定数]x[知名度]x[クチコミやメディアによる伝達量]のようなものかと思いました。[比例定数]は100人中その人のことが好きな人の割合。人気ランキングと嫌いな人ランキングの上位に同じ人や物が登場することがあるのは[知名度]x[伝達量]の部分の影響が相乗的に働いているからなのかもしれないと思いました。ちょっと古いですが「ルー大柴」とか「ダンディー坂野」がこれに当てはまるのではと。。。

ペカリペカリ 2009/08/23 19:08 興味深いですね。モテ度も一極集中してそうですし。
好みというのは、僅かな差を見分ける能力と中央値への求心力が働いた結果であるというのが自論なのですが、中央から離れるに従って、その差異が気にならなくなっているのかもです。
逆に言うと、中央ではちょっとした差異が大きな人気の差になっているのではないかってことなのですが。

rikunorarikunora 2009/08/24 01:22 自然科学だと、指数分布とか正規分布という気がするのですよね。
このべき乗法則、なぜそうなるのか、メカニズムがまだよくわかっていないみたいです。
人気投票なんて、一人一人は自分のやっていることがはっきりとわかっているのに、
全体になるとよくわからない、というのが不思議です。
あるいはとねさんの言うように、[知名度]x[伝達量]が効いているのかもしれません。
> 人気ランキングと嫌いな人ランキングの上位に同じ人や物が登場することがある
なるほど、特にお笑いなどは、まず目立ってなんぼって所がありますよね。
「好き<->嫌い」以前に、まず「目立つ<->目立たない」という評価軸がある。
つまり分散の大小が基本的な量なのだと思います。

> モテ度も一極集中
ぜったいそうなっていると思う、クラスで一番のマドンナとか、イケメンとか。
データがあったら分析してみたい。
言われてみれば、こういった人気投票の差異って本当に紙一重ですよね。
一位、二位なんて、ちょっとしたことでコロコロひっくり返る。
経済物理だとカオスといった言い方をされていましたが、
ひどく敏感で不安定だということは間違いないでしょう。

いずれにしてもメカニズムがよくわかっていないということは、まだまだ考える余地があるということです。
しかも自分が参加できることなので、調べる手段もあると思っています。

とねとね 2009/08/24 10:03 今週の週末に選挙がありますが、選挙区ごとの候補者の得票数ランキングや比例区での各党のランキングというのは、前回の都知事選の結果を思い出すかぎり、芸能人の人気投票ランキングとは別のからくりが作用しているように思いました。直観的にですけどね。選挙のほうはいろいろな事情がからんでより複雑なからくりかもしれません。

rikunorarikunora 2009/08/26 08:30 得票率はガンマ分布というものになる、という研究があるようです。
http://202.24.143.74/mori/pdf/2009_0127.pdf
http://202.24.143.74/mori/pdf/JPS2009-1.pdf
↑の内容をよく理解していないですが、
どうやら「スケール不変」というのがキーワードらしい。
今回の選挙結果には、ますます目が離せなくなりました。

とねとね 2009/08/26 09:12 なるほど。得票率はガンマ分布になるのですね。
今回の選挙結果はrikunoraさんにとって格好の分析対象になりそうですね。(笑)
ところで、僕のブログのレイアウトがカスタマイズできるようになったことがわかりましたので「お勧めリンク集」という枠を作ってrikunoraさんのブログを登録させていただきました。

rikunorarikunora 2009/08/28 13:46 おおっ、お勧めいただいて、どうもありがとうございます!
リンク先を見ると、見ているブログがすごく重なっていますね。
いまさらですが、入射角と反射角の記事が興味深かったです。

fkfk 2009/10/19 17:48 はじめまして、物理ランキングからやって来ました。
fkと申します。数物系の博士課程の学生です。

この記事の内容が僕の研究分野(複雑ネットワーク)に非常に近いので少し書き込みをしたくなりました。

ご存知かもしれませんが、
べき乗に分布することはスケールフリーと呼ばれます。

この記事にある人気投票もそうですが、
HPのリンク数の分布も友達の数の分布もみなスケールフリーです。

スケールがフリーという言葉は、例えば正規分布における標準偏差のような特徴的な値が分布関数にないことから来ています。

どうしてこういう分布になるかという理由の1つに、
優先選択があります。優先選択とは、たくさんの友達がいる人気者と人は仲良くなりたがるということです。HPで相互リンクを張ってもらう時だってそうですよね。

バラバシと言う人がこの考え方に基づいて、ネットワークモデルを作りました。具体的には友達の数に線形に比例して友達が出来やすいというモデルです。すると友達の数の分布関数P(k)はP(k)∝k^(-3)となり、スケールフリーとなりました。

現実のネットワーク(HPや友達ネットワークやその他たくさんありますが)のほとんどがべき指数の値が2〜3の間にあることを考えると、優先選択はある程度妥当な仮定だと考えられます。

続きます。

fkfk 2009/10/19 18:02 もうひとつの考え方は適応度モデルと呼ばれるモデルで表現されています。

適応度とはこの記事で言うところの人気度のようなものです。この量をfと書きます。

iさんとjさんの適応度の積fi×fjの大きさに比例してこの二人は友達になるとします。もしこの適応度がべき分布しているのなら、友達の数の分布もまたべき分布することがわかっています。これはカルダレリという人がやりました。

もちろん上記2つのモデルは単純なので、
これだけで自然界のべき分布を説明できるとは思えませんが、それでも大きなヒントにはなると思います。

物理関係のHPでいえば、例えばEMANさんのページは
リンクの数も多いですし適応度の値も大きいでしょう。
だから多くの人が「お友達になりたい!」と思って「EMANの物理学」は人気ページになっていったわけです。

金持ちがどんどん金持ちになる理屈も本質的にはこれと同じです。

逆に友達の数の分布が指数分布になるためには、
互いの友達の数や人気度に一切関係なく、
一定確率pで友達になるとすればいいです。
このモデルはランダムグラフと呼ばれます。

fkfk 2009/10/19 18:12 熱く語ってしまいましたが、
実は物理関係者の間で複雑ネットワークはまだ
それほど認知されてはいないのです。

何せ去年ネットワークのセッションが
日本物理学会の中にできたばかりなのです。

おそらく一般の方もそうだと思います。

高安先生の経済物理学もそうですが、これから大きな発展が見込まれる分野だと思います。

なお僕も「fkのページ(http://blogs.yahoo.co.jp/kawasakif1985)」というブログを書いていますので、よろしければご訪問ください。萌え〜なところもあります。

長文失礼いたしました。
これからもこちらのブログには来ると思います。

rikunorarikunora 2009/10/20 13:57 fkさん、詳しい解説ありがとうございます。
この、べき分布については私も少し気になって、自分なりに調べてみました。
すると、これがネットワークの本質に根ざす、奥深い分野なのだということがわかりました。
上のコメントから、おぼろげながらイメージできたのは、
・全くランダムに選択 => 正規分布、指数分布の世界(指数分布族と言うのでしょうか)
・人気者と仲良し、優先選択 => フリースケール、べき分布的な世界?!
こんな感じで良いのでしょうか。

現代はネットワーク社会だと言われているのに、その割に「複雑ネットワーク」の知名度はいま一つのように思います。
私はお仕事で統計処理のようなことをしているのですが、少なくとも私の身の回りでは、あまり話題に上りませんでした。
単に私が知らなかっただけなのか。
ここは1つ、fkさんに「ふたご姫でわかる複雑ネットワーク」というページを作ってもらわないと。
↑期待してます、まじ。
統計なんて、もう100年も前に完成した学問なのではないかと思っていたのですが、
以外なところに未知の領域があるものですね。

fkさんのページを拝見したところ、すごい内容でした! 思わずリンクを張りました。
まずは ☆の記事から順番に読まさせていただきますので、どうぞよろしく。

fkfk 2009/10/20 14:57 リンクを張っていただきありがとうございます。
僕もお気に入りに登録しました。

これでお互いに k が増えましたね(笑)。

僕のコメントは勢いに任せて書いてしまったので、
わかりにくい箇所がたくさんあると思います。
申し訳ありません。

今は量子力学などの記事しかありませんが、ふたご姫と一緒にわかりやすい複雑ネットワークの記事を書こうと思います。

変なところがあった場合は遠慮なく突っ込んで下さい。
既に突っ込まれてますが、その分勉強になっています。

これからもよろしくお願いします。

fkfk 2009/10/20 15:05 rikunoraさんのイメージでいいと思います。

言われてみれば簡単なことかもしれませんが、
これが見つかったのが10年前と比較的最近なのです。

昔は現実のネットワークはランダムグラフと考えられることが多く、大量の実データを解析するコンピュータが無かったので、シミュレーションができないことも含め、進展がなかったのです。

恐らく多くの人が複雑ネットワークという言葉を知らないと思います。増田直紀さんの本がわかりやすいと思いますので、もし興味があるようでしたら手にとってみてはいかがでしょうか。

http://www.stat.t.u-tokyo.ac.jp/~masuda/books.html

のページに本の紹介があります。増田先生のページです。

rikunorarikunora 2009/10/22 10:55 なるほど、コンピューターパワーが新しい分野を切り拓いたのですね。
ご紹介の本、さっそく手にとってみようと思います。

> 素粒子や物性だけが物理学ではありません。

ネットワークというのは立派な物理、これも非常に納得させられました。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/rikunora/20090820/p1