Hatena::ブログ(Diary)

konisimple log RSSフィード

はてなブログに移転しました!

2010年10月29日

グラビアアイドルの人気もロングテールなのか、パレートの法則が成り立つのか検証してみた→綺麗に成り立った!

erockrに蓄積された大量のデータを分析してグラビアアイドルの現状を分析する「erockrラボ」シリーズも今回で2回目です。

前回はグラビアアイドルの人気が胸のカップ数と相関がないことが判明しました。

グラビアアイドルの人気度とバストの大きさは相関するのか。 - konisimple log


今回は話題の「ロングテール」について考えてみることにします。

問題

グラビアアイドルの人気もロングテールなのか。

また全体の8割のアクセスが上位の2割アイドルに集中していたりするのか。(いわゆる80:20の法則、パレートの法則)

前提

erockrにおけるアイドルそれぞれのアクセス数が、そのままグラビアアイドルの人気度に比例するとする。

方法

erockrのデータベースからあるグラビアアイドルについて、erockrランク(少ないほど人気)と今までの閲覧数を分析。

閲覧数は2010年3月から昨日(2010年10月28日)までの1000万件弱を分析。

結果

非常に美しいロングテールのグラフになった!!

f:id:konisimple:20101029222052p:image

例によってRで処理。こんなに美しいグラフが書けるなんて。

これは完全に、THE・ロングテールですね。


さあこのグラフわかりにくいので両対数グラフにしてみたらこうなった。

f:id:konisimple:20101030000750p:image

…なんだか直線で近似できそう!

おお!早速線形モデルで近似直線を書いてみた!*1

f:id:konisimple:20101030001620p:image

これの決定係数(R二乗値)は0.919でした。高い!!


…ということは!

グラビアアイドルの人気も冪乗則に従っていて、パレートの法則が成り立つといえそうです。


パレートの法則と言えば、「全体の◯%が全体の△△の☆%を占める」という表現がよく使われますので、その表現も考えてみることにします。

調べると、上位180位までで全体の8割のアクセスを占めることがわかりました。

このことから、

erockrのアクセスの8割は、上位1割のグラビアアイドルが占めている!*2

と言えそうです。

結論

グラビアアイドルの人気は、

注意

  • 計算機リソースの都合で毎日のランキング2000位以下は無視しているので、実際にはもっとロングなテールです。
  • 後半近似曲線を描いた際(3つめのグラフ)、理解力不足によりスケールが変わってしまったため、違う曲線に見えますが同じデータです。
  • 実際には全然画像がないとか、ランキング上位だと露出が多いし上位にアクセスが集まるのは当然だしで、

*1:正直このへんからよくわかってないけど、たぶん大体あってると思う

*2:180/2000=9%=約10%

2010年10月25日

グラビアアイドルの人気度とバストの大きさは相関するのか。

問題

グラビアアイドルの人気度とバストの大きさは相関するのか。


ちょっと気になったので分析してみた。

方法

erockrのデータベースからあるグラビアアイドルについて、カップとerockrランク(少ないほど人気)を取得して分析する。

カップ数は「グラビアアイドル辞典」(wikipediaデータをパースして作成)のものを利用。

結果

f:id:konisimple:20101025163125p:image

Rで処理しました。

erockrランクはerockrでの人気ランキングでの順位。順序尺度。

カップは1がAカップ、2がBカップ、...、11がKカップなど。

カップに関して、

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 4.00 5.00 5.38 7.00 11.00

最頻値はEカップで、平均はE〜Fの間くらい。

相関について

一応相関係数を求めたり検定したりしてみた。

t = -1.0672, df = 135, p-value = 0.2878

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.25526588 0.07743715

sample estimates:

cor

  • 0.09146625

結論

相関はなかった。

カップが大きければいいのではないようだ。

しかし世間一般のカップ平均とグラビアアイドルのカップの平均を比べたらおそらく後者のほうが有意に高いと思う。

面倒なので検証はしないけど。


結構意外な結果だった。なんかこういうの面白いので今度「erockr ラボ」(仮称)を作って分析してみたいと思う。

2010年05月28日

erockrの表示の傾向からアイドルの立ち位置を図にしてみた

erockrでは、画像一覧や画像単体表示時に、ユーザ固有の値とともにキーワードや表示した画像を記録している。

それによって得た情報からキーワード間の類似度を計算し、おすすめとして各検索結果ページに出している。

詳しくは、erockrにレコメンド機能を追加しました - konisimple log

今回はこのデータをRで処理して、アイドル立ち位置マップを作る。

このマップでは、類似度の高いキーワードほど近くに表示したいので、距離が1-類似度にできるだけ近づくようにプロットする。これには「多次元尺度構成法」を用いる。なんだか難しい名前だけど、要は2点間の距離データが与えられたら、出来るだけ誤差がないように表示する方法である。

まずは次のようなキーワード間の距離の表を出力させる。これはPHP+MySQLで実現した。

これでこんな感じのCSVができる。

堀北真希,新垣結衣,上戸彩,佐々木希,堀井美月

0,0.89232,0.89883,0.9071,0.94581

0.89232,0,0.88398,0.87303,0.93667

0.89883,0.88398,0,0.86095,0.93856

0.9071,0.87303,0.86095,0,0.92289

0.94581,0.93667,0.93856,0.92289,0

次にこれをRに取り込み、cmdscale関数に処理して頂く。Rはウェブ上のファイルもローカルと変わらずに読み込めるので便利だ。

x <- read.table("http://erockr.com/sim/csv.php?n=20",header=T,sep=",")
x=x-1
loc <- cmdscale(x)
plot(loc,ann=F)
text(loc, names(x), col="red")

ちなみにRが入っていれば上のコードをコピペするだけで、下のグラフが得られる。

すると次のような図が出てくる。

f:id:konisimple:20100528203926p:image

左上では新垣結衣上戸彩堀北真希が一流のアイドル、女優クラスタを形成している。

また中央下部の安めぐみ磯山さやか井上和香が近いのもなんとなくわかる気がする。

宮崎あおい戸田恵梨香は似ている。

これをクラスターに分けたり、デンドログラムにしたりってのもしたらおもしろそう。

今日はここまでにしておく。

参考

多次元尺度法で遊んでみる(オレ流 R入門) - ダウンロードたけし(寅年)の日記