Hatena::ブログ(Diary)

konisimple log RSSフィード

はてなブログに移転しました!

2010年05月14日

jaccard係数によるerockr検索キーワードの分析

昨日やったtanimoto係数によるerockrの検索キーワード間の類似度の計算の続き。

昨日はjaccard係数よりtanimoto係数のほうが名前に親近感がもてるとかいって、tanimoto係数がいいとか言ったが、jaccard係数の方が得られる数値がイメージしやすい。jaccard係数は「和集合に対する積集合の割合」で表されるものなので、頭にベン図が思い浮かぶ。

さて、早速jaccard係数でerockrの表示ランキング上位20位間の類似度を考えてみた。

結果

f:id:konisimple:20100515011608p:image

種類の違う「エロ」

まず際立って目立つのが「エロ」だ。

全ての組み合わせで類似度が低いという評価が出ている。「エロ」だけは人間の名前ではなく、少し種類の違うデータなのでこれは妥当だろう。

類似度の高い組が多いアイテム

新垣結衣佐々木希上戸彩南明奈長澤まさみ深田恭子ほしのあき

これらは知名度も高く、万人受けする人たちのようだ。浅く広くまんべんなく多くのユーザに見られている。

類似度の低い組が多いアイテム

堀北真希堀井美月篠崎愛鈴木茜安めぐみ

堀北真希以外は、知名度が低く、かなり排他的な傾向が強い。

特に篠崎愛はひどいw

得られたデータのうち、使えそうなデータ

アイテム類似度の高いアイテム考察もどき
堀井美月篠崎愛川村ゆきえ、仲村みゆロリ巨乳
篠崎愛堀井美月ロリ巨乳
安めぐみ井上和香磯山さやか深田恭子なんか同じ香りの人たちw
蒼井優綾瀬はるか小阪由佳広末涼子深田恭子清純派?

結論

この方法はロリ巨乳系の人たちの類似アイテムを探すのに向いているw

類似度の分布

Rで、erockrの検索キーワード上位20件の類似度(jaccard係数)の分布をステムアンドリーフで書いてみたところ、以下の通り。

422356666788999
50011222234444455666678888889999
60000001111111122333333333444455556666666777777777788899999999
700000111111111111222222222233334444445555555556666667777777777777888888889999999
800000011111111111111122222222223333333334444445555555666666666777777777777888888889999999999
900000000111111111111122222222223333333334444444555555666666666777778889999
10000111112222223333444455566666777777777778888999999
11001222233344445688899
121134669
1399
144
152
summary

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.04246 0.07064 0.08315 0.08362 0.09519 0.15270