Hatena::ブログ(Diary)

konisimple log RSSフィード Twitter

はてなブログに移転しました!

2010年11月27日

「erockrの運用とデータの活用」グラビアアイドルの自動クラスタリング、カップ分析ほか。

画像xエンジニアリング勉強会(GXEB)という勉強会で「erockrの運用とデータの活用」というテーマでライトニングトークをしてきたので、その内容を文字におこしてみました。

ちなみにこのGXEBという勉強会はOppai-Detect3 - ゆーすけべー日記などのすごい発表も聞けて、とても楽しい勉強会でした!他の人の発表は2010-11-27 - 海老かつ日記をご覧ください。

※発表でフォローしきれなかったところは追補しました。

koni

「こに」の自己紹介 - konisimple

erockr?

Flickrを使うメリット

erockrの機能

  • erockrをご覧ください。
  • f:id:konisimple:20101127155645p:image
  • 検索キーワードから、ランキングから、名前一覧から検索できる
  • 画像にオンマウスで評価ボタン出現

ただ検索するだけじゃつまらない

  • このようなAPIを叩くだけのサイト
    • オリジナルなコンテンツがない
    • ランキングなど、自分のところで得られるデータの活用が重要
    • そこで...

ただ検索するだけじゃつまらないので 1/3

  • 画像の表示順序を変更→検索結果のクオリティを向上
    • クリック数(検索結果ページのクリックは全て記録!)
    • ユーザによる評価
  • エロ画像をさがしている人は、イイ!と思った画像をほいほいクリックすることが多く、かなりよく機能している

ただ検索するだけじゃつまらないので 2/3

ただ検索するだけじゃつまらないので 3/3

  • wikipediaからアイドルの定量的な情報をとってくる
    • 生年月日、血液型、身長、体重、スリーサイズ、カップ
  • f:id:konisimple:20101127155643p:image
    • スリーサイズ判明:約400人、カップ判明:約200名

集めたデータ

データの活用? グラビアアイドル類似マップ

  • 類似度が高い→距離が近い!
  • 地図を作ろう
  • 多次元尺度構成法
  • 書いてみた!
  • f:id:konisimple:20101127155641p:image
  • 類似度データだけで、アイドルをある程度クラスタリングできる

このマップの作成方法はerockrの表示の傾向からアイドルの立ち位置を図にしてみた - konisimple logをご覧ください。Rという勝間和代も使っている統計解析ソフトで5行でできます。

データの活用? アイドルの人気と胸の大きさは相関するのか?

  • 分布図を書いてみた
  • f:id:konisimple:20101127155640p:image
  • 相関なし!
  • では一般女性と比べてみたら?
  • f:id:konisimple:20101127155639p:image
  • 一般女性よりグラビアアイドルの方がおよそ3段階大きい。

データの活用? アイドルの人気とバスト/ウエスト比率は関係するのか?

  • 理想のバスト/ウエスト比率は、1.4
  • f:id:konisimple:20101127155638p:image
  • 有意な相関なし!
  • 人気グラビアアイドルのバストウエスト比率は 1.47程度

まとめ

  • apiを利用しただけでオリジナルのコンテンツを持たないマッシュアップサイトでも、いろんなデータがとれたりして楽しい。

資料(この日のスライド)

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証