第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました
2012/06/23 "第19回 データマイニング+WEB 勉強会@東京−データ徹底活用・機械学習 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining#19 (@horihorioさんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
1.「ソーシャルグラフを活用したレコメンデーション - レコメンデーション最前線 -」(講師: @komiya_atsushi ) (発表40分 + 議論40分)
ソーシャルグラフ (Social Network) を活用したレコメンデーションをテーマとして、アカデミックな分野における昨今(最前線)の研究内容をご紹介します。
- アイテムのレコメンド、ユーザのレコメンド(リンク予測)
- ユーザベースの協調フィルタリング
- ユーザ類似度
- ソーシャルグラフ
- リンク予測(Link Prediction):ソーシャルグラフ上において新しく作られるようであろうリンクを予測する。友達候補予測。
- リンク構造をもとに、ユーザの類似度を計算する。類似度の高いユーザを推薦。
- 共通の友人
- リンク予測の具体的な手法
- グラフの局所特徴に着目
- Jaccard 係数
- CN (Common Neighbors)
- グラフ全体を考慮
- Random Walk with Restarts
- SimRank
- Jaccard係数
- アクティブユーザからみてShortestPath的に計算。「友達の友果皮」に相当するユーザに対してのみ、Jaccard係数を計算する。
- まだ友達になっていない「友達の友達」。Shortest pathが3以上だと(友達の友達の友達)共通の友達がいない場合、値がゼロになる。
- Random Walk with Restarts
- アクティブユーザを起点にランダムウォーク。各ノードへの遷移確率は同じとする。
- 一定の確率で、アクティブユーザに戻ってランダムウォークを再開する(Restarts)。
- Restartsを入れると無限時間のランダムウォーク、行列極限での計算できる。
- N次で遷移を止めるのと意図と同等
- FriendTNS
- 局所特徴、グラフ全体特徴、双方を考慮したユーザ類似度が算出できる
- Basic node similarity
- アクティブユーザとリンクを有するユーザとの類似度算出
- 1/(2ユーザのリンク次数の合計+1)
- Transitive Node Similarity
- Transitive: 推移
- 友達の友達以上のユーザの類似度算出
- Sortest Pathを求める
- 到達パスがない:0、友達:BNSを使用、2次以上: Sortest Path上の各EdgeのBNSを掛け合わせていく。
- 複数のSortest Pathがある場合は、スコア操作が必要か(最大、平均等)
- アクティブユーザから離れるほど、低くなる。
- 精度:FriendTNS >>> RWRCN >> CN
- 計算量:CN >> FriendTNS > RWR
- メモ:どういう要素により、FriendTNSの制度を高くしているのか? Random walkとの違いは、SortestPathのみをとる、エッジのウェイトの分母が両ノードのエッジ。Sortest Path上の寄与がRandom Walkでも効いてくるから、エッジのウェイトで2ノードのエッジ数を入れているところが効いているのか。
- ソーシャルグラフと協調フィルタを合わせたアイテムレコメンド
- サービス実験
- 批評に特化したSNSで効果が高かった
- データセット
- 参考資料
- Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links (PDF) :
- リンク予測問題に対する手法として、FriendTNS アルゴリズムを提案している論文です。
- Product Recommendation and Rating Prediction based on Multi-modal Social Networks (PDF):
- Zansa 第3回勉強会 : Introduction to Recommender Systems (Slideshare) :
- レコメンデーション入門を目的として作った説明資料です。
- Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links (PDF) :
2.「データフュージョン徹底入門」(講師: [Twitter:@yokkuns] ) (発表40分 + 議論40分)
「どのような広告媒体にどのような情報を載せれば、ターゲット層がより購入するか」といった解析を行うためには、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータが必要であるが、これを実際に得るのは非常に難しい。
データフュージョンは、「どの広告をどのメディアで見たか」については市場調査、「どのような商品を購入したか」は購買データ、などの複数のデータソースから得られたデータを統合することで、上記のような解析を行う手法である。本発表では、このデータフュージョンの基本的な考え方を紹介する。
- データフュージョン: 複数の異なるデータを単一データに統合することで、より良い予測と意思決定を支援するための手法
- 購買データと、市場調査データ、等別々で取られるデータを統合
- 欠測データ
- 観測できないデータを欠測していると考える
- 因果推論、選択バイアス、データ融合
-
- 原因:記入漏れ、無回答等
- 欠測のメカニズム
- 完全にランダム:欠測するかどうか、モデリングに用いている変数には依存しない
- ランダムな欠測:観測値に依存する(テストで50点取らないと、次のテストを受けられない)
- ランダムでない欠測:欠測値そのもの、観測していない他の変数、にも依存する(調査で得られていない変数)
- 因果効果 = 処置群の平均 - 対照群の平均
- ランダムに割り当てると、処置群、対象群が等質になり処置・非処置で期待値が等しくなるので平均差で扱える。
- 実験ンできない因果関係を解析する
- 共変量で割り当てをモデリングし、傾向スコアを算出
- 共変量:共通で得られるデータ(年齢、性別、趣味、等)
- 割当、処置の両方に影響を与えている変数
- 共変量が同じなら、z=1のy0の期待値をz=0のy0の期待値で扱うことができる
- 対象者i の群1へ割当てる確率 ei=p(Zi=1| xi)
- zi :対象者i の割当て変数の値
- xi : 対象者i の共変量の値
- データフュージョン
- 欠測が発生しているシングルソースデータとして考え、のりしろとなる共変量を用いて結合する
- 前提:共変量を条件づけた場合には、各目的変数は独立
- 共変量が同じであれば、2つのデータが相互補完できる。
- 20代男性だったら広告がバイク購入へ与える影響は同じとみなす
- 割当と効果に影響を与える変数
- マッチング
- 共変量に関して最も近くなるようなデータAとデータBの対象者を作り、同一対象者とみなす
- 潜在変数モデリング
- 潜在変数モデルを利用することで欠測問題を回避。共通因子や潜在クラスを家庭してデータフュージョンを行う
- 回帰モデル
- ロジスティック回帰モデル等用いて、共変量から目的とする欠損変数を直接推定する
- セミパラメトリックモデル
参考文献
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (26件) を見る
3.「統計学部第二回−教師付き機械学習について−」(講師: [Twitter:@isseing333] ) (発表35分 + 議論35分)
日本で統計学部カリキュラムを受講できるのはTokyoWebminingだけ!今回は統計学部カリキュラム第2回。教師付き学習に関し、統計ファンタジスタ @isseing333 が基礎、活用、展望、未来について熱く語り・伝授します。
- 参考資料:
※次回、開催予定です。
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
推薦文献
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (26件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第19回 データマイニング+WEB 勉強会@東京−データ徹底活用・機械学習 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第19回 データマイニング+WEB@東京 ( #TokyoWebmining #19) -データ徹底活用・機械学習 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog