第19回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 19th)−データ徹底活用・機械学習祭り− を開催しました

2012/06/23 "第19回データマイニング+WEB 勉強会＠東京−データ徹底活用・機械学習祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining#19 (@horihorioさんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

1.「ソーシャルグラフを活用したレコメンデーション - レコメンデーション最前線 -」(講師: @komiya_atsushi ) (発表40分 + 議論40分)

ソーシャルグラフを活用したレコメンデーション - レコメンデーション最前線(?) -

View more presentations from Atsushi KOMIYA

ソーシャルグラフ (Social Network) を活用したレコメンデーションをテーマとして、アカデミックな分野における昨今（最前線）の研究内容をご紹介します。

アイテムのレコメンド、ユーザのレコメンド（リンク予測）
ユーザベースの協調フィルタリング
- ユーザ類似度
ソーシャルグラフ
リンク予測(Link Prediction)：ソーシャルグラフ上において新しく作られるようであろうリンクを予測する。友達候補予測。
- リンク構造をもとに、ユーザの類似度を計算する。類似度の高いユーザを推薦。
- 共通の友人
- リンク予測の具体的な手法
- グラフの局所特徴に着目
  - Jaccard 係数
  - CN (Common Neighbors)
- グラフ全体を考慮
  - Random Walk with Restarts
  - SimRank
Jaccard係数
- アクティブユーザからみてShortestPath的に計算。「友達の友果皮」に相当するユーザに対してのみ、Jaccard係数を計算する。
- まだ友達になっていない「友達の友達」。Shortest pathが3以上だと(友達の友達の友達)共通の友達がいない場合、値がゼロになる。
Random Walk with Restarts
- アクティブユーザを起点にランダムウォーク。各ノードへの遷移確率は同じとする。
- 一定の確率で、アクティブユーザに戻ってランダムウォークを再開する（Restarts）。
  - Restartsを入れると無限時間のランダムウォーク、行列極限での計算できる。
  - N次で遷移を止めるのと意図と同等
- FriendTNS
- 局所特徴、グラフ全体特徴、双方を考慮したユーザ類似度が算出できる
- Basic node similarity
  - アクティブユーザとリンクを有するユーザとの類似度算出
  - 1/(2ユーザのリンク次数の合計+1)
- Transitive Node Similarity
  - Transitive: 推移
  - 友達の友達以上のユーザの類似度算出
  - Sortest Pathを求める
  - 到達パスがない：0、友達：BNSを使用、2次以上: Sortest Path上の各EdgeのBNSを掛け合わせていく。
  - 複数のSortest Pathがある場合は、スコア操作が必要か（最大、平均等）
  - アクティブユーザから離れるほど、低くなる。
- 精度：FriendTNS >>> RWRCN >> CN
- 計算量：CN >> FriendTNS > RWR
  - メモ：どういう要素により、FriendTNSの制度を高くしているのか? Random walkとの違いは、SortestPathのみをとる、エッジのウェイトの分母が両ノードのエッジ。Sortest Path上の寄与がRandom Walkでも効いてくるから、エッジのウェイトで２ノードのエッジ数を入れているところが効いているのか。
ソーシャルグラフと協調フィルタを合わせたアイテムレコメンド
- Social Union アルゴリズム
- ユーザ類似度を混ぜ合わせる
- FriendTNS、協調フィルタの類似度を合わせる。FrindTNSのユーザ類似度、協調フィルタの類似度、の線形結合を用いる。
- 協調フィルタのWeight(係数) a = dR/(dA + dR)。協調フィルタ側が、ソーシャルグラフと比べどのくらい効くか
  - ソーシャルグラフ側： dA = 対象アクティブユーザのリンク密度/ソーシャルグラフ全体のリンク密度
  - 協調フィルタ側　　： dR = 対象アクティブユーザの購買密度/ユーザ全体の購買密度
- 新たに得られたユーザ類似度をもとにアイテムスコア算出する
サービス実験
- 批評に特化したSNSで効果が高かった
データセット
参考資料
- Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links (PDF) ：
  - リンク予測問題に対する手法として、FriendTNS アルゴリズムを提案している論文です。
- Product Recommendation and Rating Prediction based on Multi-modal Social Networks (PDF)：
  - FriendTNS アルゴリズムを利用し、ソーシャルグラフをつかったレコメンデーションを提案している論文です。
- Zansa 第3回勉強会 : Introduction to Recommender Systems (Slideshare) ：
  - レコメンデーション入門を目的として作った説明資料です。

2.「データフュージョン徹底入門」(講師: [Twitter:@yokkuns] ) (発表40分 + 議論40分)

Tokyowebmining19 data fusion

View more presentations from yokkuns

「どのような広告媒体にどのような情報を載せれば、ターゲット層がより購入するか」といった解析を行うためには、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータが必要であるが、これを実際に得るのは非常に難しい。
データフュージョンは、「どの広告をどのメディアで見たか」については市場調査、「どのような商品を購入したか」は購買データ、などの複数のデータソースから得られたデータを統合することで、上記のような解析を行う手法である。本発表では、このデータフュージョンの基本的な考え方を紹介する。

データフュージョン：複数の異なるデータを単一データに統合することで、より良い予測と意思決定を支援するための手法
購買データと、市場調査データ、等別々で取られるデータを統合
欠測データ
- 観測できないデータを欠測していると考える
- 因果推論、選択バイアス、データ融合

- 原因：記入漏れ、無回答等
- 欠測のメカニズム
  - 完全にランダム：欠測するかどうか、モデリングに用いている変数には依存しない
  - ランダムな欠測：観測値に依存する（テストで５０点取らないと、次のテストを受けられない）
  - ランダムでない欠測：欠測値そのもの、観測していない他の変数、にも依存する（調査で得られていない変数）
- 因果効果 = 処置群の平均 - 対照群の平均
  - ランダムに割り当てると、処置群、対象群が等質になり処置・非処置で期待値が等しくなるので平均差で扱える。
- 実験ンできない因果関係を解析する
- 共変量で割り当てをモデリングし、傾向スコアを算出
- 共変量：共通で得られるデータ（年齢、性別、趣味、等）
- 割当、処置の両方に影響を与えている変数
- 共変量が同じなら、z=1のy0の期待値をz=0のy0の期待値で扱うことができる
- 対象者i の群1へ割当てる確率 ei=p(Zi=1| xi)
- zi ：対象者i の割当て変数の値
- xi : 対象者i の共変量の値
データフュージョン
- 欠測が発生しているシングルソースデータとして考え、のりしろとなる共変量を用いて結合する
- 前提：共変量を条件づけた場合には、各目的変数は独立
- 共変量が同じであれば、２つのデータが相互補完できる。
- 20代男性だったら広告がバイク購入へ与える影響は同じとみなす
- 割当と効果に影響を与える変数
マッチング
- 共変量に関して最も近くなるようなデータAとデータBの対象者を作り、同一対象者とみなす
潜在変数モデリング
- 潜在変数モデルを利用することで欠測問題を回避。共通因子や潜在クラスを家庭してデータフュージョンを行う
回帰モデル
- ロジスティック回帰モデル等用いて、共変量から目的とする欠損変数を直接推定する
セミパラメトリックモデル
- 共変量の情報を最大限に生かして予測を行うためにはセミパラメトリックモデルな回帰手法が望ましい
  - カーネルマッチング
  - ディリクレ過程混合モデル
  - 要素数Kをモデルから決定する

参考文献

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

作者: 星野崇宏
出版社/メーカー: 岩波書店
発売日: 2009/07/29
メディア: 単行本
購入: 29人クリック: 285回
この商品を含むブログ (26件) を見る

3.「統計学部第二回−教師付き機械学習について−」(講師: [Twitter:@isseing333] ) （発表35分 + 議論35分)

Tokyo webmining統計学部第2回

View more presentations from Issei Kurahashi

日本で統計学部カリキュラムを受講できるのはTokyoWebminingだけ！今回は統計学部カリキュラム第２回。教師付き学習に関し、統計ファンタジスタ @isseing333 が基礎、活用、展望、未来について熱く語り・伝授します。

参考資料：
- ぼくのかんがえたとうけいがくぶかりきゅらむ

※次回、開催予定です。

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

継続したい良かった点
改善点アクション
次回AGENDA

http://www.xmind.net/share/_embed/hamadakoichi/no-19-times-mining-web-tokyo-and-want-to-continue-point/

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog