第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました

2012/06/23 "第19回 データマイニング+WEB 勉強会@東京−データ徹底活用・機械学習 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining#19 (@horihorioさんに感謝)

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「ソーシャルグラフを活用したレコメンデーション - レコメンデーション最前線 -」(講師: @komiya_atsushi ) (発表40分 + 議論40分)

ソーシャルグラフ (Social Network) を活用したレコメンデーションをテーマとして、アカデミックな分野における昨今(最前線)の研究内容をご紹介します。

  • アイテムのレコメンド、ユーザのレコメンド(リンク予測)
  • ユーザベースの協調フィルタリング
    • ユーザ類似度
  • ソーシャルグラフ
  • リンク予測(Link Prediction):ソーシャルグラフ上において新しく作られるようであろうリンクを予測する。友達候補予測。
    • リンク構造をもとに、ユーザの類似度を計算する。類似度の高いユーザを推薦。
    • 共通の友人
    • リンク予測の具体的な手法
    • グラフの局所特徴に着目
      • Jaccard 係数
      • CN (Common Neighbors)
    • グラフ全体を考慮
      • Random Walk with Restarts
      • SimRank
  • Jaccard係数
    • アクティブユーザからみてShortestPath的に計算。「友達の友果皮」に相当するユーザに対してのみ、Jaccard係数を計算する。
    • まだ友達になっていない「友達の友達」。Shortest pathが3以上だと(友達の友達の友達)共通の友達がいない場合、値がゼロになる。
  • Random Walk with Restarts
    • アクティブユーザを起点にランダムウォーク。各ノードへの遷移確率は同じとする。
    • 一定の確率で、アクティブユーザに戻ってランダムウォークを再開する(Restarts)。
      • Restartsを入れると無限時間のランダムウォーク、行列極限での計算できる。
      • N次で遷移を止めるのと意図と同等
    • FriendTNS
    • 局所特徴、グラフ全体特徴、双方を考慮したユーザ類似度が算出できる
    • Basic node similarity
      • アクティブユーザとリンクを有するユーザとの類似度算出
      • 1/(2ユーザのリンク次数の合計+1)
    • Transitive Node Similarity
      • Transitive: 推移
      • 友達の友達以上のユーザの類似度算出
      • Sortest Pathを求める
      • 到達パスがない:0、友達:BNSを使用、2次以上: Sortest Path上の各EdgeのBNSを掛け合わせていく。
      • 複数のSortest Pathがある場合は、スコア操作が必要か(最大、平均等)
      • アクティブユーザから離れるほど、低くなる。
    • 精度:FriendTNS >>> RWRCN >> CN
    • 計算量:CN >> FriendTNS > RWR
      • メモ:どういう要素により、FriendTNSの制度を高くしているのか? Random walkとの違いは、SortestPathのみをとる、エッジのウェイトの分母が両ノードのエッジ。Sortest Path上の寄与がRandom Walkでも効いてくるから、エッジのウェイトで2ノードのエッジ数を入れているところが効いているのか。
  • ソーシャルグラフ協調フィルタを合わせたアイテムレコメンド
  • サービス実験
    • 批評に特化したSNSで効果が高かった
  • データセット
  • 参考資料

2.「データフュージョン徹底入門」(講師: [Twitter:@yokkuns] ) (発表40分 + 議論40分)

「どのような広告媒体にどのような情報を載せれば、ターゲット層がより購入するか」といった解析を行うためには、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータが必要であるが、これを実際に得るのは非常に難しい。
データフュージョンは、「どの広告をどのメディアで見たか」については市場調査、「どのような商品を購入したか」は購買データ、などの複数のデータソースから得られたデータを統合することで、上記のような解析を行う手法である。本発表では、このデータフュージョンの基本的な考え方を紹介する。

  • データフュージョン: 複数の異なるデータを単一データに統合することで、より良い予測と意思決定を支援するための手法
  • 購買データと、市場調査データ、等別々で取られるデータを統合
  • 欠測データ
    • 観測できないデータを欠測していると考える
    • 因果推論、選択バイアス、データ融合
    • 原因:記入漏れ、無回答等
    • 欠測のメカニズム
      • 完全にランダム:欠測するかどうか、モデリングに用いている変数には依存しない
      • ランダムな欠測:観測値に依存する(テストで50点取らないと、次のテストを受けられない)
      • ランダムでない欠測:欠測値そのもの、観測していない他の変数、にも依存する(調査で得られていない変数)
    • 因果効果 = 処置群の平均 - 対照群の平均
      • ランダムに割り当てると、処置群、対象群が等質になり処置・非処置で期待値が等しくなるので平均差で扱える。
    • 実験ンできない因果関係を解析する
    • 共変量で割り当てをモデリングし、傾向スコアを算出
    • 共変量:共通で得られるデータ(年齢、性別、趣味、等)
    • 割当、処置の両方に影響を与えている変数
    • 共変量が同じなら、z=1のy0の期待値をz=0のy0の期待値で扱うことができる
    • 対象者i の群1へ割当てる確率 ei=p(Zi=1| xi)
    • zi :対象者i の割当て変数の値
    • xi : 対象者i の共変量の値
  • データフュージョン
    • 欠測が発生しているシングルソースデータとして考え、のりしろとなる共変量を用いて結合する
    • 前提:共変量を条件づけた場合には、各目的変数は独立
    • 共変量が同じであれば、2つのデータが相互補完できる。
    • 20代男性だったら広告がバイク購入へ与える影響は同じとみなす
    • 割当と効果に影響を与える変数
  • マッチング
    • 共変量に関して最も近くなるようなデータAとデータBの対象者を作り、同一対象者とみなす
  • 潜在変数モデリング
    • 潜在変数モデルを利用することで欠測問題を回避。共通因子や潜在クラスを家庭してデータフュージョンを行う
  • 回帰モデル
    • ロジスティック回帰モデル等用いて、共変量から目的とする欠損変数を直接推定する
  • セミパラメトリックモデル
    • 共変量の情報を最大限に生かして予測を行うためにはセミパラメトリックモデルな回帰手法が望ましい
      • カーネルマッチング
      • ディリクレ過程混合モデル
      • 素数Kをモデルから決定する

参考文献

3.「統計学部第二回−教師付き機械学習について−」(講師: [Twitter:@isseing333] ) (発表35分 + 議論35分)

日本で統計学部カリキュラムを受講できるのはTokyoWebminingだけ!今回は統計学部カリキュラム第2回。教師付き学習に関し、統計ファンタジスタ @isseing333 が基礎、活用、展望、未来について熱く語り・伝授します。

※次回、開催予定です。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

http://www.xmind.net/share/_embed/hamadakoichi/no-19-times-mining-web-tokyo-and-want-to-continue-point/

推薦文献

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第19回 データマイニング+WEB 勉強会@東京−データ徹底活用・機械学習 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第19回 データマイニング+WEB@東京 ( #TokyoWebmining #19) -データ徹底活用・機械学習 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: