ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2012-05-20

[][] 第17回 データマイニング+WEB 勉強会東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました  第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しましたを含むブックマーク  第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しましたのブックマークコメント

2012/05/20 "第17回 データマイニング+WEB 勉強会東京−分散機械学習・ビジネス展開 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20120520133538j:image

参加者Twitter List: Twitter List TokyoWebmining#17 (@horihorioさんに感謝)

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会@東京

View more presentations from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行 :@

1.「Jubatus Online Recommendation」 (講師: @ ) (発表30分 + 議論30分)

リアルタイム・分散処理・機械学習、という3つのキーワードを同時に実現するためのOSS、Jubatusの解説を行います。特に、最近公開された近傍探索(レコメンド)技術に関して解説します。


  • Jubatus
    • リアルタイム、分散、深い解析
    • 展望:5分前のTV番組影響を反映した広告推薦 等
    • 高レスポンス
    • 分散
    • 機械学習
    • update/ analyze/ mix の処理分割で効率のよいアルゴリズムをJubatusのスコープとする。
    • model部分は現在、C++のみ。
    • 他言語でも実装可能にするとより普及広がるのでは?→今後の社内会議で 他言語の実装も検討する( @unnnonouno さん)。
  • Jubatus Recommendation 近傍探索
    • 近傍探索
    • F(q, p) が高い
    • 類似度:cosine: 余弦, Jaccard:共通項目
    • 転置インデクス
    • LSH(Local Sensitive Hashing)
      • cosine類似度の近似計算
      • vector x に対して、ランダムベクトル{r1, .., rk}との内積の正負を計算 H(x) = {sign(xT r1), …, sign(xT, rk)}
      • H(x)だけ保存すればよいので1データあたりkビット
      • メモリ効率向上
    • minHash
      • Jaccord係数の近似計算
      • ハッシュ関数を複数用意したとき m(X)=m(Y) となる回数を数えるとJacc(X,Y)に収束する。
      • ハッシュ関数の適切な数、データ量に依存 : Jubatus では今、64で固定。今後パラメータ化。
      • メモリ効率向上
      • 重み付きJaccord係数:重みで割り算出。
    • 差分更新、Mix、までモデル更新。結構重い。
    • Real time レコメンドが高効果想定のユースケース: 広告配信、異常検知。

2.「Optimizing for conversion in display advertising campaigns」 (講師: @ ) (発表30分 + 議論30分)

今年のWSDMで発表された最新の広告コンバージョン最適化手法について発表する。 なお本発表は4月に行われたWSDM勉強会の内容とほぼ同一となっています。

参考資料:WSDM 2012読み会資料

話題にあがった本: DSP/RTBオーディエンスターゲティング入門 ビッグデータ時代に実現する「枠」から「人」への広告革命 (Next Publishing)


3.「データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜」(講師: @garmy ) (発表30分 + 議論30分)

資料(公開版): データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜

データマイニングはそれ自体が目的ではなく、あくまで企業の様々なレイヤーの意思決定の判断材料を得る手段です。その意思決定にどう活かすのかという課題について、経験談をお話ししながら、アナリストエンジニアがどう動くとよりよい仕事が出来るのかを考えたいと考えています。

  • 100%の確信がなくてもうごくからこそ成果がでかい。
  • 勘や感覚でも事業の醍醐味
  • いつもノギスで測った結果を、意思決定者に斧で切られていないか。
  • 意思決定者のレイヤー
    • 役員レベル:組織ミッションの定義、経営資源の再配分
    • 事業部レベル: 商品・サービス戦略
    • 部/日常レベル:日々の活動
  • 役員
  • 事業部
    • 重大性(影響度)、発生可能性(頻度)
    • 自己認識(問題あり・なし)と結果(事故件数)のマップ
    • ほどよく
  • 部・日常レベル
    • 相手のニーズに会わない場合
    • 顧客が感じていることが正しいか、手法が適切か
    • 結果の解釈を広げ・緩めるか
    • 経営者視点の話題

4.「時系列解析の使い方」 (講師: @horihorio ) (発表30分 + 議論30分)

時系列解析を実際のデータやビジネスに適用する場合には、教科書で学んだ理論体系とは異なった発想の順序や勘所があるのでは?との問題意識と検討中の案を紹介いたします。

  • 問題意識
    • ビジネス適用を念頭に置いた、時系列解析の考え方、使い方
  • 問題設定の立案
    • 分析設計
    • 時系列分析
    • 60データ程度が必要
    • 入力も出力も自分自身
    • 分析の背景/目的/方法を明確にし、結論を想定する。
    • 分析→報告・行動がその場限り: 時系列での検出。
    • 分析→報告・行動まで、反復がある:
      • →時系列以外の選択肢もあるのでは。状態空間モデル。全体・母集団が変わる場合。
    • 状態空間モデル
      • イメージ:好景気、不景気、どちらの状態かを決める。
    • 多変量時系列モデル: VAR: Vector Auto Regression
      • 相互共分散・相関:他変数との影響が先行/一致/遅行なのか分かる
      • Granger Causality: Xが起きたことによりYが起きたか、を検定
    • データ加工
      • 定常時系列への変換
      • 差分、対数平方根への変換。
      • 単位根検定、回避方法
    • モデリング

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

MindMap:

第17回データマイニング+WEB@東京 継続したい点・改善点・次回AGENDA - XMind - Social Brainstorming and Mind Mapping



推薦文献
Rによる時系列分析入門

Rによる時系列分析入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第17回 データマイニング+WEB 勉強会東京−分散機械学習・ビジネス展開 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第17回 データマイニング+WEB@東京 ( #TokyoWebmining #17)?分散機械学習・ビジネス展開 祭り? - Togetter



講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容: