ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2013-03-23

[][] 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました  第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しましたを含むブックマーク  第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しましたのブックマークコメント

2013/3/23 "第25回 データマイニング+WEB@東京−大規模分散 高速解析・ユーザ徹底理解 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20130323132942j:image

参加者Twitter List: Twitter List TokyoWebmining 25th

参加者セキココ:第25回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


カジュアルHadoop」 (講師: @teruu ) (発表20分 + 議論35分)

Amazon Elastic MapReduceを利用したお手軽Hadoop入門に関し、お話しします。

  • Amazon AWSの設定方法
  • 接続・利用方法
  • Hive概要
  • WebHive
  • AWS でのHive 環境

※今回特別に、 議論時間の中で @iakiyama さんから「Hadoop 活用最前線の○○xx」 の数字もお見せ頂けました!(非公開)" 基地外と言われ続けた用法が、実運用になり始めた軌跡と、奇跡を少しだけ紹介します" (@iakiyama)

「Impala 徹底入門 -データサイエンティストのための高速 大規模分散基盤- 」 (講師: @shiumachi ) (発表25分 + 議論30分)

Impalaに関しデモを踏まえ説明致します。

  • Impala: アフリカにしかいない
  • 速い Hive: 10倍 〜30倍。悪くても 2〜3倍。
  • デモ
    • 5億行 select count(*) : Hive37分、Impala 3-4秒。
    • 5億行 group by : Hive40分、Impala 17秒。143倍。
  • Cloudera Manager構築簡単
  • Impara メタデータ更新後 refresh 必要。impala shellでやる。
  • どんなデータ規模、どんなデータサイズ
  • Imparaアーキテクチャ特徴
    • Hiveと異なり、直接 Slave にアクセスする
    • Impala SQL : 現時点では DMLのみサポート
    • 機能制限
    • Join : Hash Join。大規模データにJoinする対象のテーブルはマスタ等の1ノードの上メモリにのる量に限られる 。Join前に集計しておけば何段階でもJoin可能。将来、撤廃される。
  • 賢い使い方: Hiveと共存。1次分析はImpala、定常集計
  • 課題

「レコメンデーション運用の視点〜赤裸々な24時のすべて〜」(講師: @hid_tanaka ) (発表25分 + 議論30分)

レコメンドエンジンASP運用の現場でおきる様々な事件・出来事を赤裸々にお話ししします。

資料:講師公開後、追記します(広報チェック後に公開)

参考URL: Logreco(ログレコ)

  • WEBレコメンド
  • 導入作業(3週間): 仕様決定、ログ収集タグ発行・設定、商品データ連携、ログ収集、表示タグ発行・設定テスト、表示開始
  • 導入箇所:
    • 商品詳細:この商品を見たしとはこんな商品も見ています。
    • カートor購買:こんな商品を勝った人はこんな商品も勝っています
    • Topページ:あなたにおすすめ(最近チェックした商品から)、最近チェックした商品(効果高い)
  • 市場
    • 国内市場では飽和状態
    • ECのデフォルト機能として標準装備や、安価なサービスがある
    • 月額10万。メール、リターゲティングのマルチチャネル拡大。ハイクラス。
  • コンペ事例
    • 2ヶ月ABテストで、数社ロジック出し分け、売上げでコンペ
    • 行った施策:短期の勝負
      • 購買から・閲覧から、の双方のレコメンドの重複商品を削除
      • カートページのキー商品(推薦の元データ) を10件から、2件へ(最近の購入から推薦)
      • 詳細ページ購買ログベースに、閲覧ルール補填(数を増やす)
      • 推薦結果の中から低評価商品の除外
      • 価格フィルタリング(1000円未満表示を禁止) (売上げをあげる)
      • アイテムの所属カテゴリ別に、カテゴリ優先ルール適用(アイテムレベルではなく、カテゴリのベースでも)
      • アイテムの所属カテゴリ別に、カテゴリ禁止ルール適用(女性下着を買った人には、男性下着は出さない)
      • カテゴリベースでも
    • 凄く効いた
    • 案件獲得後の展開
      • 重複排除
      • 優待会員ページでのレコメンド稼働開始
      • サーバー専用化
      • 詳細ページの表示件数を25件に低下
    • 海外
      • 韓国: 最大級のコマースサイト、アパレル専門大手サイト
      • 韓国では自社開発がほとんど。商習慣・言語の違い。3日後導入したい。
      • 連絡なしのいきなり表示開始でサーバが死にかけた
    • トラブルになりやすい
  • チューニング
    • 表示クリエイティブ調整:ページ内表示個所、タイトルデザイン、表示件数、表示項目(価格産む等)
    • ロジック指数チューニング:季節変動、商品改廃の激しい商品の場合:売れ筋商品の出力比率Up
    • ログ参照期間: 長い(直近90日) 、メリット:長期間のログを参照するため多くの商品にルールが関連づけられる。ニッチ商品も入れられる。
    • ログ参照期間: 短い(直近14日) 、メリット:流行商品が推薦されやすい。商品改廃頻度の高い商品の傾向をとらえられる(春もの、夏もの、入れ替わり)
    • 効果感:ロジック、参照期間。ニッチ
  • 分析

「リサーチモニターの調査に対する意識・態度と回答行動の分析」(講師: @mshino55 ) (発表25分 + 議論30分)

資料:講師公開後、追記します(広報チェック後に公開)

同一調査モニターの回答ログと調査に対する意識アンケートを用いた、構造方程式モデリングによる分析に関しお話しします。

  • モニターの脱落防止
  • 調査協力の同期づけ
  • 目的: 情緒に与えるアプローチ(インセンティブ以外、達成感、等)は品質管理上、有効になりうるか。情緒に与える影響を、回答ログと意識アンケートで解明する。
  • データ:
    • Web協力行動データ: 調査ページへのアクセス率、調査途中でアンケートやめた比率、モニター継続日数
    • 調査への意識・態度データ:調査に対する意識態度項目、施策維持施策への評価
  • アクティブな人へのアンケート。アクティブな人を離脱させないようにするためにはどうしたらよいか。
  • 構造方程式モデリング(SEM)
    • 記述的なモデル
    • 要素間の関係の分析。構成概念を表現できる。共分散構造分析
    • ex) 構成概念として、"風味"、"感触"を想定。潜在変数 "風味" の好みは観測されないが説明しやすい。推定する。
  • ポイント欲しい人、中止率が低い。頑張って継続。
  • 情緒的つながりが強い場合、中止率が高い。調査楽しんでいる人もいて、そういう人が面白くない調査だと途中でやめてしまう。

参考書籍

共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)

共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)

共分散構造分析 Amos編―構造方程式モデリング

共分散構造分析 Amos編―構造方程式モデリング


■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第25回 データマイニング+WEB 勉強会東京−大規模データ・ソーシャル解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第25回 データマイニング+WEB@東京( #TokyoWebmining #25) ?大規模分散 高速解析・ユーザ徹底理解 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容:

トラックバック - http://d.hatena.ne.jp/hamadakoichi/20130323/p1
リンク元
Connection: close