ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード

2013-05-18

[][] 第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました  第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました - hamadakoichi blog を含むブックマーク  第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました - hamadakoichi blog のブックマークコメント

2013/5/18 "第26回 データマイニング+WEB@東京−オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20130518134448j:image

参加者Twitter List: Twitter List TokyoWebmining 26th

参加者セキココ:第26回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


「DAUを評価指標から捨てたソーシャルゲーム会社の話」(講師: @tokoroten ) (発表20分 + 議論35分)

ソーシャルゲームにおいてDAUは無くてはならないKPIとして取り扱われている。しかしDAUにはさまざまな問題があり、この指標をアプリ改善のために使うには適当ではない。そこで各社さまざまな工夫をしている。今回はドリコムにおいて利用している手法の紹介を行う。

  • DAU: Daily Active User
    • DAU ノイズ大きい。ARPUノイズを発生させる。収益に結びつかないユーザ。
    • 中で話す、サービス改善が行いやすくなる、KPIを設定。
  • ホワイトノイズ:気が向いたときにログイン、曜日の活動。
    • 弊害:昨日より高かった低かったで一喜一憂
    • 経験のないディレクター、偉い人。社内の方針がぶれる。
  • スパイクノイズ:広告によるインストール
    • インストール後、1週間程度で落ち着く
    • 弊害:偉い人が反応する。
    • 「DAUが上がっているのに、ARPUが下がったら意味ないじゃないか」ARPUの本質を理解せず、ただの指標として利用
  • 2つのノイズの対応
  • ドリコム社での解法:「定着ユーザDAU」:5日連続アクセスしたユーザをカウント
    • BU+FUから着想
    • 気まぐれアクセスノイズを除去できる。
    • DAUの75%程度の値。売上げの95%をこのユーザが占める。
    • 良い点:ゲームが面白くなくなると、着実に減る数値。
    • ドリコム社の全てのサービスで、定着ユーザDAUをKPI適用。DAUは見ない。
    • 定着の過程も合わせて出力:過去5日中、1、2、3、4日アクセスのユーザ数をそれぞれ出力。
      • リリース直後の推移で、ユーザ定着増加状況が分かる。
      • 5日中、1日アクセスがはねるだけでなく、2、3、4もちゃんとはねているか。
      • 新規・休眠復活で分類。休眠復活はあきてやめたユーザなので定着悪い。
    • 特徴
      • 失敗するとすぐ分かる。
      • 成功は5日かけて分かる。
      • 課題:定期メンテナンスがあると落ちうる数値。
    • →5日中4日プレイ+5日連続プレイのユーザ数を記載。
  • 他に見ている指標
    • 1日5分以上アクセスユーザ数。5分、プレイ時間のべき乗分布から。ログインボーナスだけのユーザを除去できる時間設定。
    • プレイ時間を監視しのばす。気持ちよく長く遊べる。
    • ネイティブのゲームアプリも同様に適用できた。
  • 上記以外の議論
    • イベントの期間あくと戻ってこない。
    • ARPUの危機:衰退期はコアゲーマーが残るので単純にARPU上がる。
    • 5日、各アクセスパターンと翌日の
    • KPIを内部のひとがハックしてはいけない。自然にサービスをよくしてKPIが上がる。5日連続アクセスするとボーナスもらえる等はもちろん意味ない。6日後落ちる。面白いとおもって続けているわけではないから。

「オープンデータ徹底入門」(講師: @nezuq )(発表25分 + 議論30分)

オープンデータ(オープンガバメント・データ)の概要と活用法を説明します。

オープンデータの定義、種類、活用事例を紹介。その後、ライセンス形態やファイルフォーマットを解説。

  • Open Dataの中で、Open Government Dataをメインに。
  • Open Goverment Data
    • 再配布・再利用可能、商業利用可能な原則無料のデータ公開の施策
    • 類似:e-Stat (政府統計の総合窓口):ただ、商用利用の際は要相談。各部署の承認が必要になる。
    • US: Data.gov, 英国:Data.gov.uk
  • 市場規模 1.2兆円、波及効果5兆円
  • 活用事例
    • Where Does My Money Go
    • Total Weather Insurance: 収穫リスクに応じた適切な保険料
    • Live train map for the London Underground: 地下鉄の現在位置と次駅までの時間のリアルタイム表示
    • Traffic London UK: 道路状況の画像が見える。渋滞状況把握
    • Home Snap: 写真をとった家の評価額、周囲状況。位置情報、税金から評価額を推定
  • データの入手
  • ファイル形式
    • RDF : Resource Description Framework
    • SPARQL : SPARQL Protocol and RDF Query Language
  • RDF
    • 主語・述語・目的語で構成されるデータモデル。リンク情報。
    • 利点:世界中のデータとリンクさせることができる。
    • 「太郎は花子を知っている」「花子のメールアドレスhanako@xxx.co.jp だ」
  • SPARQL
  • 実際につかってみた
    • Google Fusion Table: CSVSLSをアップするとグラフ描画できるサービス
    • 気象データ取得・加工し、Google Fusion Table で表示
  • 団体での進行状況
    • まずは公開しやすい Execl, CSVで公開する。形式はその後。

参考文献:


「セクシー女優で学ぶ画像分類入門」(講師: @tkm2261 ) (発表25分 + 議論30分)

DMMからのクローリング、画像からの特徴抽出(SURF)、BoVWによるベクトル量子化

、k-means法と階層的クラスタリングおよびMDSによる可視化



4.「アドファイブDSP/RTBのアーキテクチャ」(講師: @chiral )(発表25分 + 議論30分)

近年急速に普及が進んでいるディスプレイ広告のDSP/RTBについて、1. オープンソースのRTBKit、2. 弊社開発のアドファイブDSP、の2つのシステムそれぞれの具体的な実装方法を説明します。


■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
  • MindMap: アップし次第、追記します。

推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第26回 データマイニング+WEB 勉強会東京−大規模データ・ソーシャル解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第26回 データマイニング+WEB@東京( #TokyoWebmining #26) ?オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容:

2013-03-23

[][] 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました  第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog を含むブックマーク  第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog のブックマークコメント

2013/3/23 "第25回 データマイニング+WEB@東京−大規模分散 高速解析・ユーザ徹底理解 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20130323132942j:image

参加者Twitter List: Twitter List TokyoWebmining 25th

参加者セキココ:第25回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


「カジュアルにHadoop」 (講師: @teruu ) (発表20分 + 議論35分)

Amazon Elastic MapReduceを利用したお手軽Hadoop入門に関し、お話しします。

  • Amazon AWSの設定方法
  • 接続・利用方法
  • Hive概要
  • WebHive
  • AWS でのHive 環境

※今回特別に、 議論時間の中で @iakiyama さんから「Hadoop 活用最前線の○○xx」 の数字もお見せ頂けました!(非公開)" 基地外と言われ続けた用法が、実運用になり始めた軌跡と、奇跡を少しだけ紹介します" (@iakiyama)

「Impala 徹底入門 -データサイエンティストのための高速 大規模分散基盤- 」 (講師: @shiumachi ) (発表25分 + 議論30分)

Impalaに関しデモを踏まえ説明致します。

  • Impala: アフリカにしかいない
  • 速い Hive: 10倍 〜30倍。悪くても 2〜3倍。
  • デモ
    • 5億行 select count(*) : Hive37分、Impala 3-4秒。
    • 5億行 group by : Hive40分、Impala 17秒。143倍。
  • Cloudera Manager構築簡単
  • Impara メタデータ更新後 refresh 必要。impala shellでやる。
  • どんなデータ規模、どんなデータサイズ
  • Imparaアーキテクチャ特徴
    • Hiveと異なり、直接 Slave にアクセスする
    • Impala SQL : 現時点では DMLのみサポート
    • 機能制限
    • Join : Hash Join。大規模データにJoinする対象のテーブルはマスタ等の1ノードの上メモリにのる量に限られる 。Join前に集計しておけば何段階でもJoin可能。将来、撤廃される。
  • 賢い使い方: Hiveと共存。1次分析はImpala、定常集計
  • 課題

「レコメンデーション運用の視点〜赤裸々な24時のすべて〜」(講師: @hid_tanaka ) (発表25分 + 議論30分)

レコメンドエンジンASP運用の現場でおきる様々な事件・出来事を赤裸々にお話ししします。

資料:講師公開後、追記します(広報チェック後に公開)

参考URL: レコメンドエンジン「ログレコメンダー」シリーズ:分析力をコアとする情報最適化企業・株式会社ALBERT(アルベルト)

  • WEBレコメンド
  • 導入作業(3週間): 仕様決定、ログ収集タグ発行・設定、商品データ連携、ログ収集、表示タグ発行・設定テスト、表示開始
  • 導入箇所:
    • 商品詳細:この商品を見たしとはこんな商品も見ています。
    • カートor購買:こんな商品を勝った人はこんな商品も勝っています
    • Topページ:あなたにおすすめ(最近チェックした商品から)、最近チェックした商品(効果高い)
  • 市場
    • 国内市場では飽和状態
    • ECのデフォルト機能として標準装備や、安価なサービスがある
    • 月額10万。メール、リターゲティングのマルチチャネル拡大。ハイクラス。
  • コンペ事例
    • 2ヶ月ABテストで、数社ロジック出し分け、売上げでコンペ
    • 行った施策:短期の勝負
      • 購買から・閲覧から、の双方のレコメンドの重複商品を削除
      • カートページのキー商品(推薦の元データ) を10件から、2件へ(最近の購入から推薦)
      • 詳細ページ購買ログベースに、閲覧ルール補填(数を増やす)
      • 推薦結果の中から低評価商品の除外
      • 価格フィルタリング(1000円未満表示を禁止) (売上げをあげる)
      • アイテムの所属カテゴリ別に、カテゴリ優先ルール適用(アイテムレベルではなく、カテゴリのベースでも)
      • アイテムの所属カテゴリ別に、カテゴリ禁止ルール適用(女性下着を買った人には、男性下着は出さない)
      • カテゴリベースでも
    • 凄く効いた
    • 案件獲得後の展開
      • 重複排除
      • 優待会員ページでのレコメンド稼働開始
      • サーバー専用化
      • 詳細ページの表示件数を25件に低下
    • 海外
      • 韓国: 最大級のコマースサイト、アパレル専門大手サイト
      • 韓国では自社開発がほとんど。商習慣・言語の違い。3日後導入したい。
      • 連絡なしのいきなり表示開始でサーバが死にかけた
    • トラブルになりやすい
  • チューニング
    • 表示クリエイティブ調整:ページ内表示個所、タイトルデザイン、表示件数、表示項目(価格産む等)
    • ロジック指数チューニング:季節変動、商品改廃の激しい商品の場合:売れ筋商品の出力比率Up
    • ログ参照期間: 長い(直近90日) 、メリット:長期間のログを参照するため多くの商品にルールが関連づけられる。ニッチ商品も入れられる。
    • ログ参照期間: 短い(直近14日) 、メリット:流行商品が推薦されやすい。商品改廃頻度の高い商品の傾向をとらえられる(春もの、夏もの、入れ替わり)
    • 効果感:ロジック、参照期間。ニッチ
  • 分析
    • ユーザクラスタリングレコメンド、メール、コールセンター等、クラスタごとに興味を持たれやすい商品を提供
    • RFM分析・ロイヤルカスタマー分析:優良顧客の特徴(コピー用紙を買う、安めの設定で定期的に買う、等)を分析し、ロイヤルカスタマー化を推進。ロイヤル良く買っている商品を推薦する。
    • 季節トレンド分析:各ユーザが近い将来、購入しやすい
    • カテゴリ間共起分析:クロスセル
    • リピート商材購買頻度分析:前の購入から、次いつ購入されそうか。

「リサーチモニターの調査に対する意識・態度と回答行動の分析」(講師: @mshino55 ) (発表25分 + 議論30分)

資料:講師公開後、追記します(広報チェック後に公開)

同一調査モニターの回答ログと調査に対する意識アンケートを用いた、構造方程式モデリングによる分析に関しお話しします。

  • モニターの脱落防止
  • 調査協力の同期づけ
  • 目的: 情緒に与えるアプローチ(インセンティブ以外、達成感、等)は品質管理上、有効になりうるか。情緒に与える影響を、回答ログと意識アンケートで解明する。
  • データ:
    • Web協力行動データ: 調査ページへのアクセス率、調査途中でアンケートやめた比率、モニター継続日数
    • 調査への意識・態度データ:調査に対する意識態度項目、施策維持施策への評価
  • アクティブな人へのアンケート。アクティブな人を離脱させないようにするためにはどうしたらよいか。
  • 構造方程式モデリング(SEM)
    • 記述的なモデル
    • 要素間の関係の分析。構成概念を表現できる。共分散構造分析
    • ex) 構成概念として、"風味"、"感触"を想定。潜在変数 "風味" の好みは観測されないが説明しやすい。推定する。
  • ポイント欲しい人、中止率が低い。頑張って継続。
  • 情緒的つながりが強い場合、中止率が高い。調査楽しんでいる人もいて、そういう人が面白くない調査だと途中でやめてしまう。

参考書籍

共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)

共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)

共分散構造分析 Amos編―構造方程式モデリング

共分散構造分析 Amos編―構造方程式モデリング


■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
  • MindMap: アップし次第、追記します。

推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第25回 データマイニング+WEB 勉強会東京−大規模データ・ソーシャル解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第25回 データマイニング+WEB@東京( #TokyoWebmining #25) ?大規模分散 高速解析・ユーザ徹底理解 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容:

2012-11-25

[][] 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました  第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog を含むブックマーク  第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog のブックマークコメント

2012/11/25 "第24回 データマイニング+WEB@東京−大規模データ・ソーシャル解析 祭り− "を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20121125132550j:image

参加者Twitter List: Twitter List TokyoWebmining #24

参加者セキココ:第24回 データマイニング+WEB @東京 セキココ

(作成してくれた @kabao さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


「主要なFacebookページの投稿記事データとFB利用者のパネルリサーチからみえてきた エンゲージメント率を高めるTips」 (講師: @nakamuu_m ) (発表25分 + 議論30分)

企業や製品などのFacebookページ(約600ページ)を対象に、投稿記事データとそれに対するユーザ反応データを集計しました。そこからみえてきた「いいね!」やコメントの付けられ方の統計的特徴を共有します。さらに、Facebookユーザを対象に実施したパネルリサーチ調査との付け合せから、ページ運用の改善アクションに繋げるためのTipsを紹介します。(本発表の一部分析とパネルリサーチデータはニフティ株式会社株式会社コムニコの共同調査が出典となります)

  • エンゲージメント率を高める
  • データ
    • FBページデータ。590ページ、5万記事、37万コメント、200万人
    • パネルデータ
  • 評価指標
  • 反応率 = (いいね数 + コメント数 + シェア数) / ファン数(ページのいいね数)
    • ファン数増加の反応率の低下も含めた評価で、全体からの偏差値で評価。
    • 反応率を上げる
    • 画像を投稿する
    • 共感を生む語、柔らかい印象の語を入れる:味、食、美味しい、レシピ、美しい、等
    • ひらがなの多い「柔らかい」印象。ひらがな7割だと、3割の場合の反応率4倍。
    • 漢字3割で、ひらがな7割。英字、数字、カタカナ、記号は使わらないほうがいい。
    • 行動を促すメッセージを入れる。いかがでしょうか:5倍。xxしてみてください!等。
    • 17時の投稿が最も高く、反応率が高い。次いで、7時・11時。朝7時は投稿数が少なく「目立ちやすい」のが要因か。11-13時、17-20時が投稿数多い。
    • パネルデータからは、朝、昼、寝る前が高いが、就寝時間あたりの反応ピークはない。就寝時間に幅があるからか。
  • Tipsで偏差値を挙げた後、さらに上に進む
    • コメントつけてくれた人にいいねを押す、コメントする。阪神のサイトはファン同士がコメントをつけるコミュニケーションの場。
    • 安打製造⇒ホームラン:コンテンツの一般性(例:猫・犬)×期待コンテンツとのギャップ(例:猫なべ)、広めるきっかけ。
    • コメントのタイミング:投稿直後ホームラン、打球が伸びてホームラン(記事広告、メディア露出)、複数初ホームラン(例:寅さん名言)
  •  全てのコメントに含まれる単語、反応率の高い単語
    • 反応率高い:感情を表す単語。やってみよう。
  • FB = リア充 という仮説の検証、モテと投稿の関係 (非公開)

ソーシャルゲームレコメンドエンジンを導入した話」 (講師: @tokoroten ) (発表20分 + 議論35分)


  • Hadoop, Hive, sh, R, SPSS, Knime, Python
  • Hadoop: Impara導入
  • ゲームバランス、継続率、収益率、テキスト、広告効果
  • 分散をあきらめた。100万ユーザ。FIO。PDCAを3日で回す。
  • 組織構造:信頼関係
  • レイドボスで、 生活パターンが一致するユーザを推薦
  • user_id, target_userid のリストを送ると、スコアつきのtarget_userのリストが返る
  • 既存アプリ・新規リリースアプリともに差はでなかった。長期継続率も変わらない。
  • 今後:アクティブ率を考慮していく。既存ユーザの調査を行う。
  • どんな風に仕事が生まれるか:サービス利用から課題⇒課題の定量化⇒アクション
  • インフラにいたときであまりデータに触れないときに活動していた。

「流行りの技術を習得しない大量データ運用」(講師: @criticabug ) (発表25分 + 議論30分)

資料:Google docs

NoSQLなど新技術が現れるたび触っておこうとか思っていたけど

結局ここまで使わずにやってきちゃった某広告サービスの構成をご紹介します

  • レコメンド、パーソナライズされた広告
  • 行動履歴・更新
  • 各種工夫
  • Keep Alive短く
  • グラフデータの扱い:

「REALTime処理KVS一考: ソフトとハードでパフォーマンスを最適化する方法」(講師: @iakiyama ) (発表25分 + 議論30分)

資料:アップされ次第、追記します。

想定:

・何故NoSQLか?

・NoSQLを検討している時のハードウェア構成。

・高速半導体ストレージを使った場合の性能比。

  • NAND型フラッシュメモリ適用のパフォーマンス
  • MEMBRAINによる数字:オンメモリーのKVSアプリケーションに対して、3倍から145倍の速度。
  • Handlersocket on iodrive
  • メモリ増加と各種パフォーマンスアップ

参考文献:

NoSQLに関して


■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
  • MindMap: アップし次第、追記します。

推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第24回 データマイニング+WEB 勉強会東京−大規模データ・ソーシャル解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第24回 データマイニング+WEB@東京 ( #TokyoWebmining #24) ?大規模データ・ソーシャル解析 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容:

2012-10-27

[][] 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました  第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog を含むブックマーク  第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog のブックマークコメント

2012/10/27 "第23回 データマイニング+WEB@東京−大規模ソーシャルデータ・アクセス解析 祭り− "を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20121027161748j:image

参加者Twitter List: Twitter List TokyoWebmining #23

参加者セキココ:第23回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


TwitterでのUser Recommendation」(講師: @americiumian ) (発表25分 + 議論30分)

Twitterユーザ推薦に関して、どのような研究が行われているかについて紹介します。

参考文献:

  • よいユーザとは?
  • 総合的に影響力高いユーザを推薦
  • 同じトピックを共有するユーザ
    • 各トピックの影響力高い:
    • リンク解析
    • ランダムにツイートを抽出、LDA:どのトピックの発言が多いか
    • ユーザ間の類似度を測る、関係グラフを構成、トピック頻度で重み付け
    • 効果:次の方法よりいい:Follower, Follower Graphによる Pageranki、Topic 頻度によらない Twitter Rank
  • 属性伝搬に着目した推薦
    • 同じ興味、所属のユーザを推薦
    • 前提:ユーザは同じ属性をもつユーザを友達にしやすい
    • ある属性をもつユーザN人以上にフォローされているユーザを抽出
    • そのユーザ群がフォローされているユーザを抽出していく
    • コミュニティの発見
  • TURKEYS (Twitter User Ranking using KEY word Search )
    • Retweet, Replay
    • クエリを含むツイート、リプライ。
    • クエリx ユーザ行列から、ユーザxユーザの隣接行列算出。HITSに似ている
  • 同じ語彙を使うユーザ、同じ場所にいたユーザ、共通フォロー先
  • ユーザ推薦の評価
    • 主観評価:ツイートを実際に見る。
    • 客観評価:推薦ユーザを見せ、質問にn 段階で答えてもらい、評価
      • フォローしたいか、目的にあったユーザか
    • ランキング全体の評価
      • DCG
  • ユーザ推薦
    • ユーザは興味にあった情報を得られる。企業にとってはプロモーション。

2. 「SIerもビッグデータ解析ビジネスへ踏み出そう」(講師: @emmie_pp ) (発表25分 + 議論30分)

SIerのビッグデータビジネスへの取組みと、その中で行ったmahoutを使ったソーシャルデータ分析トライアルについてご紹介します。

参考文献:

Mahout in Action

Mahout in Action

Hadoop 第2版

Hadoop 第2版

  • ビックデータ解析への取り組み
    • 見える、関係性、予測
    • 各種事例
      • Volume, Velocity, Variety (組合せの課題)
    • 10TB以上のデータを扱う28%
    • こんな効果が出せるんじゃないか、というイメージがまだ持てない
    • ベンダー:Volume、Velocity で勝負。Varietyはまだ。
    • SIer : AsIs、ToBe の整理。
    • 活用の議論
  • ソーシャルデータを用いた加盟店分析
    • 顧客分析:加盟店の業種を把握
    • 屋号と電話番号、ウェブの店舗情報から、店舗の業種を判別
    • Mahout でテキストを用いてクラスタリング
    • データ取得、形態素解析・フィリタリング(Chasen, Kuromoji)
    • Canopy アルゴリズム
    • 展開

3. 「Androidアプリ内蔵広告 徹底解析」(講師: @lumin ) (発表25分 + 議論30分)

  • セキュリティといえば lumin さん。何かあれば取材依頼が来て、テレビ出演 100回以上。
  • secroid の中の人 http://secroid.jp/
  • The Movie 系
  • 全国電話帳の解析
  • 彼ログ、ミログ(廃業)、The Movie
  • 通信すると取れる情報
    • IPアドレス
      • 都道府県レベルの位置情報
      • 会社名
      • 同じアドレス、どの検索ワード、等
      • User Agent, Cookie、アプリの利用
    • crack 可能な個体識別番号
      • 電話番号、IMEI(機種ごと)、IMSI (国キャリア)、MACアドレス、ICCID(SIMシリアル番号)
      • GPGPU により crack 速度が向上。password 解析。数十億。電話番号解析 1秒
    • ハイジャック (セッション、ユーザ)
      • 認識番号だけだと、
      • 公衆無線LAN 多くの Softbank, au Wifi
  • Android 広告
    • 利用者情報の利用目的と取得
    • Google プライバシーポリシー
    • secroid の中の人 http://secroid.jp/
    • AndroidId, UUIDを作成して識別情報を作る
    • 仕様する IDはSHA1 or MD5

4. 「ネットで個人はどこまで追われているか」(講師: @tomiyoichi ) (発表25分 + 議論30分)

ウェブマーケの業界動向と絡めて、どんな分析がされていてデータ取得はどこまでがOKなの?といったテーマで話しします。#数式は一切出さずに説明する予定です。

参考資料:

 - 消費者庁HP:個人情報の保護

 - 経済産業省HP:個人情報保護

  • Webマーケティングのトレンド
    • マーケティングデータベース
    • リード・ナーチャリング
    • マーケティングオートメーション
    • 進む行動ターゲティング広告
    • オンラインデータとの統合
  • 進化する広告効果分析
  • アクセス解析
    • 交通量から、どんな人が歩いているかに焦点
    • セグメントされた訪問者別の行動分析
  • 傾向としてはユニークユーザの識別・特定
    • 行動履歴から属性推定
  • サービパーティのデータソース
    • ツールバーログ、SP Appliログ、ソーシャルグラフ、SNSプロフィール
    • 検索サイトのサーチワード、IPアドレス-組織・企業、ECサイトの購買ログ、実店舗でのPOS、等
  • 日本の法律
  • EUの動向

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第23回 データマイニング+WEB 勉強会東京−大規模ソーシャルデータ・アクセス解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第23回 データマイニング+WEB@東京 ( #TokyoWebmining #23) ?大規模ソーシャルデータ・アクセス解析 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:



過去開催内容:

2012-09-23

[][] 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました  第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog を含むブックマーク  第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog のブックマークコメント

2012/09/23 "第22回 データマイニング+WEB@東京−広告最適化・アクセス解析・可視化 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20120923173027j:image


参加者Twitter List: Twitter List TokyoWebmining #22

参加者セキココ:第22回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@





1. 「広告クリエイティブの最適化の実際」(講師: @kan_yukiko ) (発表25分 + 議論30分)

バナー広告を中心としたディスプレイ広告は、そのクリエイティブデザインによってクリック率が異なりますが、どのようにして最適なクリエイティブを発見するかについて具体的な解析方法と結果についてご紹介します。

  • ディスプレイ広告
    • その人の行動にあったものを出す
    • その人にどんなバナーのクリエイティブを出すと評価されるか
  • 市場
    • インターネット広告6兆円。ネット広告6600億円、伸びている。
  • 広告最適化
    • 配信最適化
    • クリエイティブ最適化
    • 効果測定
  • 効果の高いところに配信する
  • 配信先最適化
    • 媒体×地域×フィリーケンシー×時間
    • 効果向上
  • クリエイティブ最適化
    • 生成時のレイヤー構造:枠、キャッチコピー、サブキャッチ、ロゴ、メインビジュアル
    • 実験計画法で絞っていく。
    • どのくらいの imp で絞るか。30 Click 位欲しい。
  • コンジョイント分析
    • 複合的な要素を組合せで評価する
    • 買いたい順番をつける
    • 直行表、絞っていく。配信パターンを絞っていきたい。
    • 属性、水準で絞っていく。
    • 買いたい順に順位をつけてもらう。順序尺度
  • 重回帰分析
    • クリック率算出
  • 広告領域、どんな方法が効果高い、
  • 全体的なクリエイティブの最適化、パーソナルな出しわけ・評価は今後行う
  • 事例
    • 168クリエイティブ、自動生成
    • 影響度(効用値の最大値 - 最小値)の算出
    • 分析結果算出までは自動、パラメータ反映の部分は手動で残している。目視で異常値に気づける。


2.「アクセス解析システムの裏側」(講師: @shun0102 ) (発表25分 + 議論30分)

  • 専門的な知識を持っていなくても、直感的にわかるよう可視化
  • 大規模データ
    • 40億PV/月、将来 100億PV/月でも大丈夫なように。
    • リアルタイムにデータをためる(ビーコン解析)。集計バッチ。
  • データ
    • クッキー(サード、ファースト)、ユーザエージェント、端末名、リファラ、IP、画面サイズ、マウス位置、等。
    • SP: iphone4, iphone5 判別: 画面サイズ、px、等
  • 基本的に指標
    • PV:アクセス解析、VISIT:訪問回数、UU: ユニークユーザ(ユニークブラウザ)
  • セッション
    • 一定時間(30分が多い)途切れずに続く一連のアクセス
  • アクセス解析システム実装の悩み
    • リアルタイム集計もするフロントエンド
    • リアルタイムでやるには思い処理。Join等
    • 離脱の判定などのセッション単位の集計
    • 人気ページランキングなどの一日単位の大規模集計
    • 全て1日一回のバッチで済ませれば構成はシンプルになるが、バッチが数時間かかるのはつらい
  • 集計処理の分類
    • リアルタイム、小バッチ(30分ごとの集計)、大バッチ集計(1日一回の集計)
  • 機能実現
    • カウントアップするためのストレージ
    • 直近のアクセスを見るためのストレージ
      • Mogo DB
      • readより write が多い
    • ログリレー
      • fluentd
      • 次のfluentdい書き込めないときは待ってリトライ
      • MongoDBへの書き込みはチャンク単位で行う
  • 小バッチ処理
    • 離脱の判断
    • 組織、ユーザデータのjoin
    • 集計DBへの保存
  • 大バッチ集計
    • 足きりにしよう。
    • 大規模解析
      • Java MapReduce: 性能はよい、工数かかる、一部ではアセンブリ言語と呼ばれる。
      • Hive: SQLライク、スキーマ定義必要、効率のよいファイルフォーマット。
      • Pig: 独自言語、スキーマ定義不要
      • Hadoop Streaming : 好きな言語でかける、性能は悪い。
    • RC Fileに魅かれ、Hiveを使用。必要なファイルのみ読み込む。
    • 流れ
      • hadoop⇒ JSONテキストログをRCfILEに変換⇒ランキング集計
    • 集計
      • UDF: User-Defined Function
      • UDAF : User-Defined Aggregation Function。Groupしたものに対する処理。自由度高くなる。
        • 来たデータを上から順に数字を当てる

3.「データマイニングとビジュアライゼーション」(講師: @hongo3_5 ) (発表15分 + 議論30分)

研究における可視化と実際に使われる可視化のギャップ、そして可視化の際に注意すべきことなどを浅く広くご紹介します。

  • ビジュアライゼーション
    • 人間の視覚・認知能力を活かす。価値あるパターンを発見。
  • ビジュアライゼーションと関係の強い項目
  • 大量なデータから価値あるものを見つける
  • ストーリーを語れることが重要。考察する。
  • 学会
    • VisWeek:
  • 現実適用
    • 見る人に対して付加的な知識を要求すべきではない。
  • 重要要素
    • Target: 見る人のことを第一に考える。
    • Focus plus Context : 詳細情報と、情報間の関連。
    • Story
  • Tool
  • 可視化の展開
    • Dashboard
      • Line Chart, Histogram 低次元データを扱う一般的な手法
        • ⇒ Dashboardでさまざまな低次元データを同時閲覧
      • Parallec Cordinates, Chord Diagram
  • 自作 or ツール
  • 表面的なきれいさだけでなく、データをきちんと伝えられているか
  • データ、エンジニアリング、デザイン、ビジネスまで幅広い知識が必要
  • 複雑なものよりシンプル

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

第22回データマイニング+WEB@東京(2012/09/23)継続したい点・改善点・次回以降AGENDA - hamadakoichi - XMind: Professional & Powerful Mind Mapping Software


推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第22回 データマイニング+WEB 勉強会東京−広告最適化・アクセス解析・可視化 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第22回 データマイニング+WEB@東京 ( #TokyoWebmining #22) ?広告最適化・アクセス解析・可視化 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:



過去開催内容: