2013-05-18
■[Webmining][勉強会] 第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました

2013/5/18 "第26回 データマイニング+WEB@東京−オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り−"を開催しました。
- 第26回 データマイニング+WEB@東京 ( #TokyoWebmining 26th)−オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り−: Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining 26th
参加者セキココ:第26回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi @hamadakoichi
O2.「参加者全員自己紹介」(75分)
進行 :@hamadakoichi
「DAUを評価指標から捨てたソーシャルゲーム会社の話」(講師: @tokoroten ) (発表20分 + 議論35分)
ソーシャルゲームにおいてDAUは無くてはならないKPIとして取り扱われている。しかしDAUにはさまざまな問題があり、この指標をアプリ改善のために使うには適当ではない。そこで各社さまざまな工夫をしている。今回はドリコムにおいて利用している手法の紹介を行う。
- DAU: Daily Active User
- ホワイトノイズ:気が向いたときにログイン、曜日の活動。
- 弊害:昨日より高かった低かったで一喜一憂。
- 経験のないディレクター、偉い人。社内の方針がぶれる。
- スパイクノイズ:広告によるインストール
- 2つのノイズの対応
- ドリコム社での解法:「定着ユーザDAU」:5日連続アクセスしたユーザをカウント
- BU+FUから着想
- 気まぐれアクセスのノイズを除去できる。
- DAUの75%程度の値。売上げの95%をこのユーザが占める。
- 良い点:ゲームが面白くなくなると、着実に減る数値。
- ドリコム社の全てのサービスで、定着ユーザDAUをKPI適用。DAUは見ない。
- 定着の過程も合わせて出力:過去5日中、1、2、3、4日アクセスのユーザ数をそれぞれ出力。
- リリース直後の推移で、ユーザ定着増加状況が分かる。
- 5日中、1日アクセスがはねるだけでなく、2、3、4もちゃんとはねているか。
- 新規・休眠復活で分類。休眠復活はあきてやめたユーザなので定着悪い。
- 特徴
- 失敗するとすぐ分かる。
- 成功は5日かけて分かる。
- 課題:定期メンテナンスがあると落ちうる数値。
- →5日中4日プレイ+5日連続プレイのユーザ数を記載。
- 他に見ている指標
- 上記以外の議論
「オープンデータ徹底入門」(講師: @nezuq )(発表25分 + 議論30分)
オープンデータ(オープンガバメント・データ)の概要と活用法を説明します。
オープンデータの定義、種類、活用事例を紹介。その後、ライセンス形態やファイルフォーマットを解説。
- Open Dataの中で、Open Government Dataをメインに。
- Open Goverment Data
- 市場規模 1.2兆円、波及効果5兆円
- 活用事例
- データの入手
- OPEN DATA METI
- 気象庁:過去の気象データ
- 東京電力:でんき予報
- 原子力規制委員会:放射線モニタリング情報
- 他、地方公共団体含め、公開している(資料内に各リンク)
- ファイル形式
- RDF
- SPARQL
- 実際につかってみた
- 団体での進行状況
- まずは公開しやすい Execl, CSVで公開する。形式はその後。
参考文献:
「セクシー女優で学ぶ画像分類入門」(講師: @tkm2261 ) (発表25分 + 議論30分)
DMMからのクローリング、画像からの特徴抽出(SURF)、BoVWによるベクトル量子化
、k-means法と階層的クラスタリングおよびMDSによる可視化。
- 目的
- 環境
- 数値計算のバックグラウンドで動く:仕様
- 実装
- Intel MKL、ATLAS、Goto BLAS2、OpenBLAS
- OpenBLAS: 凄く速い。最大で11倍。(Revolution評価)
- Intel MKLでbuild された numpy公開 : http://www.lfd.uci.edu/~gohlke/pythonlibs/
- OpenCV: Open Source Computer Vision Library
- データ収集
- 画像からの特徴抽出
- 画像特徴量
- 女優のクラスタリング
- 他議論
- ファッション領域でやったが画像サイズ小さく Bag of Keypointsがとりづらかった
- サービス
- 数枚の女優の画像から選ぶと、次の女優写真、それを数回繰り返すと、オススメの女優がでる
- アドレス登録し、あなたにオススメの新作を月一度推薦
4.「アドファイブDSP/RTBのアーキテクチャ」(講師: @chiral )(発表25分 + 議論30分)
近年急速に普及が進んでいるディスプレイ広告のDSP/RTBについて、1. オープンソースのRTBKit、2. 弊社開発のアドファイブDSP、の2つのシステムそれぞれの具体的な実装方法を説明します。
- RTBとDSP
- 構成
- 処理の流れ
- オークションデータ例。ビッドリクエスト
- RTBkit
- Open Source の RTB Core. Plug-in を追加し挙動を変える。
- 全体構成(自作)
- Lua
- LuaJIT
- Lupa
- ZeroMQ
- Req-Res, Pub-Sub, Push-Pull
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
- MindMap: アップし次第、追記します。
推薦文献
DSP/RTBオーディエンスターゲティング入門 ビッグデータ時代に実現する「枠」から「人」への広告革命 (Next Publishing)
- 作者: 横山隆治,菅原健一,楳田良輝
- 出版社/メーカー: インプレスR&D
- 発売日: 2012/05/25
- メディア: オンデマンド (ペーパーバック)
- 購入: 4人 クリック: 58回
- この商品を含むブログ (7件) を見る
入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック
- 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/11/26
- メディア: 大型本
- 購入: 18人 クリック: 779回
- この商品を含むブログ (36件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (56件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (268件) を見る
関連ツイート(Togetter)
「第26回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第26回 データマイニング+WEB@東京( TokyoWebmining #26) ?オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog
- 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog
2013-03-23
■[Webmining][勉強会] 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました

2013/3/23 "第25回 データマイニング+WEB@東京−大規模分散 高速解析・ユーザ徹底理解 祭り−"を開催しました。
- 第25回 データマイニング+WEB@東京 ( #TokyoWebmining 25th)−大規模分散 高速解析・ユーザ徹底理解 祭り−: Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining 25th
参加者セキココ:第25回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi @hamadakoichi
O2.「参加者全員自己紹介」(75分)
進行 :@hamadakoichi
「カジュアルにHadoop」 (講師: @teruu ) (発表20分 + 議論35分)
Amazon Elastic MapReduceを利用したお手軽Hadoop入門に関し、お話しします。
※今回特別に、 議論時間の中で @iakiyama さんから「Hadoop 活用最前線の○○xx」 の数字もお見せ頂けました!(非公開)" 基地外と言われ続けた用法が、実運用になり始めた軌跡と、奇跡を少しだけ紹介します" (@iakiyama)
「Impala 徹底入門 -データサイエンティストのための高速 大規模分散基盤- 」 (講師: @shiumachi ) (発表25分 + 議論30分)
Impalaに関しデモを踏まえ説明致します。
- Impala: アフリカにしかいない
- 速い Hive: 10倍 〜30倍。悪くても 2〜3倍。
- デモ
- 5億行 select count(*) : Hive37分、Impala 3-4秒。
- 5億行 group by : Hive40分、Impala 17秒。143倍。
- Cloudera Manager構築簡単
- Impara メタデータ更新後 refresh 必要。impala shellでやる。
- どんなデータ規模、どんなデータサイズ
- Imparaアーキテクチャ特徴
- 賢い使い方: Hiveと共存。1次分析はImpala、定常集計
- 課題
「レコメンデーション運用の視点〜赤裸々な24時のすべて〜」(講師: @hid_tanaka ) (発表25分 + 議論30分)
レコメンドエンジンASP運用の現場でおきる様々な事件・出来事を赤裸々にお話ししします。
資料:講師公開後、追記します(広報チェック後に公開)
参考URL: レコメンドエンジン「ログレコメンダー」シリーズ:分析力をコアとする情報最適化企業・株式会社ALBERT(アルベルト)
- WEBレコメンド
- 導入作業(3週間): 仕様決定、ログ収集タグ発行・設定、商品データ連携、ログ収集、表示タグ発行・設定テスト、表示開始
- 導入箇所:
- 商品詳細:この商品を見たしとはこんな商品も見ています。
- カートor購買:こんな商品を勝った人はこんな商品も勝っています
- Topページ:あなたにおすすめ(最近チェックした商品から)、最近チェックした商品(効果高い)
- 市場
- コンペ事例
- チューニング
- 分析
「リサーチモニターの調査に対する意識・態度と回答行動の分析」(講師: @mshino55 ) (発表25分 + 議論30分)
資料:講師公開後、追記します(広報チェック後に公開)
同一調査モニターの回答ログと調査に対する意識アンケートを用いた、構造方程式モデリングによる分析に関しお話しします。
- モニターの脱落防止
- 調査協力の同期づけ
- 目的: 情緒に与えるアプローチ(インセンティブ以外、達成感、等)は品質管理上、有効になりうるか。情緒に与える影響を、回答ログと意識アンケートで解明する。
- データ:
- アクティブな人へのアンケート。アクティブな人を離脱させないようにするためにはどうしたらよいか。
- 構造方程式モデリング(SEM)
- ポイント欲しい人、中止率が低い。頑張って継続。
- 情緒的つながりが強い場合、中止率が高い。調査楽しんでいる人もいて、そういう人が面白くない調査だと途中でやめてしまう。
参考書籍:
- 作者: アルジュンチョードリー,Arjun Chaudhuri,恩藏直人,平木いくみ,井上淳子,石田大典
- 出版社/メーカー: 千倉書房
- 発売日: 2007/07
- メディア: 単行本
- クリック: 8回
- この商品を含むブログ (2件) を見る
共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 1998/10
- メディア: 単行本
- 購入: 2人 クリック: 4回
- この商品を含むブログ (5件) を見る
- 作者: 豊田秀樹
- 出版社/メーカー: 東京図書
- 発売日: 2007/05
- メディア: 単行本
- 購入: 1人 クリック: 15回
- この商品を含むブログ (10件) を見る
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
- MindMap: アップし次第、追記します。
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (56件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (268件) を見る
関連ツイート(Togetter)
「第25回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第25回 データマイニング+WEB@東京( #TokyoWebmining #25) ?大規模分散 高速解析・ユーザ徹底理解 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog
2012-11-25
■[Webmining][勉強会] 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました

2012/11/25 "第24回 データマイニング+WEB@東京−大規模データ・ソーシャル解析 祭り− "を開催しました。
- 第24回 データマイニング+WEB@東京 ( #TokyoWebmining 24th)−大規模データ・ソーシャル解析 祭り−: Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining #24
参加者セキココ:第24回 データマイニング+WEB @東京 セキココ
(作成してくれた @kabao さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi @hamadakoichi
O2.「参加者全員自己紹介」(75分)
進行 :@hamadakoichi
「主要なFacebookページの投稿記事データとFB利用者のパネルリサーチからみえてきた エンゲージメント率を高めるTips」 (講師: @nakamuu_m ) (発表25分 + 議論30分)
企業や製品などのFacebookページ(約600ページ)を対象に、投稿記事データとそれに対するユーザ反応データを集計しました。そこからみえてきた「いいね!」やコメントの付けられ方の統計的特徴を共有します。さらに、Facebookユーザを対象に実施したパネルリサーチ調査との付け合せから、ページ運用の改善アクションに繋げるためのTipsを紹介します。(本発表の一部分析とパネルリサーチデータはニフティ株式会社&株式会社コムニコの共同調査が出典となります)
- エンゲージメント率を高める
- データ
- FBページデータ。590ページ、5万記事、37万コメント、200万人
- パネルデータ
- 評価指標
- 反応率 = (いいね数 + コメント数 + シェア数) / ファン数(ページのいいね数)
- ファン数増加の反応率の低下も含めた評価で、全体からの偏差値で評価。
- 反応率を上げる
- 画像を投稿する
- 共感を生む語、柔らかい印象の語を入れる:味、食、美味しい、レシピ、美しい、等
- ひらがなの多い「柔らかい」印象。ひらがな7割だと、3割の場合の反応率4倍。
- 漢字3割で、ひらがな7割。英字、数字、カタカナ、記号は使わらないほうがいい。
- 行動を促すメッセージを入れる。いかがでしょうか:5倍。xxしてみてください!等。
- 17時の投稿が最も高く、反応率が高い。次いで、7時・11時。朝7時は投稿数が少なく「目立ちやすい」のが要因か。11-13時、17-20時が投稿数多い。
- パネルデータからは、朝、昼、寝る前が高いが、就寝時間あたりの反応ピークはない。就寝時間に幅があるからか。
- Tipsで偏差値を挙げた後、さらに上に進む
- コメントつけてくれた人にいいねを押す、コメントする。阪神のサイトはファン同士がコメントをつけるコミュニケーションの場。
- 安打製造⇒ホームラン:コンテンツの一般性(例:猫・犬)×期待コンテンツとのギャップ(例:猫なべ)、広めるきっかけ。
- コメントのタイミング:投稿直後ホームラン、打球が伸びてホームラン(記事広告、メディア露出)、複数初ホームラン(例:寅さん名言)
- 全てのコメントに含まれる単語、反応率の高い単語
- 反応率高い:感情を表す単語。やってみよう。
- FB = リア充 という仮説の検証、モテと投稿の関係 (非公開)
「ソーシャルゲームにレコメンドエンジンを導入した話」 (講師: @tokoroten ) (発表20分 + 議論35分)
- Hadoop, Hive, sh, R, SPSS, Knime, Python
- Hadoop: Impara導入
- ゲームバランス、継続率、収益率、テキスト、広告効果
- 分散をあきらめた。100万ユーザ。FIO。PDCAを3日で回す。
- 組織構造:信頼関係
- レイドボスで、 生活パターンが一致するユーザを推薦
- user_id, target_userid のリストを送ると、スコアつきのtarget_userのリストが返る
- 既存アプリ・新規リリースアプリともに差はでなかった。長期継続率も変わらない。
- 今後:アクティブ率を考慮していく。既存ユーザの調査を行う。
- どんな風に仕事が生まれるか:サービス利用から課題⇒課題の定量化⇒アクション
- インフラにいたときであまりデータに触れないときに活動していた。
「流行りの技術を習得しない大量データ運用」(講師: @criticabug ) (発表25分 + 議論30分)
資料:Google docs
NoSQLなど新技術が現れるたび触っておこうとか思っていたけど
結局ここまで使わずにやってきちゃった某広告サービスの構成をご紹介します
- レコメンド、パーソナライズされた広告
- 行動履歴・更新
- 各種工夫
- Keep Alive短く
- グラフデータの扱い:
「REALTime処理KVS一考: ソフトとハードでパフォーマンスを最適化する方法」(講師: @iakiyama ) (発表25分 + 議論30分)
資料:アップされ次第、追記します。
想定:
・何故NoSQLか?
・NoSQLを検討している時のハードウェア構成。
・高速半導体ストレージを使った場合の性能比。
- NAND型フラッシュメモリ適用のパフォーマンス
- MEMBRAINによる数字:オンメモリーのKVSアプリケーションに対して、3倍から145倍の速度。
- Handlersocket on iodrive
- メモリ増加と各種パフォーマンスアップ
参考文献:
NoSQLに関して
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
- MindMap: アップし次第、追記します。
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (56件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (268件) を見る
関連ツイート(Togetter)
「第24回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第24回 データマイニング+WEB@東京 ( #TokyoWebmining #24) ?大規模データ・ソーシャル解析 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog
2012-10-27
■[Webmining][勉強会] 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました

2012/10/27 "第23回 データマイニング+WEB@東京−大規模ソーシャルデータ・アクセス解析 祭り− "を開催しました。
- 第23回 データマイニング+WEB@東京 ( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− : Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining #23
参加者セキココ:第23回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi @hamadakoichi
O2.「参加者全員自己紹介」(75分)
進行 :@hamadakoichi
「TwitterでのUser Recommendation」(講師: @americiumian ) (発表25分 + 議論30分)
Twitterユーザ推薦に関して、どのような研究が行われているかについて紹介します。
参考文献:
- TwitterRank:Finding Topic-Sensitive Influential Twitterers.
- Finding your friends and following them to where you are.
- 属性伝播モデルを用いたマイクロブログのフォロー先推薦法
- Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて―
- よいユーザとは?
- 総合的に影響力高いユーザを推薦
- 同じトピックを共有するユーザ
- 属性伝搬に着目した推薦
- 同じ興味、所属のユーザを推薦
- 前提:ユーザは同じ属性をもつユーザを友達にしやすい
- ある属性をもつユーザN人以上にフォローされているユーザを抽出
- そのユーザ群がフォローされているユーザを抽出していく
- コミュニティの発見
- TURKEYS (Twitter User Ranking using KEY word Search )
- 同じ語彙を使うユーザ、同じ場所にいたユーザ、共通フォロー先
- ユーザ推薦の評価
- 主観評価:ツイートを実際に見る。
- 客観評価:推薦ユーザを見せ、質問にn 段階で答えてもらい、評価
- フォローしたいか、目的にあったユーザか
- ランキング全体の評価
- DCG
- ユーザ推薦
- ユーザは興味にあった情報を得られる。企業にとってはプロモーション。
2. 「SIerもビッグデータ解析ビジネスへ踏み出そう」(講師: @emmie_pp ) (発表25分 + 議論30分)
SIerのビッグデータビジネスへの取組みと、その中で行ったmahoutを使ったソーシャルデータ分析トライアルについてご紹介します。
参考文献:
- 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman
- 出版社/メーカー: Manning Pubns Co
- 発売日: 2011/10/28
- メディア: ペーパーバック
- 購入: 4人 クリック: 81回
- この商品を含むブログ (9件) を見る
- 作者: Tom White,玉川竜司,兼田聖士
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/07/23
- メディア: 大型本
- 購入: 9人 クリック: 182回
- この商品を含むブログ (20件) を見る
- ビックデータ解析への取り組み
- 見える、関係性、予測
- 各種事例
- Volume, Velocity, Variety (組合せの課題)
- 10TB以上のデータを扱う28%
- こんな効果が出せるんじゃないか、というイメージがまだ持てない
- ベンダー:Volume、Velocity で勝負。Varietyはまだ。
- SIer : AsIs、ToBe の整理。
- 活用の議論
- ソーシャルデータを用いた加盟店分析
- 顧客分析:加盟店の業種を把握
- 屋号と電話番号、ウェブの店舗情報から、店舗の業種を判別
- Mahout でテキストを用いてクラスタリング
- データ取得、形態素解析・フィリタリング(Chasen, Kuromoji)
- Canopy アルゴリズム
- 展開
3. 「Androidアプリ内蔵広告 徹底解析」(講師: @lumin ) (発表25分 + 議論30分)
- セキュリティといえば lumin さん。何かあれば取材依頼が来て、テレビ出演 100回以上。
- secroid の中の人 http://secroid.jp/
- The Movie 系
- 全国電話帳の解析
- 彼ログ、ミログ(廃業)、The Movie
- 通信すると取れる情報
- IPアドレス
- 都道府県レベルの位置情報
- 会社名
- 同じアドレス、どの検索ワード、等
- User Agent, Cookie、アプリの利用
- crack 可能な個体識別番号
- 電話番号、IMEI(機種ごと)、IMSI (国キャリア)、MACアドレス、ICCID(SIMシリアル番号)
- GPGPU により crack 速度が向上。password 解析。数十億。電話番号解析 1秒
- ハイジャック (セッション、ユーザ)
- 認識番号だけだと、
- 公衆無線LAN 多くの Softbank, au Wifi
- IPアドレス
- Android 広告
- 利用者情報の利用目的と取得
- Google プライバシーポリシー
- secroid の中の人 http://secroid.jp/
- AndroidId, UUIDを作成して識別情報を作る
- 仕様する IDはSHA1 or MD5
4. 「ネットで個人はどこまで追われているか」(講師: @tomiyoichi ) (発表25分 + 議論30分)
ウェブマーケの業界動向と絡めて、どんな分析がされていてデータ取得はどこまでがOKなの?といったテーマで話しします。#数式は一切出さずに説明する予定です。
参考資料:
- Webマーケティングのトレンド
- マーケティングデータベース
- リード・ナーチャリング
- マーケティングオートメーション
- 進む行動ターゲティング広告
- オンラインデータとの統合
- 進化する広告効果分析
- アクセス解析
- 交通量から、どんな人が歩いているかに焦点
- セグメントされた訪問者別の行動分析
- 傾向としてはユニークユーザの識別・特定
- 行動履歴から属性推定
- サービパーティのデータソース
- ツールバーログ、SP Appliログ、ソーシャルグラフ、SNSプロフィール
- 検索サイトのサーチワード、IPアドレス-組織・企業、ECサイトの購買ログ、実店舗でのPOS、等
- 日本の法律
- EUの動向
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (56件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (268件) を見る
関連ツイート(Togetter)
「第23回 データマイニング+WEB 勉強会@東京−大規模ソーシャルデータ・アクセス解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第23回 データマイニング+WEB@東京 ( #TokyoWebmining #23) ?大規模ソーシャルデータ・アクセス解析 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog
2012-09-23
■[Webmining][勉強会] 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました

2012/09/23 "第22回 データマイニング+WEB@東京−広告最適化・アクセス解析・可視化 祭り−"を開催しました。
- 第22回 データマイニング+WEB@東京 ( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− : Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining #22
参加者セキココ:第22回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi @hamadakoichi
O2.「参加者全員自己紹介」(75分)
進行 :@hamadakoichi
1. 「広告クリエイティブの最適化の実際」(講師: @kan_yukiko ) (発表25分 + 議論30分)
バナー広告を中心としたディスプレイ広告は、そのクリエイティブデザインによってクリック率が異なりますが、どのようにして最適なクリエイティブを発見するかについて具体的な解析方法と結果についてご紹介します。
- ディスプレイ広告
- その人の行動にあったものを出す
- その人にどんなバナーのクリエイティブを出すと評価されるか
- 市場
- インターネット広告6兆円。ネット広告6600億円、伸びている。
- 広告最適化
- 配信最適化
- クリエイティブ最適化
- 効果測定
- 効果の高いところに配信する
- 配信先最適化
- 媒体×地域×フィリーケンシー×時間
- 効果向上
- クリエイティブ最適化
- 生成時のレイヤー構造:枠、キャッチコピー、サブキャッチ、ロゴ、メインビジュアル
- 実験計画法で絞っていく。
- どのくらいの imp で絞るか。30 Click 位欲しい。
- コンジョイント分析
- 複合的な要素を組合せで評価する
- 買いたい順番をつける
- 直行表、絞っていく。配信パターンを絞っていきたい。
- 属性、水準で絞っていく。
- 買いたい順に順位をつけてもらう。順序尺度
- 重回帰分析
- クリック率算出
- 広告領域、どんな方法が効果高い、
- 全体的なクリエイティブの最適化、パーソナルな出しわけ・評価は今後行う
- 事例
- 168クリエイティブ、自動生成
- 影響度(効用値の最大値 - 最小値)の算出
- 分析結果算出までは自動、パラメータ反映の部分は手動で残している。目視で異常値に気づける。
2.「アクセス解析システムの裏側」(講師: @shun0102 ) (発表25分 + 議論30分)
- 専門的な知識を持っていなくても、直感的にわかるよう可視化
- 大規模データ
- 40億PV/月、将来 100億PV/月でも大丈夫なように。
- リアルタイムにデータをためる(ビーコン解析)。集計バッチ。
- データ
- クッキー(サード、ファースト)、ユーザエージェント、端末名、リファラ、IP、画面サイズ、マウス位置、等。
- SP: iphone4, iphone5 判別: 画面サイズ、px、等
- 基本的に指標
- PV:アクセス解析、VISIT:訪問回数、UU: ユニークユーザ(ユニークブラウザ)
- セッション
- 一定時間(30分が多い)途切れずに続く一連のアクセス
- アクセス解析システム実装の悩み
- リアルタイム集計もするフロントエンド
- リアルタイムでやるには思い処理。Join等
- 離脱の判定などのセッション単位の集計
- 人気ページランキングなどの一日単位の大規模集計
- 全て1日一回のバッチで済ませれば構成はシンプルになるが、バッチが数時間かかるのはつらい
- 集計処理の分類
- リアルタイム、小バッチ(30分ごとの集計)、大バッチ集計(1日一回の集計)
- 機能実現
- 小バッチ処理
- 大バッチ集計
- 足きりにしよう。
- 大規模解析
- RC Fileに魅かれ、Hiveを使用。必要なファイルのみ読み込む。
- 流れ
- hadoop⇒ JSONテキストログをRCfILEに変換⇒ランキング集計
- 集計
- UDF: User-Defined Function
- UDAF : User-Defined Aggregation Function。Groupしたものに対する処理。自由度高くなる。
- 来たデータを上から順に数字を当てる
3.「データマイニングとビジュアライゼーション」(講師: @hongo3_5 ) (発表15分 + 議論30分)
研究における可視化と実際に使われる可視化のギャップ、そして可視化の際に注意すべきことなどを浅く広くご紹介します。
- ビジュアライゼーション
- 人間の視覚・認知能力を活かす。価値あるパターンを発見。
- ビジュアライゼーションと関係の強い項目
- データマイニング
- ネットワークサイエンス
- バイオインフォマティクス
- 大量なデータから価値あるものを見つける
- ストーリーを語れることが重要。考察する。
- 学会
- VisWeek:
- 現実適用
- 見る人に対して付加的な知識を要求すべきではない。
- 重要要素
- Tool
- 可視化の展開
- Dashboard
- Line Chart, Histogram 低次元データを扱う一般的な手法
- ⇒ Dashboardでさまざまな低次元データを同時閲覧
- Parallec Cordinates, Chord Diagram
- Line Chart, Histogram 低次元データを扱う一般的な手法
- Dashboard
- 自作 or ツール
- 表面的なきれいさだけでなく、データをきちんと伝えられているか
- データ、エンジニアリング、デザイン、ビジネスまで幅広い知識が必要
- 複雑なものよりシンプル
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (56件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (268件) を見る
関連ツイート(Togetter)
「第22回 データマイニング+WEB 勉強会@東京−広告最適化・アクセス解析・可視化 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第22回 データマイニング+WEB@東京 ( #TokyoWebmining #22) ?広告最適化・アクセス解析・可視化 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog







