第27回データマイニング+WEB＠東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド祭り− を開催しました

2013/6/22 "第27回データマイニング+WEB＠東京−WEB解析・オープンデータ・クラウド祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining 27th
参加者セキココ：第27回データマイニング+WEB ＠東京セキココ
(作成してくれた @komiya_atsushi さんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

1.「Webクローリング＆スクレイピングの最前線〜ほこ×たてで語られなかった５万枚画像の真実〜」 (講師: @lumin ) (発表25分 + 議論30分)

Webクローリング＆スクレイピングの最前線公開用 from Lumin Hacker

日本から失われつつある技術、Ｗｅｂクローリングとスクレイピングを解説します。弱いクローラから、強いクローラまで、その後のスクレイピング技術など、実際に使っている例を紹介します。フジテレビのバラエティ番組「ほこ×たて」で触れた、短時間で５万枚の画像を集めたクローラも紹介します。

CTFチャレンジジャパン CTF (ハッキング大会)優勝、Winny暗号初解読、TVでのセキュリティ解説、IPA受賞、政府情報保全委員会、等
クローリング
- クローラレベル
- Wget
- UA
- referer対応
- 実際に試す
  - firefox + mozrepl + tcpproxy : ブラウザでクロール
- クローリングの難しい条件
- Tor: 接続経路を匿名化
- SPDY
- クローラ対策
- 秘密の話題
スクレイピング
- スクレイピングの方法
- grepタイプ(簡単・軽い)
- HTML構造を解析：XPath
- Scraper
応用例
- Secroid
  - アンドロイドアプリの情報とアプリクローラ
- ほこたて対戦用
  - google, yahoo, naver 画像検索
  - レベル5のクローラ
  - 検索文字列, PhantomJS
  - 高度にしないほうが早い。実装、計算時間ともに。
- easy webscrap
  - 商用サービス
- zip de kure
  - get and zip
- P2pクローラ
話題
- ほこたて：守る側もゼロから６時間で設定
- P2Pクローラ

参考資料：

2.「オープンデータ・パーソナルデータビジネス最前線」 (講師: @ito_nao) (発表25分 + 議論30分)

オープンデータ・パーソナルデータ最前線 from Naoyuki Ito

安倍政権が日本経済の成長戦略の柱の一つと定めているIT戦略の中で、重要なキーとなっているのが、オープンデータ・ビッグデータ(パーソナルデータの流通・促進等)の利活用推進による新産業・新サービスの創出です。これらに関する海外先進事例・ムーブメントや日本国内の現状についてご紹介します。

Open Knowledge Foundation Japan
- 政府保有データを始め、多様なデータの生成・公開・利用を支援する
オープンデータトーク：データ公開ニーズの深堀、オープンデータをめぐる最新動向の共有
オープンデータとは
米国
- イノベーションを生み出すための取り組み
- データデフォルトで公開。大規模化したときのデータサイエンティストの育成がKey
- どのようなデータが、どのような分野で活用されているか、まとめられている
- Smart disclosureと4分類
- 各領域での活用方法例
- Donsumer.Data.gov
- Quantified Self: コンピュータやガジェットを用いて自分自身の行動や状態を提供し分析。新たな知見を得る。
- 健康の異常判定、医師にもっていく
イギリス
- 政府によるオープンデータ活用支援が活発
- 4年で12のスタートアップ支援
- 例：クラウドサービスのコストと二酸化炭素排出量から顧客の好みにあったデータセンターの選択、公共交通データにアクセスするためのAPI・データ構築
- 消費者にとっての最適な選択：自分のデータを自分で分析し、アクションをとる
- CRM(Customer Relationship Management) では新のロイヤリティは得られない。VRM(Vender Relationship Management)
  - TESCO、会員の購買習慣を販売。会員自身も自分のデータにアクセスできるようにしている。
  - VRM: 企業からの一方的なレコメンド・広告ではなく、個々人が自分が渡すデータを選択できるようにする(Personal Data Store)
  - 自分が良く知っている領域はVRMで自分で選択、分からない領域はCRMでまかす、か。
  - パーソナルデータの保護と利活用
  - 3rd Party: データエクスチェンジャーのデータマネジメント
  - 4th Party: 消費者が自らデータ管理できるプラットフォーム(VRM)
  - 日本のVRM : 情報銀行、Privacy Policy Manager...統合管理。個人情報リスク。Personal Life Repository (PLR).. それぞれが保持。
進行

- 2014年度、データサイエンティスト育成強化
日本でーオープンデータ活用
ALFA: 味の素のエリアマーケティング
R package "govStatJPN" (otani さん)

参考資料：

3.「クラウドネイティブなアーキテクチャでサクサク解析」 (講師: @imai_factory) (発表30分 + 議論35分)

クラウドネイティブなアーキテクチャでサクサク解析 from Yuta Imai

Amazon.comでは現在、最大で1時間に1,079回という驚異的なスピードでデプロイを行っています。これは既存のデータセンターでは考えられない数字でした。この非常に速いデプロイサイクルを実現することを可能にしている、クラウドサービス上でのアプリケーション/システムのデプロイと、そのメリットを解析やデータマイニングに活かす方法を考えてみます。
参考資料はAmazon.comのCTOが21世紀のアーキテクチャとはというテーマで話した講演のビデオです。こちらの内容をベースにお話していきます。

平均 11.6秒に１回デプロイ、１回で平均１万台
デプロイした後、ロードバランサー切り替え
問題があったら、元クラスターに振り向け直す
環境をCopy しABテストも容易
Controllable: 柔軟なコントロール
- 粗結合して切り分ける
- Pintarest AWS、必要なときに必要なリソースを確保
Resilient: 高い耐障害性
- 障害を例外としてとらえない。
- S3(Simple Storage Service)
- 複数のデータセンターでレプリケーション
- Netflix : xxx Monkey、
- 本番環境: xxx Monkey
Adaptive: 状況変化へのつい純正
- 何も過程しない、キャパシティプランニングは後から
- ソーシャルアプリの、週末、急激なのび
- Small Start も large Start もできる
Data Driven: フィードバックループをまわす
- 全ての事象をロギング、フィードバックループをまわす
クラウド上でデータ解析を行うために、理解しておくべきコンセプト
- Data First
  - データサーバが２つつぶれても大丈夫。格納容量に制限がない。
  - S3のデータ以外は State lessにできる。
  - S3 -> EMR: ETL -> Redshift: BI Tool -> DynamoDB WebService
  - S3にまず入れて、必要に応じて解析クラスタを構築
- AWS is Software
  - user-data : EC2起動時にインスタンスを渡すための機能
- – Shell Script を渡して実行させることもできる
  - 一杯インスタンス立ち上げてapache bench で負荷をかける
  - Hadoop を使った計算を簡単にパイプラインかすることができる。
  - SSH や RDBしたら負け
- Workload Driven
  - 仕事に合わせて起動
まとめ
- クラウド外のアーキテクチャをそのままクラウド嬢で再現してもあまりメリットがない
- Hadoop 、SQL等使われる技術のコンセプトは変わらない

参考資料：

2012 re:Invent Day 2 Keynote: Werner Vogels

4.「大規模ログ分析におけるAmazon Web Servicesの活用」 (講師: @stakemura ) (発表20分 + 議論25分)

20130622 tokyo webmining_public from Shintaro Takemura

バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の２点を重点的にお伝えします。

ソーシャルゲームでの活用論文紹介
- ゲームバランス
- ユーザグループ分析
  - 単純なk-meansでは特徴わからない。Non-negative Matrix Factorization、Convex-Hull NMF (凸の多角形になる特徴量にする）
  - App Store (US) の Free/Paid Apps 順位からDL予測
  - RMT をインタビューを通じて調査。公式RMT導入で相場が安定したと感じられている。
ログ基盤 "Greco"
- 由来：Ocean's Thirteen: カジノを守る人工知能
- チューニング、ユーザサポート(Amazon Redshift)
- イベントログ(特定のゲーム内アクションログ): Redshift、全アクセスログ (EMR)
- 最初S3 -> MySQL -> Redshift。fluentd を使用。
Redshift
DWH: Data Ware House: 大規模集計に特化したデータベース。数百万行の集計が高速。
- Columnar Database: 行単位で圧縮をかけながら集約。
- Massively Parallel Processing : MPP。急にログが増えても対応できる。
ゲーム業界での採用
導入のネック：「一言でいうと高い」初期投資、数100万、アプライアンス製品なら1000万
- -> Redshift では桁が１桁２桁安い
導入してみて
- 集計が楽になった
Redshiftのチューニング。B-Tree、
DLL記述: 基本はテーブル設計時に決める。
DBからのマイグレーション: Redshift の最大のボトルネックはinsert。同一リージョンのS3からしか Biuld Insertができない。
分析に耐えうるログを出力するために
- ログは出力するときに構造かされている
- 人為的なミスを取り除く
- 分析者と企画者の意見を反映した上で、ログ仕様を決める

参考資料：

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

継続したい良かった点
改善点アクション
次回AGENDA
MindMap: 第27回データマイニング+WEB＠東京 (2013/06/22) 継続したい点・改善点・次回以降AGENDA - XMind - Mind Mapping Software

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog