第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しました

2013/6/22 "第27回 データマイニング+WEB@東京−WEB解析・オープンデータ・クラウド 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining 27th
参加者セキココ:第27回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「Webクローリング&スクレイピングの最前線〜ほこ×たてで語られなかった5万枚画像の真実〜」 (講師: @lumin ) (発表25分 + 議論30分)

日本から失われつつある技術、Webクローリングとスクレイピングを解説します。弱いクローラから、強いクローラまで、その後のスクレイピング技術など、実際に使っている例を紹介します。フジテレビのバラエティ番組「ほこ×たて」で触れた、短時間で5万枚の画像を集めたクローラも紹介します。

  • CTFチャレンジジャパン CTF (ハッキング大会)優勝、Winny暗号初解読、TVでのセキュリティ解説、IPA受賞、政府情報保全委員会、等
  • クローリング
    • クローラレベル
    • Wget
    • UA
    • referer対応
    • 実際に試す
      • firefox + mozrepl + tcpproxy : ブラウザでクロール
    • クローリングの難しい条件
    • Tor: 接続経路を匿名化
    • SPDY
    • クローラ対策
    • 秘密の話題
  • スクレイピング
  • 応用例
    • Secroid
      • アンドロイドアプリの情報とアプリクローラ
    • ほこたて対戦用
      • google, yahoo, naver 画像検索
      • レベル5のクローラ
      • 検索文字列, PhantomJS
      • 高度にしないほうが早い。実装、計算時間ともに。
    • easy webscrap
      • 商用サービス
    • zip de kure
      • get and zip
    • P2pクローラ
  • 話題
    • ほこたて:守る側もゼロから6時間で設定
    • P2Pクローラ

参考資料:

2.「オープンデータ・パーソナルデータビジネス最前線」 (講師: @ito_nao) (発表25分 + 議論30分)

安倍政権が日本経済の成長戦略の柱の一つと定めているIT戦略の中で、重要なキーとなっているのが、オープンデータ・ビッグデータ(パーソナルデータの流通・促進等)の利活用推進による新産業・新サービスの創出です。 これらに関する海外先進事例・ムーブメントや日本国内の現状についてご紹介します。

  • Open Knowledge Foundation Japan
    • 政府保有データを始め、多様なデータの生成・公開・利用を支援する
  • オープンデータトーク:データ公開ニーズの深堀、オープンデータをめぐる最新動向の共有
  • オープンデータとは
  • 米国
    • イノベーションを生み出すための取り組み
    • データデフォルトで公開。大規模化したときのデータサイエンティストの育成がKey
    • どのようなデータが、どのような分野で活用されているか、まとめられている
    • Smart disclosureと4分類
    • 各領域での活用方法例
    • Donsumer.Data.gov
    • Quantified Self: コンピュータやガジェットを用いて自分自身の行動や状態を提供し分析。新たな知見を得る。
    • 健康の異常判定、医師にもっていく
  • イギリス
    • 政府によるオープンデータ活用支援が活発
    • 4年で12のスタートアップ支援
    • 例:クラウドサービスのコストと二酸化炭素排出量から顧客の好みにあったデータセンターの選択、公共交通データにアクセスするためのAPI・データ構築
    • 消費者にとっての最適な選択:自分のデータを自分で分析し、アクションをとる
    • CRM(Customer Relationship Management) では新のロイヤリティは得られない。VRM(Vender Relationship Management)
      • TESCO、会員の購買習慣を販売。会員自身も自分のデータにアクセスできるようにしている。
      • VRM: 企業からの一方的なレコメンド・広告ではなく、個々人が自分が渡すデータを選択できるようにする(Personal Data Store)
      • 自分が良く知っている領域はVRMで自分で選択、分からない領域はCRMでまかす、か。
      • パーソナルデータの保護と利活用
      • 3rd Party: データエクスチェンジャーのデータマネジメント
      • 4th Party: 消費者が自らデータ管理できるプラットフォーム(VRM)
      • 日本のVRM : 情報銀行、Privacy Policy Manager...統合管理。個人情報リスク。Personal Life Repository (PLR).. それぞれが保持。
  • 進行
    • 2014年度、データサイエンティスト育成強化
  • 日本でーオープンデータ活用
  • ALFA: 味の素のエリアマーケティング
  • R package "govStatJPN" (otani さん)


参考資料:

3.「クラウドネイティブなアーキテクチャでサクサク解析」 (講師: @imai_factory) (発表30分 + 議論35分)

Amazon.comでは現在、最大で1時間に1,079回という驚異的なスピードでデプロイを行っています。 これは既存のデータセンターでは考えられない数字でした。 この非常に速いデプロイサイクルを実現することを可能にしている、 クラウドサービス上でのアプリケーション/システムのデプロイと、そのメリットを解析やデータマイニングに活かす方法を考えてみます。
参考資料はAmazon.comのCTOが21世紀のアーキテクチャとはというテーマで話した講演のビデオです。 こちらの内容をベースにお話していきます。

  • 平均 11.6秒に1回デプロイ、1回で平均1万台
  • デプロイした後、ロードバランサー切り替え
  • 問題があったら、元クラスターに振り向け直す
  • 環境をCopy しABテストも容易
  • Controllable: 柔軟なコントロール
    • 粗結合して切り分ける
    • Pintarest AWS、必要なときに必要なリソースを確保
  • Resilient: 高い耐障害性
    • 障害を例外としてとらえない。
    • S3(Simple Storage Service)
    • 複数のデータセンターでレプリケーション
    • Netflix : xxx Monkey、
    • 本番環境: xxx Monkey
  • Adaptive: 状況変化へのつい純正
    • 何も過程しない、キャパシティプランニングは後から
    • ソーシャルアプリの、週末、急激なのび
    • Small Start も large Start もできる
  • Data Driven: フィードバックループをまわす
  • クラウド上でデータ解析を行うために、理解しておくべきコンセプト
    • Data First
      • データサーバが2つつぶれても大丈夫。格納容量に制限がない。
      • S3のデータ以外は State lessにできる。
      • S3 -> EMR: ETL -> Redshift: BI Tool -> DynamoDB WebService
      • S3にまず入れて、必要に応じて解析クラスタを構築
    • AWS is Software
    • – Shell Script を渡して実行させることもできる
      • 一杯インスタンス立ち上げてapache bench で負荷をかける
      • Hadoop を使った計算を簡単にパイプラインかすることができる。
      • SSHRDBしたら負け
    • Workload Driven
      • 仕事に合わせて起動
  • まとめ


参考資料:

4.「大規模ログ分析におけるAmazon Web Servicesの活用」 (講師: @stakemura ) (発表20分 + 議論25分)

バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の2点を重点的にお伝えします。

  • ソーシャルゲームでの活用 論文紹介
    • ゲームバランス
    • ユーザグループ分析
      • 単純なk-meansでは特徴わからない。Non-negative Matrix Factorization、Convex-Hull NMF (凸の多角形になる特徴量にする)
      • App Store (US) の Free/Paid Apps 順位からDL予測
      • RMT をインタビューを通じて調査。公式RMT導入で相場が安定したと感じられている。
  • ログ基盤 "Greco"
    • 由来:Ocean's Thirteen: カジノを守る人工知能
    • チューニング、ユーザサポート(Amazon Redshift)
    • イベントログ(特定のゲーム内アクションログ): Redshift、全アクセスログ (EMR)
    • 最初S3 -> MySQL -> Redshift。fluentd を使用。
  • Redshift
  • DWH: Data Ware House: 大規模集計に特化したデータベース。数百万行の集計が高速。
    • Columnar Database: 行単位で圧縮をかけながら集約。
    • Massively Parallel Processing : MPP。急にログが増えても対応できる。
  • ゲーム業界での採用
  • 導入のネック:「一言でいうと高い」初期投資、数100万、アプライアンス製品なら1000万
    • -> Redshift では桁が1桁2桁安い
  • 導入してみて
    • 集計が楽になった
  • Redshiftのチューニング。B-Tree、
  • DLL記述: 基本はテーブル設計時に決める。
  • DBからのマイグレーション: Redshift の最大のボトルネックはinsert。同一リージョンのS3からしか Biuld Insertができない。
  • 分析に耐えうるログを出力するために
    • ログは出力するときに構造かされている
    • 人為的なミスを取り除く
    • 分析者と企画者の意見を反映した上で、ログ仕様を決める

参考資料:

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

推薦文献

インテンション・エコノミー 顧客が支配する経済 (Harvard business school press)

インテンション・エコノミー 顧客が支配する経済 (Harvard business school press)

Hadoop 第2版

Hadoop 第2版

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第27回 データマイニング+WEB 勉強会@東京−WEB解析・オープンデータ・クラウド 祭り− 」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第27回 データマイニング+WEB@東京( #TokyoWebmining #27) -WEB解析・オープンデータ・クラウド 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: