ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2013-06-22

[][] 第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しました  第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しましたを含むブックマーク  第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しましたのブックマークコメント

2013/6/22 "第27回 データマイニング+WEB@東京−WEB解析・オープンデータ・クラウド 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20130622134244j:image

参加者Twitter List: Twitter List TokyoWebmining 27th

参加者セキココ:第27回 データマイニング+WEB @東京 セキココ

(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi @

O2.「参加者全員自己紹介」(75分)

進行 :@


1.「Webクローリング&スクレイピングの最前線〜ほこ×たてで語られなかった5万枚画像の真実〜」 (講師: @lumin ) (発表25分 + 議論30分)

日本から失われつつある技術、Webクローリングとスクレイピングを解説します。弱いクローラから、強いクローラまで、その後のスクレイピング技術など、実際に使っている例を紹介します。フジテレビのバラエティ番組「ほこ×たて」で触れた、短時間で5万枚の画像を集めたクローラも紹介します。

参考資料:


2.「オープンデータ・パーソナルデータビジネス最前線」 (講師: @ito_nao) (発表25分 + 議論30分)

安倍政権が日本経済の成長戦略の柱の一つと定めているIT戦略の中で、重要なキーとなっているのが、オープンデータ・ビッグデータ(パーソナルデータの流通・促進等)の利活用推進による新産業・新サービスの創出です。 これらに関する海外先進事例・ムーブメントや日本国内の現状についてご紹介します。

  • Open Knowledge Foundation Japan
    • 政府保有データを始め、多様なデータの生成・公開・利用を支援する
  • オープンデータトーク:データ公開ニーズの深堀、オープンデータをめぐる最新動向の共有
  • オープンデータとは
  • 米国
    • イノベーションを生み出すための取り組み
    • データデフォルトで公開。大規模化したときのデータサイエンティストの育成がKey
    • どのようなデータが、どのような分野で活用されているか、まとめられている
    • Smart disclosureと4分類
    • 各領域での活用方法例
    • Donsumer.Data.gov
    • Quantified Self: コンピュータガジェットを用いて自分自身の行動や状態を提供し分析。新たな知見を得る。
    • 健康の異常判定、医師にもっていく
  • イギリス
    • 政府によるオープンデータ活用支援が活発
    • 4年で12のスタートアップ支援
    • 例:クラウドサービスのコストと二酸化炭素排出量から顧客の好みにあったデータセンターの選択、公共交通データにアクセスするためのAPI・データ構築
    • 消費者にとっての最適な選択:自分のデータを自分で分析し、アクションをとる
    • CRM(Customer Relationship Management) では新のロイヤリティは得られない。VRM(Vender Relationship Management)
      • TESCO、会員の購買習慣を販売。会員自身も自分のデータにアクセスできるようにしている。
      • VRM: 企業からの一方的なレコメンド・広告ではなく、個々人が自分が渡すデータを選択できるようにする(Personal Data Store)
      • 自分が良く知っている領域はVRMで自分で選択、分からない領域はCRMでまかす、か。
      • パーソナルデータの保護と利活用
      • 3rd Party: データエクスチェンジャーのデータマネジメント
      • 4th Party: 消費者が自らデータ管理できるプラットフォーム(VRM)
      • 日本のVRM : 情報銀行、Privacy Policy Manager...統合管理。個人情報リスク。Personal Life Repository (PLR).. それぞれが保持。
  • 進行

参考資料:

3.「クラウドネイティブアーキテクチャでサクサク解析」 (講師: @imai_factory) (発表30分 + 議論35分)

Amazon.comでは現在、最大で1時間に1,079回という驚異的なスピードでデプロイを行っています。 これは既存のデータセンターでは考えられない数字でした。 この非常に速いデプロイサイクルを実現することを可能にしている、 クラウドサービス上でのアプリケーション/システムのデプロイと、そのメリットを解析やデータマイニングに活かす方法を考えてみます。

参考資料はAmazon.comCTOが21世紀のアーキテクチャとはというテーマで話した講演のビデオです。 こちらの内容をベースにお話していきます。


参考資料:

4.「大規模ログ分析におけるAmazon Web Servicesの活用」 (講師: @stakemura ) (発表20分 + 議論25分)

バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の2点を重点的にお伝えします。

  • ソーシャルゲームでの活用 論文紹介
    • ゲームバランス
    • ユーザグループ分析
      • 単純なk-meansでは特徴わからない。Non-negative Matrix Factorization、Convex-Hull NMF (凸の多角形になる特徴量にする)
      • App Store (US) の Free/Paid Apps 順位からDL予測
      • RMT をインタビューを通じて調査。公式RMT導入で相場が安定したと感じられている。
  • ログ基盤 "Greco"
  • Redshift
  • DWH: Data Ware House: 大規模集計に特化したデータベース。数百万行の集計が高速。
    • Columnar Database: 行単位で圧縮をかけながら集約。
    • Massively Parallel Processing : MPP。急にログが増えても対応できる。
  • ゲーム業界での採用
  • 導入のネック:「一言でいうと高い」初期投資、数100万、アプライアンス製品なら1000万
    • -> Redshift では桁が1桁2桁安い
  • 導入してみて
    • 集計が楽になった
  • Redshiftのチューニング。B-Tree、
  • DLL記述: 基本はテーブル設計時に決める。
  • DBからのマイグレーション: Redshift の最大のボトルネックはinsert。同一リージョンのS3からしか Biuld Insertができない。
  • 分析に耐えうるログを出力するために
    • ログは出力するときに構造かされている
    • 人為的なミスを取り除く
    • 分析者と企画者の意見を反映した上で、ログ仕様を決める


参考資料:



■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi @

参加者全員での振返り結果MindMap


推薦文献
インテンション・エコノミー 顧客が支配する経済 (Harvard business school press)

インテンション・エコノミー 顧客が支配する経済 (Harvard business school press)

Hadoop 第2版

Hadoop 第2版

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第27回 データマイニング+WEB 勉強会東京−WEB解析・オープンデータ・クラウド 祭り− 」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第27回 データマイニング+WEB@東京( #TokyoWebmining #27) ?WEB解析・オープンデータ・クラウド 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:


過去開催内容:

トラックバック - http://d.hatena.ne.jp/hamadakoichi/20130622/p1
リンク元