Hatena::ブログ(Diary)

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2011-04-10

[][] 第10回 データマイニング+WEB 勉強会東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り−  第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd  Week−大規模分散 機械学習 祭り−を含むブックマーク  第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd  Week−大規模分散 機械学習 祭り−のブックマークコメント

2011/04/10 "第10回 データマイニング+WEB 勉強会東京−2nd Week−大規模分散 機械学習 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

f:id:hamadakoichi:20110410221707j:image

以下、全講師資料、関連資料、ツイートまとめです。


AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(10分)

講師 : id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針  −データマイニング+WEB勉強会@東京

View more presentations from Koichi Hamada

O2.「参加者全員自己紹介」(90分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]



1.「モバゲーの大規模データマイニング基盤におけるHadoop活用」(発表30分 + 議論45分)

講師 : id:hamadakoichi [Twitter:@hamadakoichi]

『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011

View more presentations from Koichi Hamada

 ソーシャルプラットフォームの大規模行動データを対象に、データマイニング機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗練を実現しています。今回は、Hadoopを活用した、ソーシャルプラットフォームの大規模データマイニング基盤およびデータマイニング活用に関し紹介します。 Hadoop Conference Japan 2011 では330枚のチケットがわずか4時間でSold outとなり、直接会場で聞けなかった方も多いと思います。また時間上、一方向で話す形の進行でした。今回はみなのよりよい活用へ向けて、議論時間をたっぷり取り、双方向の進行を進めました。

関連資料:


2. 「Hadoop/Mahout/HBaseでテキスト分類器を作ったよ」(発表15分 + 議論25分)

講師 : [Twitter:@yanaoki]

no title

View more presentations from naoki yanai

 Hadoop/HBase/Mahoutを使ってbayes/cbayes分類器を作ってみました。中〜大規模を前提としたシステム構成の紹介や、数パターンの、コーパス・Smoothing値・NGram、の組み合わせによる分類精度の結果が紹介されました。

参考資料:

3. 「Rにおける大規模データ解析」(発表30分 + 議論45分)

講師 : [Twitter:@sfchaos]

no title

View more presentations from sfchaos

 Rは統計解析の有力なツールとして大いに注目を集める一方で,いくつかの問題点も合わせ持っています.その中でも,Rが大規模データの扱いを得意としない点はしばしば問題になります.この問題点に対する解決策がいくつか提案されています.今回は大規模データを共有メモリとして管理できるパッケージ,およびそれを用いた機械学習アルゴリズムを並列処理で実装した例について紹介されました.

参考資料: 

内容メモ:

  • bigmemory
    • 行列形式のみ。(ffは多数のデータ型を用意)
    • RAMに依存しない。要素数上限 2^52
    • 実行:split-apply-combine (doMC,combile, dopar)
    • foreach の効果大きい
  • biganalytics:解析(回帰、ロジスティック回帰、クラスタリング
    • bigkmeans。クラスターごとに並列計算。初期値を変えて分散計算。
    • foreach, cen = centers, combine = "function_name", %dopar%)
    • read.big.matrix, bigkmeans
  • bigtabulate: 大規模行列の要約・集計
  • bigalgebra: 大規模行列の演算
  • syncronycity:大規模行列の同期・排他制御
  • biganalytics

4. 「Hadoopによる大規模ログ解析」(発表20分 + 議論30分)

講師 : [Twitter:@s_iida]

no title

View more presentations from iidashuichi

 大規模ログ解析におけるHadoopの活用方法について。どのような種類のデータをどのようにしてHadoopに格納するか、格納されたデータをどのようにして集計するか、など。sqoop を用いたDBからのimportや非同期ログ収集、Pig による集計について概略が説明されました。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点)です。

XMind Share - XMind - Mind Mapping Software


推薦文献
Hadoop

Hadoop

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第10回 データマイニング+WEB 勉強会東京−2nd Week−大規模分散 機械学習 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #10)?2nd Week?大規模分散 機械学習 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容:

トラックバック - http://d.hatena.ne.jp/hamadakoichi/20110410/p1