2011-10-16
■[Webmining][勉強会] 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました

2011/10/16 "第14回 データマイニング+WEB 勉強会@東京"を開催しました。
- 第14回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 14th)−大規模分散データマイニング 祭り−: Eventbrite
- データマイニング+WEB@東京 (TokyoWebmining) | Google Groups
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(10分)
講師 : id:hamadakoichi @hamadakoichi
オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会@東京
O2.「参加者全員自己紹介」(70分)
進行 :@hamadakoichi
1.「Mahout Recommendation」 (講師: @hamadakoichi) (発表35分 + 議論35分)
Hadoop上で動作する大規模分散データマイニング・機械学習ライブラリ Mahout。今回、レコメンデーションの導入的な内容から実行法までお話しします。
- トーク以外にも50分ほど活発な議論を行えました。ありがとうございました。
参考文献:
- 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman
- 出版社/メーカー: Manning Pubns Co
- 発売日: 2011/10/28
- メディア: ペーパーバック
- 購入: 1人 クリック: 32回
- この商品を含むブログ (8件) を見る
2.「RHIPE 徹底入門」 (講師: @jinbay ) (発表25分 + 議論25分)
R言語にて手軽にMapReduceを記述するためのパッケージ、RHIPEについて説明します。インストール方法から使い方、Hadoop Streamingと比較してのメリット、Tipsや将来性について語ります。
- RHIPE全てのクラスタに入れないといけない。
- 擬似分散か完全分散で動かす。
- rhinit(T,T)はスクリプトの先頭に必ずいる。エラーログ、Infor出力。
- rhwrite(filepath), rhread(filepath)。
- map/reduce、expressionで記述する。
- RHIVEも出てきている。
3. 「近年のデータマイニングにおけるベイズ法のサーベイ 」 (講師: @suzuvie_re ) (発表25分 + 議論25分)
近年、柔軟かつ重厚な階層ベイズ的確率モデルが画像・文書・データマイニング、バイオインフォマティクス、脳科学、行動学など多様なデータの科学の領域で提案されています。これらの一つの潮流に、データ生成に関わる複雑な事物の関係性や時系列性をできる限りありのままに捉えようと試みる向きがあります。大げさに言って現象の数理モデルを追及し現象を説明するといういわゆる「科学」の流れを汲む試みと捉えています。
一方で重厚なモデリングは主に推論に要する計算コストのために、学術寄りの解析、もしくはかなり時間とお金をかけてもいい領域にとどまっているのかもしれません。しかしいくつかの問題が解決されれば、豊富なプロファイルを組み込むことで、より高次の解析を可能にし、日々の解析を向上させる有用な方法になりうると思っています。
今回は最近提案されている確率モデルをご紹介しモデリング技術の向かう先を見つつ
・今、現場の解析で解きたい問題と研究で問題にされる問いとのギャップ
・どのような問題がどれくらいの時間と労力で解けたら実際使えるのか
などを考えていけたらいいなと思います。
- モデルは使い捨ての時代。
- ○○はベストは流動的。
- サービスが変わればデータは変わる。
- 1サービスに1手法であってもよい。
- アクティブラーニング: 重要だがラベルのついていないデータを機械から指摘。
- Causal Inference:原因探し。
- 興味・関心の割合。User行動を文書であらわす。各行動にトピックがついている。
- 興味の推移。面白い。
- 興味・トピックの変化の追い方。トピックの特徴量は変わっていく。経済のトピックは変わらないが話題は移り変わっていく。
- 広告興味の推移
- Scalable Distributed Inference of Dynamic User Interests for Behavioral Targeting
4. 「Large-Scale Graph Processing」 (講師: @doryokujin) (発表35分 + 議論35分)
グラフデータの大規模処理はMapReduceモデルよりも効率の良い計算モデルが提案され、BSPをグラフに実装したPregel・Hama等のプロジェクトにおいて実装が進められています。今回はグラフの大規模処理とはどのようなものかをMap ReduceとBSPを比較してお話しします。時間があればGraphLabについてもお話しします
- BSP: Bulk Synchronous Parallel, 1990-
- Local Computation 間でMessage Passing。Synchronizationのフェーズも経る。
- Google Pregel: Graph で BSP Model実装。
- Hama, GoldenOrg, Giraph、Hadoop上で動く。
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi @hamadakoichi
参加者全員での振返り結果(継続したい良かった点、改善点、次回AGENDA)。
第14回データマイニング+WEB@東京継続したい点・改善点・次回AGENDA - XMind - Social Brainstorming and Mind Mapping
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 11人 クリック: 250回
- この商品を含むブログ (47件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 79人 クリック: 1,953回
- この商品を含むブログ (260件) を見る
関連ツイート(Togetter)
「第14回 データマイニング+WEB 勉強会@東京−大規模分散データマイニング 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第14回 データマイニング+WEB@東京 ( #TokyoWebmining #14)?大規模分散データマイニング 祭り? - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog




