Hatena::ブログ(Diary)

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2012-07-14

[][] 第20回 データマイニング+WEB 勉強会東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました  第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しましたを含むブックマーク  第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しましたのブックマークコメント

2012/07/14 "第20回 データマイニング+WEB 勉強会東京ソーシャル・大規模解析 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

f:id:hamadakoichi:20120714150152j:image

会場風景:

f:id:hamadakoichi:20120714135633j:image

参加者Twitter List: Twitter List TokyoWebmining#20

参加者セキココ:第20回 データマイニング+WEB @東京 セキココ

(作成してくれた @Prunus1350 さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB勉強会東京 について」(15分)

講師 : id:hamadakoichi [Twitter:@hamadakoichi]

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]



1.「Twitterインフルエンサー影響力測定サービスの現状と課題」(講師: @hirosuke_asano ) (発表30分 + 議論30分)

インフルエンサーの影響力分析について紹介しつつ、マーケットでの現状と課題についての悩みをぶっちゃけます


  • インフルエンサー
  • Twitterインフルエンサ―測定サービス
    • 発言が届く範囲
      • フォローワー数:あまり参考にならない。フォロースパムによる水増し。
  • KLOUT
  • Kred
  • Qrust
  • 影響力測定の考え方
    • データ:ユーザ情報、ソーシャルグラフ、アクティビティ
    • 自分からのアクション:話題の傾向、コミュニケーションスタイルを評価
    • まわりからのリアクション:影響力評価、リアクションあったツイート評価
    • たまたまのヒットより期待値。継続的な再現性。
    • ばらつきの考慮:正規分布やきれいな分布を前提としない。有名人で振り切れない。普通の人でも差がつく。
    • 正解はない。評価方針があるだけ。
  • 影響力測定の制約
    • APIのアクセス料制限:APIコール数、API制約が緩いアクセスホワイトリスト権限の取得は困難になってきた。
    • 1回あたりの取得制限:両が多いリストはアクセス数
    • 情報の時間的な制約
    • 恒常的にかかるサーバコスト:分析・データ収集は常に動いている。利用コスト高い
    • オープン/クローズによる制約
  • Social-SIS: 最近の仕事
  • 情報伝搬

2.「Large-Scale Machine Learning at Twitter」(講師: @showyou ) (発表30分 + 議論30分)

f:id:hamadakoichi:20120714170227j:image:w425

資料:Large-Scale Machine Learning at Twitter

デモソース:tokyowebmining20_pig

先日のHadoop Summit 2012で紹介されていた、Twitter社の大規模データ機械学習について、デモを交えて説明します。

  • Hadoop Summit 2012で発表
  • 理論
  • ソフト
  • 活用例
    • 感情分析
    • 感情を表す文字でラベルづけを行い、オンライン学習。:)⇒positive, :<) ⇒negative
    • 100万〜1億のツイートで学習
    • 100万で判別
    • オンライン学習:単体よりアンサンブル学習のほうが精度高い
  • なぜMahoutではないか
    • 設計時期の問題:Twitterで学習システムを組み込もうと思ったときにMahoutがはじまった。
    • Pigによる集計システム(Oink)が出来上がったので、Pigで行った
  • なぜRではないか
    • HDFSから計算用マシンにファイルを集めるだけでも時間がかかる
    • Pigの場合全てがHDFS上で完結する
  • 感情分析、どう活用

参考文献:

パターン認識と機械学習 上

パターン認識と機械学習 上

Hadoop徹底入門

Hadoop徹底入門

論文:Large-Scale Machine Learning at Twitter(Paper)

スライド:Large-Scale Machine Learning at Twitter(Slide)

3.「Multi Agent Simulation 徹底入門」(講師: Naoki Shinbo ) (発表30分 + 議論30分)

マルチエージェントシミュレーションの基本概念についての解説および 古典的なモデルとソーシャル分野への適用例を紹介します。

参考文献:

複雑系入門―知のフロンティアへの冒険

複雑系入門―知のフロンティアへの冒険


4.「ビッグデータとハードウエア」(講師: @iakiyama ) (発表30分 + 議論30分)

Web mining tokyo july up用
View more presentations from Izumi Akiyama

ビッグデータとは?」について話します。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

404 Page Not Found - XMind - Mind Mapping Software


推薦文献
集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング


関連ツイート(Togetter)

「第20回 データマイニング+WEB 勉強会東京ソーシャル・大規模解析 祭り−」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第20回 データマイニング+WEB@東京 ( #TokyoWebmining #20) ?ソーシャル・大規模解析 祭り? - Togetter


講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:



過去開催内容:

トラックバック - http://d.hatena.ne.jp/hamadakoichi/20120714/p1
リンク元