ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2015-08-01

[][] 第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りーを開催しました  第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りーを開催しましたを含むブックマーク  第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りーを開催しましたのブックマークコメント

2015/08/01 "第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りー" を開催しました。

会場提供し運営を手伝って下さった FreakOut のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

f:id:hamadakoichi:20150801133516j:image

参加者Twitter List : tokyowebmining-48

参加者セキココ:第48回 データマイニング+WEB @東京 セキココ

(作成してくれた @ さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB@東京 について」(15分)

講師:@

O2.「参加者全員 自己紹介 (興味・活動)」(進行:@) (75分)

※内容は上記ホワイトボード写真参照


1.「AWSでのビッグデータ分析」(講師: @ )(発表:40分+議論:30分)

AWSでは現在40を超えるサービスが提供され日々更新されていますが、その中からビッグデータ分析に関連するサービスを一挙にご紹介します。合わせて、可能な限り事例やデモを交えながら実践的な内容もお届けします。

参考文献:

2.「1000人規模で使う分析基盤構築 - Redshiftを活用したEUC - 」 (講師: @ )(発表:30分+議論:35分)

1000 人規模の会社におけるRedshiftを中心とした基幹データの活用事例についてお話します。ETL、データ運用、Redshiftのパフォーマンス測定 結果や利用Tips、運用ロールなど、全社でどのようにデータ活用を実施しているかに興味ある方には面白い内容かもしれません。

参考文献:

3.「SmartNews の Webmining を支えるプラットフォーム」 (講師: @ )(発表:30分+議論:35分)

数百万のユーザーが毎日使ってくれている SmartNews。その裏側では、機械学習やインテリジェンジェントなデータ処理、別の言葉で言うと、WebMining が動いています。さらに、その裏側では、その WebMinging を支えるプラットフォームが動いています。そのプラットフォームも、AWS や Spark を使いこなしながら日々進化しています。そんなプラットフォームを中心に、WebMining 自身の話も交えながら、紹介します。

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:@ (30分)

「振返り・アクション決定」進行:@(40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

■懇親会LT:

クラウド温泉への誘い「クラウド温泉5.0@小樽MLスペシャル」(@)


ツイートまとめ (Togetter)

「第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りー」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:


■講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

Wiki

■過去開催内容:

2015-06-27

[][] 第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りーを開催しました  第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りーを開催しましたを含むブックマーク  第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りーを開催しましたのブックマークコメント

2015/06/27 "第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りー" を開催しました。

会場提供し運営を手伝って下さった SmartNews のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

f:id:hamadakoichi:20150627140038j:image

参加者Twitter List : tokyowebmining-47

参加者セキココ:第47回 データマイニング+WEB @東京 セキココ

(作成してくれた @ さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB@東京 について」(15分)

講師:@

O2.「参加者全員 自己紹介 (興味・活動)」(進行:@) (75分)

※内容は上記ホワイトボード写真参照


1.「分析のビジネス展開を考える―状態空間モデルを例に」(講師: @ ) (発表:30分+議論:40分)

本発表では状態空間モデルを例に、数理分析をビジネスに展開する際、モデルの仮定や前提条件などに留意する重要性を考えます。

ビジネスの問題を適切な数理モデルに翻訳すれば、その豊富な成果が解決策を与えることも多々あります。例えば状態空間モデルは、当初の状態制御への適用から、最近では広告の効果測定への適用例も見られます。これは、モデルに現場の知恵が導入しやすく、結果も分かりやすいためかと考えます。

ただし、モデルには仮定や前提条件なりがあります。それらを無視した適用は、大きな被害に繋がりかねません。今回は状態空間モデルで、それらに留意した分析設定、顧客からそれらの範囲外を求められた際の対応を考えます。

参考文献:


2.「トピックモデリングによる評判分析」 (講師: @ )(発表:25分+議論:35分)

製品やサービスにおいてお客様の声を把握・分析し、改善に繋げることは重要です。このような営みにおいて、評判分析はお客様の声のデータから対象が好評か不評かという情報を自動的に抽出/決定できる有用な技術です。

評判分析においては様々なアプローチが存在しますが、本発表では2014年初頭までに提案されてきたトピックモデリングについてご紹介します。

トピックモデリングによる評判分析に注目した理由として、

  1. 潜在構造のモデリングによって観測データが内包するドメイン依存などの問題に対処できる可能性がある
  2. テキストと同時に観測されるサイドインフォメーション(ratingや商品分類タグなど)を統合的なモデリングによって有効活用できる可能性がある
  3. 評判の生成過程をトピックモデルのような階層ベイズ的確率モデルでモデル化することにより、複雑かつ定性的可視化が比較的容易にできる

といった事柄があげられると考えています。

本発表は学術的な側面が強いですが、今回の発表を通じて実応用に対するギャップなども考えていけたらよいなと思います。


3.「SNPのオープンデータを覗き見る」 (講師: @ )(発表:20分+議論:30分)

最近話題となっている遺伝子解析サービスについてさまざまな議論がされていますが、現在では一部の日本人について研究レベルで遺伝子解析の結果がオープンデータとして公開されているものもあります。

それらのデータから分かることと、分からないこととを見ながら臨床で行われている遺伝子解析の紹介もできればと思います。

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:@ (30分)

「振返り・アクション決定」進行:@(40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード(Keep/Try/Talk候補):

f:id:hamadakoichi:20150627213129j:image


■懇親会LT:

Hadoop Ops & Fabric (@)

アイドル現場とデール・カーネギーの密接な関係 (@)


ツイートまとめ (Togetter)

「第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りー」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:


■講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

Wiki

■過去開催内容:

2015-05-30

[][] 第46回 データマイニング+WEB @東京( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りーを開催しました  第46回 データマイニング+WEB @東京( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りーを開催しましたを含むブックマーク  第46回 データマイニング+WEB @東京( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りーを開催しましたのブックマークコメント

2015/05/30 "第46回 データマイニング+WEB @東京 ( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りー" を開催しました。

会場提供し運営を手伝って下さった SmartNews のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

f:id:hamadakoichi:20150530134840j:image

参加者Twitter List : tokyowebmining-46

参加者セキココ:第46回 データマイニング+WEB @東京 セキココ

(作成してくれた @ さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB@東京 について」(15分)

講師:@

O2.「参加者全員 自己紹介 (興味・活動)」(進行:@) (75分)

※内容は上記ホワイトボード写真参照


1.「トピックモデルことはじめ」(講師: @ ) (発表:45分+議論:50分)

トピックモデルについて、ユニグラムモデル・混合ユニグラムモデルを通じて必要となる知識をまとめ、拡張に関しても説明します(主に参考書籍(1)をベースに)。また、可能であれば適用事例についても、ご紹介させていただきます。

参考文献:

[書籍]

[文献]

[サイト]


2. 「傾向スコアを使ったキャンペーン効果検証」 (講師: @ )(発表:20分+議論:25分)

オンラインの世界では最早標準的になった様に見えるA/Bテスト(無作為化試験)ですが、オンラインの世界ではコストやポリシー的な理由で実施でき無い場合が多くあります。今回は、傾向スコアと言う値を用い、擬似的にA/Bテストをしたかの様な結果を求める方法をご紹介します。

参考文献:



3. 「"移動"にまつわるBIG DATAの応用事例と解析手法 ~ Bayesian Modeling を添えて ~」 (講師: @ )(発表:30分+議論:35分)

本発表では位置情報を活用したサービス事例及び解析手法について取り上げます。内容としては、私自身が学生時に研究で扱っていた"Probe-Car data"(車両の軌跡のデータ) の活用及び研究事例や、タクシー配車サービスである"Uber"で用いられているデータ活用事例に触れていきます。具体的に"Uber"では、配車時におけるユーザーの位置やその他の特徴量を用いて、ユーザーの目的地を予測し、配車の最適化を図っています。そこで用いられている"Bayesian Modeling"は、"Data Science"界隈でも非常に重要な手法の一つです。本発表においては、それら手法の基礎的な事項を踏まえながら、共に学習していきたいと思います。

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:@ (30分)

「振返り・アクション決定」進行:@(40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード

f:id:hamadakoichi:20150530213856j:image


ツイートまとめ (Togetter)

「第46回 データマイニング+WEB @東京 ( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りー」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:


■講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

Wiki

■過去開催内容:

2015-04-18

[][] 第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −を開催しました  第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −を開催しましたを含むブックマーク  第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −を開催しましたのブックマークコメント

2015/04/18 "第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −" を開催しました。

会場提供し運営を手伝って下さった SmartNews のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

f:id:hamadakoichi:20150418135205j:image

参加者Twitter List : tokyowebmining-45

参加者セキココ:第45回 データマイニング+WEB @東京 セキココ

(作成してくれた @ さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB@東京 について」(15分)

講師:@

O2.「参加者全員 自己紹介 (興味・活動)」(進行:@) (75分)

※内容は上記ホワイトボード写真参照


1.「位置情報にまつわるデータ補間技術」 (講師: @ )(発表35分+議論40分)

地理空間データ(位置情報)は実世界における都市の全体像や人の動きを俯瞰できる魅力的なデータです。しかしその一方、個人情報内包する問題や、位置精度 等の問題により、粒度が細ければ細かいほどデータの取得・扱いが困難なデータでもあります。このような問題を抱えつつも、実用的にデータを扱えるようにす るための補間技術と展望について話題提供します。

参考文献:

2. 「LHCにおける素粒子ビッグデータの解析とROOTライブラリ」 (講師: @ )(発表30分+議論35分)

実験素粒子物理学においては、加速器を使った高エネルギー素粒子の衝突実験から生まれる大量のデータを分析するため、かつてよりあらゆる科学分野の中でも最 もデータ量の多い領域でした。スイスCERN研究所で行われている最新の実験、LHC(Large Hadron Collider)では、最初の2年間で、1PB(ペタバイト)のデータが生成され、その一部は昨年オープン化されました。本講演では、LHCのビッグ データがどのように解析されたのか、インフラ及びアプリケーションレベルの観点ご紹介します。特に、アプリケーションレベルにおいては、独自の統計解析ラ イブラリであるROOTが幅広く使われており、この講演を通じ、ROOTが現在のデータ解析パラダイムのどこに位置しているのかを参加者の皆様と議論した いと思います。

参考文献:


17:00 - 18:05

3. 「日本のオープンデータの現状と未来 -時系列データを例として-」(講師: @ ) (発表30分+議論35分)

2013 年にG8の各政府は「G8オープンデータ憲章」[1]として,誰もが自由に利用できるオープンデータを提供する宣言をしました.それにともない日本でも経産 省主導のデータカタログサイト[2]や総務省主導の政府統計の総合窓口"e-Stat"[3]のAPI[4]公開など,「オープンデータ」に関していくつ かの施策がとられるようになってきました.しかし,少し本気をだしてこれらの行政府の「オープンデータ」を活用しようとするとすぐに気づきますが,ほとん どのデータが某メーカの表計算ファイルフォーマットでのデータの公開するというように,到底「オープン」[5]とは言えない状況です.一方,世界の「オー プンデータ」の動向は,世界銀行のデータAPI[6]を始め,「オープンデータ」のお手本になるような先駆的な事例が出てきました.

本発表では,そのよう な世界の事例を紹介すると共に,日本の行政府発表の経済統計などの時系列データを例として,日本における「オープンデータ」の現状と課題を提起したいと思 います.そして,その課題への解決方法の一つとして具体的なプロトタイプサービスを提示することで,「オープンデータ」としての未来の姿へのヒントが得ら れればと思います.

参考文献:

[1] G8オープンデータ憲章

[2] データカタログサイト

[3] e-stat

[4] e-stat API

[5] オープンの定義

[6] 世界銀行データサイト

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:@ (30分)

「振返り・アクション決定」進行:@(40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード:

f:id:hamadakoichi:20150418204702j:image


ツイートまとめ (Togetter)

「第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:


■講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

Wiki

■過去開催内容:

2015-03-21

[][] 第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −を開催しました  第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −を開催しましたを含むブックマーク  第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −を開催しましたのブックマークコメント

2015/03/21 "第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −" を開催しました。

会場提供し運営を手伝って下さった SmartNews のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

f:id:hamadakoichi:20150321183313j:image

参加者Twitter List : tokyowebmining-44

参加者セキココ:第44回 データマイニング+WEB @東京 セキココ

(作成してくれた @ さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk:

O1.「データマイニング+WEB@東京 について」(15分)

講師:@

O2.「参加者全員 自己紹介 (興味・活動)」(進行:@) (75分)

※内容は上記ホワイトボード写真参照


1. 「Agent Based Modelを使ったマーケティング予算配分最適化米国事例」 (講師: @ )(発表40分+議論40分)

マーケティングに限らず、最大限の利益を出すために限られた予算をどう配分するかとても熱い領域です。

この領域はMarketing Mix Modelling(MMM)と呼ばれます。この領域では、これまで過去のデータを使って多変量回帰モデルを使った分析が使われてきましたが、最近では状態空間モデルやベイジアンネットワークも注目を浴びるようになり、更なる発展が期待されています。

本日はエージェントベーストモデルというシミュレーション技術を使った予算配分最適化米国の事例を使ってご紹介します。

参考文献:

2. 「Apache Spark による推薦システム案件例」 (講師: @ ) (発表30分+議論30分)

昨年あたりから分散処理フレームワーク Apache Spark が大きく注目されています。Spark にはいくつかの高位のライブラリが含まれており、MLlib はその中でも機械学習アルゴリズムを提供するライブラリです。今回は Spark, MLlib を用いて比較的大規模な EC サイト上で推薦システムを開発した案件の例をご紹介します。システムだけでなく、オフライン評価やA/Bテスト等についてもお話する予定です。

参考文献:

3. 「テキストからのSNSユーザ位置推定手法と活用事例紹介」(講師: @ ) (発表30分+議論30分)

近年エリアマーケティングや観光施策などで位置情報付きのtwitter投稿を活用する事例が増えているが,プロフィールなどを参照しても情報が不足していることが多く,ユーザの属性や位置(居住地・現在地)を投稿内容から推定する必要がある.

今回の発表では,筆者の研究分野である投稿テキストからのユーザ位置推定を中心に,twitter投稿をエリアマーケティングに用いるための基礎技術を紹介する.

また,位置情報付きSNS投稿を活用した実際の事例,サービスなどを紹介し,ビジネスへの応用を議論したい.

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:@ (30分)

「振返り・アクション決定」進行:@(40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード

f:id:hamadakoichi:20150321211031j:image

ツイートまとめ (Togetter)

「第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −」に関するツイートTogetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:


■講師募集

データマイニング+WEB勉強会東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

Wiki


■過去開催内容: