ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード

2012-05-01

[][][] データマイニングCROSS 2012を開催しました - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP  データマイニングCROSS 2012を開催しました - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP  - hamadakoichi blog を含むブックマーク  データマイニングCROSS 2012を開催しました - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP  - hamadakoichi blog のブックマークコメント

2012/01/27(金) CROSS 2012で「データマイニングCROSS - データマイニングの実ビジネス・サービス活用と展望」を開催しました。

TokyoWebmining 主催の濱田晃一(id:hamadakoichi : @)とTokyo.R主催の里洋平(id:yokkuns : @)がモデレータを行い、TokyoNLPやDSIRNLPコミュニティ医療・広告・検索・マーケティング金融工学など各分野、幅広い方々に登壇して頂きました。


会場拡張を3回したにも関わらず満員で立ち見がでるほどの盛況で、多くの方々に参加して頂け嬉しく思っています。

来場して下さった方々それぞれが、本セッションの内容を受けて、それぞれのサービス・ビジネスをよりよいものとしていく。それにより日本中、世界中の人々へよりよいサービスが提供されていく。その実現を願っています。どうもありがとうございました。

[写真] 壇上から:参加者のみなさんの笑顔

f:id:hamadakoichi:20120127170355j:image:w500

[写真] 壇上から:第2部パネリスト

f:id:hamadakoichi:20120127170408j:image:w500


以下に、データマイニングCROSSの「内容概要」、「各種資料」を記載します。

今後も蓄積データの活用による継続的なサービス・ビジネス洗練の実現、その裾野の拡大に、貢献していきたいと思いますので、TokyoWebmining、Tokyo.R、TokyoNLP、DSIRNLP、含め、今後ともどうぞよろしくお願い致します。


データマイニングCRROSS 内容概要

データマイニングの活用により、蓄積データから有効な法則性を見つけ出し、適切な意思決定やビジネス・サービス洗練を迅速にそして継続的に実現する。2011年大規模分散処理技術・データ基盤の普及によりその可能性はさらに広がり続けている。しかしながら実はデータマイニングを実ビジネス・サービスで活用・成功してくためには、必要なノウハウがある。

TokyoWebmining や Tokyo.Rは、それらのノウハウ・技術を分野横断して共有・議論し、ビジネス・サービス活用の裾野を広げることを目的としたコミュニティです。今回はこの日限定で2つのコミュニティがクロスしたスペシャルコラボレーションソーシャル・広告・マーケティング・検索・医療金融の各領域の第一線でデータマイニングで活躍しているメンバーを迎え、各業界や業界横断の活用ノウハウ、2012年の展望に関し、共有・議論を行います。

この日にしか聞けない特別なノウハウと議論。データマイニング機械学習の活用、迅速・継続的なビジネス・サービス洗練に興味をお持ちの方はぜひご参加ください。

http://tech.nifty.co.jp/party/2012/sessions/cRoom1.htm


AGENDA(※敬称略)

オープニングトーク:

データマイニングの実ビジネス・サービス活用と展望」

濱田晃一(ソーシャルゲームプラットフォーム:TokyoWebmining主催・株式会社ディー・エヌ・エー

第1部クロスパネルディスカッション統計解析や時系列解析

里洋平 (ソーシャルゲームプラットフォーム:Tokyo.R主催・株式会社ディー・エヌー・エー)

紀信邦 (ビジネス展開:株式会社ケイエルエス研究所)

森本修 (マーケティングリサーチ)

市川太祐 (医療)

teramonagi(金融工学)

佐藤敏紀 (自然言語処理)


第2部クロスパネルディスカッション機械学習や大規模分散処理

濱田晃一(ソーシャルゲームプラットフォーム:TokyoWebmining主催・株式会社ディー・エヌ・エー)

中川斉 (マーケティング/広告分析:株式会社ロックオン マーケティングメトリックス研究所)

高田勝裕(広告サプライサイドプラットフォーム:Kauli株式会社)

山崎大輔(広告配信エンジン:株式会社スケールアウト)

上村崇 (ウェブマイニングレコメンド株式会社ALBERT)

奥野陽 (検索・自然言語処理)

関連ツイート

データマイニングCROSの会場Cのツイート。"誰でも編集可能"に設定してあります。

データマイニングCROSS - #CROSS2012 #CROSS2012c - Togetter

関連リンク

コミュニティ Google Group:

2012-01-24

[][][] データマイニングCROSS 2012を開催します - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP - #CROSS2012  データマイニングCROSS 2012を開催します - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP - #CROSS2012 - hamadakoichi blog を含むブックマーク  データマイニングCROSS 2012を開催します - #TokyoWebmining x #TokyoR x #TokyoNLP x #DSIRNLP - #CROSS2012 - hamadakoichi blog のブックマークコメント

2012/01/27(金) CROSS 2012で「データマイニングCROSS - データマイニングの実ビジネス・サービス活用と展望」を開催します。

TokyoWebmining 主催の濱田晃一(id:hamadakoichi : @)とTokyo.R主催の里洋平(id:yokkuns : @)がモデレータを行い、TokyoNLPやDSIRNLPコミュニティ医療・広告・検索・マーケティング金融工学など各分野、幅広い方々に登壇して頂きます。


CROSS 2012

CROSS 2012は1000人規模のエンジニアコミュニティのクロスイベント。

以下のような技術コミュニティクロスのセッションが開催されます。

等々。全体プログラムこちら

以下、データマイニングCROSSの「内容概要」と「AGENDA」を記載します。

データマイニングCRROSS 内容概要

データマイニングの活用により、蓄積データから有効な法則性を見つけ出し、適切な意思決定やビジネス・サービス洗練を迅速にそして継続的に実現する。2011年大規模分散処理技術・データ基盤の普及によりその可能性はさらに広がり続けている。しかしながら実はデータマイニングを実ビジネス・サービスで活用・成功してくためには、必要なノウハウがある。

TokyoWebmining や Tokyo.Rは、それらのノウハウ・技術を分野横断して共有・議論し、ビジネス・サービス活用の裾野を広げることを目的としたコミュニティです。今回はこの日限定で2つのコミュニティがクロスしたスペシャルコラボレーションソーシャル・広告・マーケティング・検索・医療金融の各領域の第一線でデータマイニングで活躍しているメンバーを迎え、各業界や業界横断の活用ノウハウ、2012年の展望に関し、共有・議論を行います。

この日にしか聞けない特別なノウハウと議論。データマイニング機械学習の活用、迅速・継続的なビジネス・サービス洗練に興味をお持ちの方はぜひご参加ください。

http://tech.nifty.co.jp/party/2012/sessions/cRoom1.htm

AGENDA

オープニングトーク:

データマイニングの実ビジネス・サービス活用と展望」

濱田晃一(ソーシャルゲームプラットフォーム:TokyoWebmining主催・株式会社ディー・エヌ・エー

第1部クロスパネルディスカッション統計解析や時系列解析

里洋平 (ソーシャルゲームプラットフォーム:Tokyo.R主催・株式会社ディー・エヌー・エー)

紀信邦 (ビジネス展開:株式会社ケイエルエス研究所)

倉橋一成(解析コンサルティング:iAnalysis合同会社)

森本修 (マーケティングリサーチ)

市川太祐 (医療)

teramonagi(金融工学)

佐藤敏紀 (自然言語処理)

第2部クロスパネルディスカッション機械学習や大規模分散処理

濱田晃一(ソーシャルゲームプラットフォーム:TokyoWebmining主催・株式会社ディー・エヌ・エー)

中川斉 (マーケティング/広告分析:株式会社ロックオン マーケティングメトリックス研究所)

高田勝裕(広告サプライサイドプラットフォーム:Kauli株式会社)

山崎大輔(広告配信エンジン:株式会社スケールアウト)

上村崇 (ウェブマイニングレコメンド株式会社ALBERT)

奥野陽 (検索・自然言語処理)

http://tech.nifty.co.jp/party/2012/sessions/cRoom1.htm

興味がある方はぜひ。ご参加ください。参加登録ページはこちらです。


関連リンク

関連記事:

2011-04-16

[][] 第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining  第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining  - hamadakoichi blog を含むブックマーク  第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining  - hamadakoichi blog のブックマークコメント

4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。

ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND


運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。


以下、各講師資料、メモ、所感まとめ。


言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 (@)

資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜

  • 言語処理学会の中で実務に使えそうなものを紹介していく。
    • 学会で最新の情報と仕事を得る。疑問点を解決する。
    • 7本の論文紹介、全てスキップw
    • Wikipediaを利用しコーパス作成、カテゴライズが流行。やってみたけど
    • FOBOSやpLSAをやっている学部生が多い
  • 自然言語処理の紹介
    • 自然言語処理 = MeCabで分析できる言語 w
    • 不自然言語:顔文字、誤字、脱字
    • soramegraph
    • goji generater
      • 不自然言語→干自然言語→...
      • 画像認識、類似の文字へ置き換え。
    • 感情のこもった返答テンプレ生成君
      • テンションの高い返答文章を自動生成
    • ケンブリッジ大学
      • 人間にはよめるが検索エンジンには認識しづらい、「ケンブリッジ大学難読化」画像に変換する。
    • 文頭固定法による効率的な回文生成
      • 折り返し固定法:末尾から作る
      • 文頭固定法:先頭から作る
      • 文頭固定法のほうが早い。折り返し固定法は自由度が高く計算時間が非常にかかる。
    • 顔文字情報と文の評価表現の関連性についての考察。
      • 周辺言語的要素
      • 顔文字の表現だけでなく、文脈把握が大切
      • (;;): 嬉しい。悲しい。
      • 複数感情の多値分類にしても精度が出ない。
      • クラス分類ではなく複数の感情軸を合わせ持つ。
      • 自身が意味を持たない場合もある。強調、緩衝材としての顔文字利用。
      • 飲み会来るなよー (^^) ←冗談だと示している
    • もっと不自然言語で遊ぼう
      • 親密度の測定。どのくらい砕けた表現を使っているか。
    • 学会での関根先生の言葉(楽天&ニューヨーク州立大)

"事業に役に立つ研究をしよう"、いいですね。共感。「蓄積データを活用し、実世界のサービス・活動をどうか進化させていくか」が「データマイニング+WEB@東京」の開催目的でもあり、私の日々のソーシャルでのデータマイニング活動の目的でもあります


今日から使える! みんなのクラスタリング超入門 (@)

資料:※資料公開され次第、追記します。

Cannopy もありますよ。TokyoWebmining でも各種クラスタリングを話しているのでぜひ。またF値評価もよいと思います。


条件付き頻度分布 with NLTK(@)

  • Twitter タイムラインの取得
  • フィルタ
    • 日本語ツイートだけを対象。形態素解析で名詞だけを対象とする。
  • 条件付き頻度分布のプロット
    • NLTKを使用
    • Public Tweet と比較して、自分のTime Line地震ワードが少ない
    • パブリックの上位100語を取り除いてみた
  • コメント
    • ユーザーの使用言語が返される
    • ひらがな使うか

『可視化するだけ』でも面白い〜テキストマイニング最初の一歩 (@)

資料:※公開され次第、追記します。

  • Egotter
    • 誰の情報も見える
    • リムーブした人、リムーブした人が他にリムーブした人
    • フォローしている/されているだけの人
    • 口ぐせ
    • よくツイートする時間帯
    • リプライを見られている人
    • 入っているクラスタ
  • クラスタ分析
    • プロフィールに載っていない情報(関連語:図書館、筑波大学、研究)
    • 同じクラスタの人
  • 作った目的
    • 自分の社会的評判を知りたい。
  • 実装
    • 同じリストに入っているユーザーを見つけ。
      • 人によるタグ付け
    • プロフィール文字列を連結し形態素解析。
      • 形態素解析は Yahoo 形態素解析 API。
    • 出現頻度の高い頻度の語を抽出。
    • ツイートや、フォロー・フォローワーを用いていない
      • ツイートは適当。
  • メッセージ
    • 簡単な解法で説ける問題もたくさんある。
    • テキストマイニングの結果を、どう解釈するのかが重要
    • プロフィールを解析して、
    • 見切り発車でもとりあえず作ってみる。
      • 鉛筆の歴史を知らなくても、絵・字を書ける。
  • 今後
    • 性別の判別を行っていく。
    • 何でリムーブされたのか。リムーブ時刻も計測して原因推定を検討。
    • フォローワーのクラスタ。

概観テキストマイニング (@)

  • 紹介
    • TeamLabo、ウルトラテクノロジ集団。Hatena:gnarl
    • Web系、受託開発。情報推薦エンジン。
  • テキストマイニング:大量のフリーテキストから意味のあるデータの抽出。
    • 大量:統計的に有効。コンピュータ活用。
    • フリーテキスト:自然言語。構造化されていないデータ。様々なノイズ。表記ゆれ、未知表現。
  • 構造解析
    • 分かち書き、形態素解析、複合語抽出、係り受け解析
    • 問題:構造をどう解釈することができるか。データマイニングの道具を使えるようにする。
  • データ
    • フリーテキストがデータの全てではない。
    • 構造化されたデータも用いる:日付、作者、タイミング、数量、等。
  • 情報
    • 属性間相関、全体の傾向、等。
    • クラスタリング、相関分析、パターン分析、トピック分析、分類、など。
    • 手法をどう使い、結果をどう解釈するか。
  • 目的:価値のある情報を生み、行動の指針とする
    • 仮説検証ができる
    • 意外性のある結論
    • 具体的なビジネス上のアクションに結びつく
      • 行動すると誰に何をもたらすのか
  • プロセス
    • テキストマイニングは大きなビジネスプロセスの1つ
    • ビジネスプロセスへ分析結果をフィードバックする
    • お金を生むテキストマイニング
      • データを使って面白いことをやる。口グセと商品推薦、TwitterID と商品提案。
      • 明日から始まるWebサービスの推薦。
    • 情報推薦:コレカモ。UI がカモ。許せる。間違え方が全然違う。新しい購買活動を増やす。

WordNetで作ろう、言語横断検索サービス (@)

  • 社内Google Gode
    • プログラムが増え続けるとほしいものが見つからない。
    • 生産性を上げるためにはより賢いアプローチが必要
  • 方針
    • 検索性能の強化。
      • 表記ゆれ、同義語、等、解決。
    • 推薦
  • システム特徴
    • フィールドが多い
    • ドキュメント規模は小さい:PC1台でまわせるレベル、
    • リンク解析など高度な機能は不要
    • 検索システムは自前で構築
      • Lucene で要求仕様を全部満たせるか分からなかったため。
  • アプローチ
    • 対訳辞書ベース(今回)
    • 対訳コーパスベース
    • 機械翻訳ベース
  • WordNet
    • 出発点は 英英辞典
    • 対訳辞書。単語のつながりを見つけられる
  • 類似語の抽出
    • MeCabで標準形と品詞を取得
    • 名詞・副詞・動詞・形容詞のみ抽出
    • SQL で word -> sense -> 関連sence -> 関連word
  • 課題
    • 検索結果がよくない
    • →ランキングアルゴリズム
  • 情報検索
    • Recall (再現率):
      • 検索漏れがないか
      • 適合する可能性がある文書を検索結果として採用
    • Precision (適合率) :
      • 全検索結果にたいして、要求を満たす結果がどのくらいか
      • 適用する可能性がある文書を検索結果から除外
    • ベクトル空間モデル
      • Term × Document
        • ベクトル空間モデルで、相関係数を2値から、Scalar に。ある・なしだけではなく
        • TF*IDF
        • 高い場合: 少数ドキュメントにたくさん出現する場合
    • Probatility Ranking Principle (PRP)
      • 情報要求にないして確率論を当てはめた考え
      • 文書d とクエリq の適合性を確率として表現
    • Binary Indepence Model (BIM)
      • 仮定:文章を 0 or 1 の2値単語ベクトルで表現
      • 文章分類は出来るが、検索には不十分。
  • 工夫
    • BM25
      • ある文章内での単語頻度が高いと重み付けを付ける
      • 研究結果、線形ではなく、2つのポワソン分布の混合を考えると、いい検索ランキングの重みづけできる。
    • BM25F (2004)
      • BM25を複数のフィールドに対応
      • 納得のいく結果が得られた。
      • Lucene は BM25Fの対応は難しい
  • まとめ
    • Wordnet有用
    • 情報検索基礎: tf-idf から BM25F。
  • コメント
    • relevance Feedback も行う

R言語によるはじめてのテキストマイニング (@)

  • R
    • RMecab: 形態素解析
    • RCaboCha:係り受け解析
  • YjdnJlpパッケージ
    • Yahoo!Japan Developer Networkのテキスト解析APIを使うパッケージ
    • Yahoo Japan Application ID を使う
  • テキスト解析API
    • 形態素解析、係り受け解析、特徴語解析
  • 形態素解析
    • con <- initYjdnJlp("*ApplicationId*")
    • res <- MAService(con, str)
    • res.df <- toDataFrame(res)
    • head(res.df[res.df.pos == "名詞",..]
  • 掛かり受け解析
    • res <- DAService(con,str)
  • 特徴後解析
    • res <- KeyPhrame(con, str)
  • コレスポンデンス分析

「コレカモネット」の紹介 (@)

  • 紹介
    • Team Labo、WEBを用いて収益を上げるSI
    • 従業員150名
  • コレカモ
    • 東急ハンズ
    • Twitterで、目的を入れると、商品を返す
    • 開発 1ヶ月半
    • Twitterでまともに在庫検索は無理
    • 検索ではなく、面白い情報検索
    • Twitter: 人気ボットのほうがFav率が高い
    • ゆるいキャラ:シーマンやどこでも一緒みたいなキャラを作る
    • 表現:コレカモは、... かも。
    • オモロく評判になる回答
      • ネットやTwitterでされそうな質問の返答を用意した。
      • 正規表現を使う
      • ハンズの商品自体が面白い。
  • 今後
    • おしゃれハイテク
    • おもろハイテク

推薦文献

Rによるテキストマイニング入門

Rによるテキストマイニング入門

Togetter

@さんのツイートまとめ:

第2回「にこにこ」改め さくさくテキストマイニング勉強会 - Togetter

関連エントリ(追記)

2011-02-19

[][] 第1回 にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた  第1回 にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた - hamadakoichi blog を含むブックマーク  第1回 にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた - hamadakoichi blog のブックマークコメント

「第1回 にこにこテキストマイニング勉強会 (#nicoTextMining)」(@ さん, @ さん 主催) に参加してきた。実際にどう活用するかを目的した会。最近、毎週トークをしていましたが、今週は聴講者。

ATND: 第1回 にこにこテキストマイニング勉強会 : ATND

以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。

Togetter

第1回 にこにこテキストマイニング勉強会 #nicoTextMining #1 - Togetter

目的・概要

目的:

テキストマイニングについての学習のスタートアップ

テキストマイニング技術に関して気軽に参加・議論することができる場の提供


概要:

テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、

大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。

この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、

またテキストマイニングを実務に活かす方法について考えていきます。

第1回 にこにこテキストマイニング勉強会 : ATND

テキストマイニングの歩き方 (@)

資料:テキストマイニングの歩き方(PDF)

  • テキストマイニングのビジネス活用方法について話す
  • あんちべさんがなぜかスーツ
  • 個人指定で問いかけがきたw 双方向進行好きですよ

ゆるふわテキストマイニングをしてみよう (@)

資料:ゆるふわテキストマイニングをしてみよう(PDF)

  • 評判分析のツールを作ってみた
  • 評価表現を使う
    • 物事に対し評価しているような表現を使う
  • 単語感情極性対応表 (ポジティブ・ネガティブ表現 辞書)
  • Key
    • ジャンルの限定
    • テキストのクリーニング
    • 言語の困難さ(否定表現、未知語、助詞の省略、複合表現、評価ゆれ、複雑すぎる構造の文)

コピー&ペーストのみで始めるテキストマイニング超入門 (@)

初めてのnltk (@)

アンケート自由回答のテキストマイニング事例 (@)

資料:アンケート自由回答のテキストマイニング事例(PDF)

  • 商用ツール:お金がある人向け。ツール紹介
    • TRUE TELLER (野村総研)
    • Text Mining Studio (数理システム)
    • SPSS Text Analysis for Survey (SPSS)
  • アンケート事例紹介:「楽しい食事」ってどんな食事?
    • 食品会社の調査
    • 単語出現頻度分析
      • 同義語、表記ゆれ
      • 名詞、形容詞に絞って分析
  • 話題分析 (ことばネットワーク)
    • 話題ネットワーク分析での話で挙がった TokyoWebmining 9での Graph Clustering。 内容まとめ
  • 特徴語分析
  • コレスポンデンス分析
  • 仮説の検証

関連エントリ

2010-07-04

[][] 第1回 自然言語処理勉強会@東京 に参加してきた  第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog を含むブックマーク  第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog のブックマークコメント

「第1回 自然言語処理勉強会@東京 (#tokyotextmining)」(id:nokuno さん主催) に参加してきた。


ATND: 第1回 自然言語処理勉強会@東京 : ATND

Google Group: Google グループ


素敵な会でした。主催者のid:nokuno さん、講師の id:sleepy_yoshi さん、id:n_shuyo さん、@ さん、 @さん、ありがとうございました。

また素敵な会場提供して下さった 株式会社ミクシィさんにも感謝。


以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。

Togetter

第1回 自然言語処理勉強会@東京 (#tokyotextmining) - Togetter


FSNLPの第1章を読む (id:nokuno, @)

nokunoさんエントリ:Yoh Okunoの日記

メモ

・FSNLP(Foundations of Statistical Natural Language Processing):98年の本

・POSタギング、確率的CFG

・Zipf(ジフ)の法則:「単語の頻度は頻度の順位に反比例する」

 ●経験則。なぜ「順位の1乗」に反比例するか。

  ⇒ Zipf則はなぜ成り立つのかの理論的裏付け - Mi manca qualche giovedi`? (id:n_syuyo さん)

 ・Least Effort原理:人々は努力を最小化しようとする。

  (単語長が関係しているかもしれない。シミュレーションが行われている。)

 ・トムソーヤの例、ブラウンコーパスの例

 ・複雑ネットワークは対数スケールに入れると大体直線に乗る。

 ・pitman yor を使っていると自然にZipfの法則を使っていることになる。

・Mandelbrotの法則

・単語の意味の数に関する法則:意味の数 ∝ 頻度のルート

・同じ単語が現れる間隔に関する法則

・単語の長さに関する法則

関連:ジップの法則 - Wikipedia

Foundations of Statistical Natural Language Processing (MIT Press)

Foundations of Statistical Natural Language Processing (MIT Press)




ソーシャル検索エンジンAardvarkの論文紹介 (id:sleepy_yoshi, @)

The Anatomy of Large-Scale Social Search Engine

メモ

・従来のキーワード検索エンジンから村パラダイムへ

・村パラダイム:

 ・知り合いに自然言語でたずねる。

 ・仲のよい人の言っていることは信頼できる

・Aardvark:ソーシャル検索エンジン

 ・Googleに5000万ドルで買収された

 ・aardvarkの言葉の意味:きつい仕事、ハードワーク、戦闘機

・シンプルなアーキテクチャ

 ・外部のソーシャル情報を使う (Facebook等)

 ・能動的なクロールは不要

 ・ユーザーが資源:

  ・より多くのユーザーによる、広い質問回答

  ・より密なソーシャルグラフ

・スコア

 ・質問者: uj, クエリ:q, 回答候補者: ui

  s(ui, uj, q) = p(ui|uj) p(ui|q)

  ・P(ui|q):relevance score (クエリ依存) e.g., TF-IDF

  ・P(ui|uj):quality score (クエリ非依存)e.g, PageRank

 ・従来の検索エンジンとの違い

  ・p(ui|uj):「権威」でなはく「関係」

  ・p(ui|q) :「関連性」ではなく「回答可能性」

・回答スコアの計算方法

 ・トピックモデル(PLSIを利用)

 ・計算効率がいい:トピック数が数千程度

・Indexing People

 ・Topics

  ・登録時に設定したトピック

  ・友人によるアノテーション

  ・オンラインプロフィールからの抽出 (Facebook,etc)

  ・ホームページ、ブログから抽出

  ・IMメッセージなどから自動抽出 (Twitter,etc)

  ・トピック強化:

  ・スムージング:

   ・トピックに関する協調フィルタリング

   ・意味的な類似度を利用(wikipediaなどのコーパス利用)

 ・Connection

  ・以下の特徴に関し、重み付きコサイン類似度を計算しソーシャルグラフ構築

   ・Social connection (common friends and affiliations)

   ・Demographic similarity

   ・Profile similarity (e.g., common favorite movies)

   ・Vacabulary match (e.g., IM shortcuts)

   ・Chattiness match (frequency of follow-up messages)

   ・Verbosity match (the average length of messages)

   ・Politeness match (e.g., use of “Thanks!”)

   ・Speed match (responsiveness to other users) 21

・質問の解析

 ・質問の分類

  ・NonQuestionClassifier

  ・InappropriateQuestionClassifier

  ・TrivialQuestionClassifier

  ・LocationSensitiveClassifier

 ・p(t|q)の計算

  ・keywordMatchTopicMapper

  ・TaxonomyTopicMapper

  ・SalientTermTopicMapper

  ・UserTagTopicMapper

・ランキングアルゴリズム

 ・TopicExpertise

 ・Connectedness

 ・Availability

 ・ルールベースのフィルタ

・システムがユーザーに回答依頼をした理由を伝える

・評価

 ・システムに関する回答の早さ

 ・平均 2.08 件の回答

・sleepy_yoshiさん感想

 ・個々はオーソドックスな技術の組合せだが、動くシステム

 ・村パラダイム

 ・質問理由を提示している

 ・質問をスルーする選択肢の多さ

・補足:

 ・質問応答検索は、入力クエリに適合性が高い「文書」を検索

 ・ソーシャルサーチエンジンは、入力クエリに適合性が高い「人」を検索

Webページの本文抽出 using CRF (id:n_syuyo, @)

shuyoさんエントリ:http://d.hatena.ne.jp/n_shuyo/20100704/tokyotextmining

メモ

・本文抽出 for Web

 ・ウェブページの本文を抽出する。 Pathtraq

 ・本文抽出を正しくできることが一番

・ExtractContents

 ・アルゴリズム

  ・htmlをブロックに分割

  ・ブロックごとにスコア計算

  ・連続するブロックを大ブロックにまとめる

  ・スコアが最大になる大ブロックを算出

 ・課題

  ・本文、関連記事を分離できない

  ・本文がない、極端に短いページで長いテキストを抽出してしまう

  ・本文の範囲がアプリごとに違う

 ・系列ラベリング

  ・系列に関してラベルを付与

  ・様々な問題を解くための定式化のひとつ

    ・形態素解析、係り受け、など

  ・隠れマルコフモデル(Hidden Markov Model):

   ・代表的な系列タギング手法なひとつ

   ・隠れ変数が1時のマルコフ連鎖をなす

   ・高速な算出が可能

   ・課題:

    ・非独立な素性を扱うことができない。

    ・大域的な解を得られない

  ・Conditional Random Field (CRF) 条件付乱数場 [Lafferty+ 2001]

   ・系列ラベリングのための確率モデル

   ・HMMより最適な系列を扱いやすい。

   ・Mecabで利用されている

・CRFのPython実装

 ・Lenear-chain CRFの学習&ラベリングアルゴリズム

 ・ScipyのPFGSを使ってパラメータ推論

 ・mumpy/scipyにできる限り処理させる

・Project Cutenberg 本文抽出 using CRF

 ・系列ラベリングの問題に定式化

 ・素性設計

 ・素性設計以外にヒューリスティックな工夫はしない

・CRFについて雑感:

 ・面白さ

  ・非独立な素性を好きに設計できる

  ・不必要な素性を選んでも性能悪化しにくい

  ・CRF精度が高く、制御しやすい

 ・CRFはまだ少し難しい

  ・分かりやすい解説がまだない。

  ・ライブラリはあるが研究用でまだまだ使いにくい

・CLEANEVAL: 本文抽出コンテキスト 2007年

LDAでtweetをタギングしてみた (@)

メモ

・デモ:no title

・論文紹介

 ・短いテキストだと意味が分からない

 ・流れ:

  ・(Wikipediaから)網羅的なコーパスを作る

  ・LDAでモデルをつくる

  ・(Wikipediaから)教師データを作る 

  ・分類器を作り、分類

 ・結果:LDAを使うと、トレーニングデータ数は少なくてもいい。

・実装

 ・MySQL+Python+TokyoCabinet

 ・MeCab+Python+MPICH2

・LDAで次元縮約:Google の PLDA ライブラリ(いいライブラリ)

・モデル評価:Twitterのモデルの賞味期限、1、2ヶ月

・ラベリングする:Latent topicにラベルを手動で付与する

・API化する

・関連:

 ・PLDAを利用した論文:あなたがどのコミュニティに入るべきか、のレコメンデーション

 ・モデルの賞味期限:LDAをオンラインで適用

 ・RのLDAパッケージのAuthorが facebook/data からLDA論文出していた

 ・Facebook:

FSNLPの2章を読む+IRMのサーベイ」(@suzuvie さん)

Foundations of Statistical Natural Language Processing - 2. Mathematical Foundation

・確率論

・情報理論

 ・言語がNice(2.48 -> 2.49)

  式中の関数期待値を置き換えられる、値が定義域内にある。