ブログトップ 記事一覧 ログイン 無料ブログ開設

hamadakoichi blog このページをアンテナに追加 RSSフィード Twitter

2011-04-16

[][] 第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining  第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining を含むブックマーク  第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining のブックマークコメント

4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。

ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND


運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。


以下、各講師資料、メモ、所感まとめ。


言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 (@)

資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜


"事業に役に立つ研究をしよう"、いいですね。共感。「蓄積データを活用し、実世界のサービス・活動をどうか進化させていくか」が「データマイニング+WEB@東京」の開催目的でもあり、私の日々のソーシャルでのデータマイニング活動の目的でもあります


今日から使える! みんなのクラスタリング超入門 (@)

資料:※資料公開され次第、追記します。

Cannopy もありますよ。TokyoWebmining でも各種クラスタリングを話しているのでぜひ。またF値評価もよいと思います。


条件付き頻度分布 with NLTK(@)


可視化するだけ』でも面白い〜テキストマイニング最初の一歩 (@)

資料:※公開され次第、追記します。

  • Egotter
    • 誰の情報も見える
    • リムーブした人、リムーブした人が他にリムーブした人
    • フォローしている/されているだけの人
    • 口ぐせ
    • よくツイートする時間帯
    • リプライを見られている人
    • 入っているクラスタ
  • クラスタ分析
  • 作った目的
    • 自分の社会的評判を知りたい。
  • 実装
  • メッセージ
    • 簡単な解法で説ける問題もたくさんある。
    • テキストマイニングの結果を、どう解釈するのかが重要
    • プロフィールを解析して、
    • 見切り発車でもとりあえず作ってみる。
      • 鉛筆の歴史を知らなくても、絵・字を書ける。
  • 今後
    • 性別の判別を行っていく。
    • 何でリムーブされたのか。リムーブ時刻も計測して原因推定を検討。
    • フォローワーのクラスタ

概観テキストマイニング (@)

  • 紹介
    • TeamLabo、ウルトラテクノロジ集団。Hatena:gnarl
    • Web系、受託開発。情報推薦エンジン。
  • テキストマイニング:大量のフリーテキストから意味のあるデータの抽出。
  • 構造解析
  • データ
    • フリーテキストがデータの全てではない。
    • 構造化されたデータも用いる:日付、作者、タイミング、数量、等。
  • 情報
    • 属性間相関、全体の傾向、等。
    • クラスタリング、相関分析、パターン分析、トピック分析、分類、など。
    • 手法をどう使い、結果をどう解釈するか。
  • 目的:価値のある情報を生み、行動の指針とする
    • 仮説検証ができる
    • 意外性のある結論
    • 具体的なビジネス上のアクションに結びつく
      • 行動すると誰に何をもたらすのか
  • プロセス

WordNetで作ろう、言語横断検索サービス (@)

  • 社内Google Gode
    • プログラムが増え続けるとほしいものが見つからない。
    • 生産性を上げるためにはより賢いアプローチが必要
  • 方針
    • 検索性能の強化。
    • 推薦
  • システム特徴
    • フィールドが多い
    • ドキュメント規模は小さい:PC1台でまわせるレベル、
    • リンク解析など高度な機能は不要
    • 検索システムは自前で構築
      • Lucene で要求仕様を全部満たせるか分からなかったため。
  • アプローチ
  • WordNet
    • 出発点は 英英辞典
    • 対訳辞書。単語のつながりを見つけられる
  • 類似語の抽出
  • 課題
  • 情報検索
    • Recall (再現率):
      • 検索漏れがないか
      • 適合する可能性がある文書を検索結果として採用
    • Precision (適合率) :
      • 全検索結果にたいして、要求を満たす結果がどのくらいか
      • 適用する可能性がある文書を検索結果から除外
    • ベクトル空間モデル
      • Term × Document
        • ベクトル空間モデルで、相関係数を2値から、Scalar に。ある・なしだけではなく
        • TF*IDF
        • 高い場合: 少数ドキュメントにたくさん出現する場合
    • Probatility Ranking Principle (PRP)
      • 情報要求にないして確率論を当てはめた考え
      • 文書d とクエリq の適合性を確率として表現
    • Binary Indepence Model (BIM)
      • 仮定:文章を 0 or 1 の2値単語ベクトルで表現
      • 文章分類は出来るが、検索には不十分。
  • 工夫
    • BM25
      • ある文章内での単語頻度が高いと重み付けを付ける
      • 研究結果、線形ではなく、2つのポワソン分布の混合を考えると、いい検索ランキングの重みづけできる。
    • BM25F (2004)
      • BM25を複数のフィールドに対応
      • 納得のいく結果が得られた。
      • Lucene は BM25Fの対応は難しい
  • まとめ
    • Wordnet有用
    • 情報検索基礎: tf-idf から BM25F。
  • コメント

R言語によるはじめてのテキストマイニング (@)

  • R
  • YjdnJlpパッケージ
  • テキスト解析API
  • 形態素解析
    • con <- initYjdnJlp("*ApplicationId*")
    • res <- MAService(con, str)
    • res.df <- toDataFrame(res)
    • head(res.df[res.df.pos == "名詞",..]
  • 掛かり受け解析
    • res <- DAService(con,str)
  • 特徴後解析
    • res <- KeyPhrame(con, str)
  • コレスポンデンス分析

「コレカモネット」の紹介 (@)

  • 紹介
    • Team Labo、WEBを用いて収益を上げるSI
    • 従業員150名
  • コレカモ
  • 今後
    • おしゃれハイテク
    • おもろハイテク

推薦文献

Rによるテキストマイニング入門

Rによるテキストマイニング入門

Togetter

@さんのツイートまとめ:

第2回「にこにこ」改め さくさくテキストマイニング勉強会 - Togetter

関連エントリ(追記)