2011-04-16
■[nlp][勉強会] 第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining

4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。
ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND
運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。
以下、各講師資料、メモ、所感まとめ。
言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 (@AntiBayesian)
資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜
- 言語処理学会の中で実務に使えそうなものを紹介していく。
- 不自然言語処理の紹介
"事業に役に立つ研究をしよう"、いいですね。共感。「蓄積データを活用し、実世界のサービス・活動をどうか進化させていくか」が「データマイニング+WEB@東京」の開催目的でもあり、私の日々のソーシャルでのデータマイニング活動の目的でもあります
- データマイニング+WEB@東京−Opening Talk−創設の思い・目的・進行方針−
- 2100万会員モバゲータウンはデータマイニングの宝の山|【Tech総研】
- 「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました - hamadakoichi blog
今日から使える! みんなのクラスタリング超入門 (@toilet_lunch)
資料:※資料公開され次第、追記します。
- クラスタリング
- k-means
- 推薦文献に [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる R言語によるクラスター分析 - 似ているものをグループ化する-が挙がっていた。
- 最適クラスタ数はどう算出するか?
Cannopy もありますよ。TokyoWebmining でも各種クラスタリングを話しているのでぜひ。またF値評価もよいと思います。
- TokyoWebmining 資料:
条件付き頻度分布 with NLTK(@gepuro)
Frequency with nltk
View more presentations from gepuro
『可視化するだけ』でも面白い〜テキストマイニング最初の一歩 (@ts_3156)
資料:※公開され次第、追記します。
- Egotter
- クラスタ分析
- 作った目的
- 自分の社会的評判を知りたい。
- 実装
- メッセージ
- 簡単な解法で説ける問題もたくさんある。
- テキストマイニングの結果を、どう解釈するのかが重要
- プロフィールを解析して、
- 見切り発車でもとりあえず作ってみる。
- 鉛筆の歴史を知らなくても、絵・字を書ける。
- 今後
- 性別の判別を行っていく。
- 何でリムーブされたのか。リムーブ時刻も計測して原因推定を検討。
- フォローワーのクラスタ。
概観テキストマイニング (@todesking)
概観テキストマイニング
View more presentations from todesking
- 紹介
- テキストマイニング:大量のフリーテキストから意味のあるデータの抽出。
- 構造解析
- データ
- フリーテキストがデータの全てではない。
- 構造化されたデータも用いる:日付、作者、タイミング、数量、等。
- 情報
- 属性間相関、全体の傾向、等。
- クラスタリング、相関分析、パターン分析、トピック分析、分類、など。
- 手法をどう使い、結果をどう解釈するか。
- 目的:価値のある情報を生み、行動の指針とする
- 仮説検証ができる
- 意外性のある結論
- 具体的なビジネス上のアクションに結びつく
- 行動すると誰に何をもたらすのか
- プロセス
WordNetで作ろう、言語横断検索サービス (@stakemura)
WordNetで作ろう! 言語横断検索サービス
View more presentations from stakemura
- 社内Google Gode
- 方針
- 検索性能の強化。
- 表記ゆれ、同義語、等、解決。
- 推薦
- 検索性能の強化。
- システム特徴
- フィールドが多い
- ドキュメント規模は小さい:PC1台でまわせるレベル、
- リンク解析など高度な機能は不要
- 検索システムは自前で構築
- Lucene で要求仕様を全部満たせるか分からなかったため。
- アプローチ
- WordNet
- 出発点は 英英辞典
- 対訳辞書。単語のつながりを見つけられる
- 類似語の抽出
- 課題
- 検索結果がよくない
- →ランキングアルゴリズム
- 情報検索
- Recall (再現率):
- 検索漏れがないか
- 適合する可能性がある文書を検索結果として採用
- Precision (適合率) :
- 全検索結果にたいして、要求を満たす結果がどのくらいか
- 適用する可能性がある文書を検索結果から除外
- ベクトル空間モデル
- Term × Document
- ベクトル空間モデルで、相関係数を2値から、Scalar に。ある・なしだけではなく
- TF*IDF
- 高い場合: 少数ドキュメントにたくさん出現する場合
- Term × Document
- Probatility Ranking Principle (PRP)
- 情報要求にないして確率論を当てはめた考え
- 文書d とクエリq の適合性を確率として表現
- Binary Indepence Model (BIM)
- 仮定:文章を 0 or 1 の2値単語ベクトルで表現
- 文章分類は出来るが、検索には不十分。
- Recall (再現率):
- 工夫
- BM25
- ある文章内での単語頻度が高いと重み付けを付ける
- 研究結果、線形ではなく、2つのポワソン分布の混合を考えると、いい検索ランキングの重みづけできる。
- BM25F (2004)
- BM25を複数のフィールドに対応
- 納得のいく結果が得られた。
- Lucene は BM25Fの対応は難しい
- BM25
- まとめ
- Wordnet有用
- 情報検索基礎: tf-idf から BM25F。
- コメント
- relevance Feedback も行う
R言語によるはじめてのテキストマイニング (@yokkuns)
Sakuteki02 yokkuns
View more presentations from yokkuns
- R
- YjdnJlpパッケージ
- テキスト解析API
- 形態素解析
- 掛かり受け解析
- res <- DAService(con,str)
- 特徴後解析
- res <- KeyPhrame(con, str)
- コレスポンデンス分析
「コレカモネット」の紹介 (@tks)
- 紹介
- Team Labo、WEBを用いて収益を上げるSI
- 従業員150名
- コレカモ
- 今後
- おしゃれハイテク
- おもろハイテク
推薦文献
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11
- メディア: 単行本
- 購入: 3人 クリック: 122回
- この商品を含むブログ (13件) を見る
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2008/12/16
- メディア: 単行本(ソフトカバー)
- 購入: 18人 クリック: 230回
- この商品を含むブログ (29件) を見る
Togetter
@kimukou_26さんのツイートまとめ:
第2回「にこにこ」改め さくさくテキストマイニング勉強会 - Togetter
関連エントリ(追記)
- 第二回さくさくテキストマイニング勉強会 終了後、運営側の雑感 - あんちべ!
- 第2回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記
- Team-lablog » 第2回「にこにこ」改め さくさくテキストマイニング勉強会 Ustream録画まとめ #sakutextmining
- 第2回さくさくテキストマイニング勉強会で発表してきました(#sakuTextMining) - yokkunsの日記
- さくさくテキストマイニング第二回で「概観テキストマイニング」という発表をしてきました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
コメントを書く



