2011-06-04
第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining
というわけで参加してきました。会場は数理システムさんです。
入門セッション(AntiBayesian)
第三回さくさくテキストマイニング勉強会 入門セッション
View more presentations from AntiBayesian
単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch )
- TF*IDFの話
- えっ私のテキストマイニング力低すぎ!?
- 例:大量のアンケートの自由回答文から重要な単語を抜き出す
- 例:エビオス嬢についての文章
- TF*IDFとは
- TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数))
- 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している
- なんで対数取るんだっけ・・・
- IDFの影響が大きすぎるので小さくしたい→対数をとる
- IF*IDFの欠点
- ゼロ頻度問題→スムージング
- 短いテキストに向かない(twitterとか)
- TF*IDF以外の指標
- 相互情報量
- TF*KLI
- 詳しくはTokyoNLPまたはDSINLP
特徴抽出からクラスタリング( Taka_Kuni )
- プロフィール
- Android / datamining / ...
- blog: -T_K-
- 特徴抽出
- 文字列から索引語へ
- 頻度情報から重要度の計算
- クラスタリング
- k-means
- クラスタ数を決める必要がある
- leader-follower法
- クラスタ数を決める必要がない
- 逐次的にクラスタを生成
- 1-pasでしきい値以上のデータが来たら新しいクラスタを生成する
- SOM
- データの地図を作る
- データを低次元に写像する
- k-means
- まとめ
- 対象のデータをじゅうbん理解してパラメータを設定する
- 特徴抽出の時点が重要
テキストマイニングの前のコーパス収集( gepuro )
はてなダイアリーからコーパスとなるテキストデータを収集する - gepuroの日記
Collecting corpus
View more presentations from gepuro
とりあえずTwitterで日本語を集めてみよう( s_wool )
- Streaming API
- RESTAPI
KH Coderで3分間テキストクッキング♪( AntiBayesian )
- 受注でテキストマイニングの案件をやる難しさ
- コレスポンデンス分析
- クラスタリング
- 決定木
テキスト/データマイニングと業務( tks )
(資料非公開のため割愛)
テキストマイニングのマーケティングへの活用について( saynoway66 )
(資料非公開のため割愛)
リンク元
- 66 http://twitter.com/
- 30 http://atnd.org/events/17603
- 17 http://b.hatena.ne.jp/hotentry/it
- 16 http://reader.livedoor.com/reader/
- 12 http://b.hatena.ne.jp/entrylist
- 11 http://pipes.yahoo.com/pipes/pipe.info?_id=faa858a20082ef6d25ad27557e37e011
- 9 http://nikkei225option.seesaa.net/
- 9 http://www.google.co.jp/url?sa=t&rct=j&q=テキストマイニング 特徴抽出&source=web&cd=5&ved=0CHwQFjAE&url=http://d.hatena.ne.jp/nokuno/20110604/130717878
- 8 http://b.hatena.ne.jp/entrylist/it
- 8 http://htn.to/zutaci





