睡眠不足?! RSSフィード

1958984

2008-09-07

[][]ナイーブベイズによるテキスト分類体験アプリ

もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの.Naive Bayesを世の中に広めるために,きちんと公開することにしました.


(2008-09-11追記)好評だったので日本語を扱えるようにしました.詳しくはこちらの日記をご覧ください.


Naive Bayesナニソレ?という方はとりあえずググりましょう.理屈はわかったけれど,うまくイメージがつかないなぁ..という状態になったら本プログラムを触ってみてください.すっきりします.たぶん.


使い方の説明

  1. 単語区切りが面倒なので日本語は使えません.あしからず.
  2. 本文を入れるっぽいところにテキストを入力します.
  3. クラスを選択して学習ボタンを押すと,頻度がカウントされ,各クラスの条件付確率が表示されます.
  4. どんどん学習して条件つき確率の変化を観察しましょう.
  5. αは単語の出現確率のスムージングパラメータです.
    • いろいろ変えてスムージングがどういう影響を与えるのか観察しましょう
  6. 分類したいテキストを入力したら分類ボタンを押してください
  7. 事後確率(posterior)が大きい方に分類されます.
  8. 下のほうに計算に用いられた単語とその確率に色づけをしてくれます.
  9. Naive Bayesは怖くない,ということがわかったら布教しましょう.

TODO

  • 単語尤度という表現はおそらく誤り
  • 単語区切りは驚きのスペース,カンマ,ピリオドだけ!(済)
  • case folding?ナニソレ?
  • 形態素解析すれば日本語使えるヨ.Yahoo!APIとか.(済)
  • etc...

おねがい

  • お気づきの点がありましたら,コメント欄でもメールでもご連絡をいただけると幸いです.
  • もちろん無断で改良してご自身の名前で公開してもらっても一向にかまいません.
  • とにかくNaive Bayesを布教してください.

tfurutfuru 2008/09/07 22:15 これはいいですね!
2chの2つの板のレス使って,どっちの板のか分類できるか遊んでみました。
驚きの区切り設定の関係で名無し表示名くらいしか効いていませんでしたがw,直感的に理解できました。
(英語で試せという話ですねw)

sleepy_yoshisleepy_yoshi 2008/09/07 22:18 > tfuruさん
おぉ,反応が早いwwありがとうございます!

2ch板分類という発想はありませんでしたw
Yahoo!の形態素解析APIを使えばもっと本格的なことができそうですね.

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証