Hatena::ブログ(Diary)

Mi manca qualche giovedi`? このページをアンテナに追加 RSSフィード Twitter

2010-09-25 逆TAKESAKOメソッド発動で他の方の発表をほとんど聞けてないのは内緒

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました

第2回自然言語処理勉強会@東京 にのこのこ行ってきました。

ありがとうございました&お疲れ様でした>各位。


今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。



内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。

前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。

精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。


というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗

楽しんでいただけたら幸い。


作成したライブラリはこちらにて Apache License 2.0 ですでに公開している。

言語プロファイルも付属している(まだ性能が出せていなかったデンマーク語などのいくつかの言語を除く46言語分)ので、すぐ試してもらえるようになっている。

ドキュメントやパラメータを調整する API の整備はこれからだが、「言語判定」という単目的のライブラリなので、たぶん難しくはないと思う。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証