2007-03-20 言語判定 NLP Java ref:裏表(Phinloda のもう裏だか表だか分からないページ) | Java で「英語で書かれたページ」を判定する方法は? 「日本語でない」でいいなら、Character.UnicodeBlock を使って、ひらがな、カタカナ、漢字がないかどうか調べればいいと思うけど、そうでないならナイーブベイズ推定器に使うとかだろうかなぁ。 というネタを以前松田君のページで見たなぁ、と思ったらドメイン失効してるし。むぅ、どこかに移動してたりするんだろうか。