覚書いろいろ

2006年08月19日 debian(sarge) で mecab ipadic を utf-8に変換

http://mm.apache.jp/pipermail/spamassassin-jp/2006-March/000081.html

Debian パッケージでは辞書が最初EUC-JP で入りますが

以下のように変更できました

cd /usr/share/mecab/dic/ipadic/

ファイルdicrc の内容charset = utf8に変更

この後このディレクトリのファイルを全てutf8へ変換

for i in * ; do mv $i $i.euc; nkf -w $i.euc > $i; done

その後以下のコマンドで辞書をmecabに取り込む

dpkg-reconfigure mecab-ipadic