CentOSにChaSenをインストール

久しぶりにChaSenインストールをやり直すはめになった。UTF-8でインストールしたいのでちょっとだけいじる。
必要なものは以下3つ。バージョンは2008年12月16日取得分。

  • darts-0.32
  • chasen-2.4.4
  • 辞書 ( ここでは ipadic-2.7.0 )

Dartsのインストール

特に問題なし。適宜最適化オプションなどをつけてみるのもいい。

% env CC=gcc CFLAGS="-O3 -Wall" ./configure
% make
% sudo make install

ChaSenのインストール

以前のバージョンだとgcc-3.4.3でコンパイルできない問題があったが、chasen-2.4.4では修正済みの模様。よってこれも多分問題なし。

% env CC=gcc CFLAGS="-O -Wall" ./configure
% make
% sudo make install

辞書 ( ipadic ) のインストール

適宜使いたい辞書を選ぶ。ここではipadicにする。UTF-8を扱いたいので、データをエンコードしたり色々。

前準備

*.dic と *.cha をUTF-8エンコードしておく。めんどくさかったらスクリプトを書いて走らせる。

% nkf --utf8 xxx.dic > tmpfile
% mv tmpfile xxx.dic
コンパイル

ldconfigし忘れていたのに気付かずmakematが動かなくてびっくりしたけど…。 /etc/ld.so.conf に該当のモジュールの置き場所を追記して

# ldconfig

したら通った。

% ./configure
% make
% sudo `chasen-config --mkchadic`/makemat -i w
% sudo `chasen-config --mkchadic`/makeda -i w chadic *.dic
% sudo make install

使ってみる

辞書がUTF-8なので、オプションで指定 ( -i w ) したあと入力ファイルもエンコードして使う。

% nkf --utf8 input.txt | chasen -i w