lucene-gosenの辞書編集方法 - エメラルドアオキロック

lucene-gosenとは

lucene-gosenとは、全文検索エンジンのLucene/Solr3.1及び4.0で動作する、日本語の形態素解析用のJavaライブラリで、ここで公開されています。なお、ここで扱うlucene-gosenのバージョンは1.0.1とします。

一般的に日本語を扱う場合には、英語のように空白で文章を単語に区切れない為、n文字ずつ格納するN-GramのCJKAnalyzer（Bi-Gram）や、形態素解析を用いるJapaneseAnalyzer（lucene-gosenに含まれる）を主に用います。それぞれメリットとデメリットがあって、N-Gramは検索もれが少ない分ノイズが多く、形態素解析を用いるとノイズは少なくなるが検索もれが多くなるという特徴があります。どちらも一長一短なので、日本語を扱う場合二つのAnalyzerを併用したりします。（例として、形態素解析を用いた検索でヒットしたものをN-Gramでヒットしたものより下に表示するように、などを行います。）これでもノイズが多くなることは避けられないのですが、ユーザの望むものが先に見つかりやすく、なおかつ検索漏れを防ぐことが出来ます。

でも、出来れば検索漏れとして後ろの方で表示されるのではなく、流行語や造語など（辞書に無い単語）も上に来るようにしたい！という時に、形態素解析用の辞書の編集を行います。そこで辞書のカスタマイズが必要となるのですが、lucene-gosenの辞書の編集を行うためには
　１．辞書の編集
　２．辞書のコンパイル
　３．jarにパッケージ
の作業が必要となります。

lucene-gosenで使える辞書にはIPAdicとNAIST-jdicがありますが、ここでは後発でIPAdicのライセンスの問題を解決したNAIST-jdicを使う事とします。

辞書の編集

辞書の編集の前にまず、この作業にはantとJDKが必要となりますので、必要に応じてインストールを行って下さい。環境が揃ったらここからソースコードをcheckoutします。Windowsな方はEclipseやCygwinを使ってSVNからcheckoutして下さい。
また、より詳細なビルド方法はjohtaniさんのページにあります。

辞書はcheckoutした中には含まれていないため、antを用いてDLします。
コマンドプロンプト（ターミナル）で/dictionaryに移動して、

>ant -Ddictype=naist-chasen

とすればダウンロードが始まります。
（-Ddictype=naist-chasenを省略すればipadicになります）
インターネット経由でダウンロードするので、proxyの設定が必要な場合は下記のようにproxy設定を追加して下さい。（以下同様）

>ant -Ddictype=naist-chasen -Dproxy.host=proxy.hoge.com -Dproxy.port=9999

完了すればnaist-chasen ディレクトリが出来てその中にdictionary.csvというファイルがあり、これが辞書のファイルとなります。このファイルに新たに解析したい単語を追加すれば良いのですが、なにぶん50MB近くありますし、ちょくちょく編集するのには向いていません。なので、単純な追加の場合は別ファイルで管理する事をオススメします。ファイル名は何でもいいですが、ここではbeer.csvというファイル名で進めます。dictionary.csvと同じディレクトリに作ります。また、文字コードはUTF-8なのでWindowsな人は気をつけて下さい。

辞書の各項目については「辞書への単語の追加」も参考にして下さい。大抵は名詞の追加となると思いますので、この例と同じように追加できると思います。重要なのは見出し語とコストと品詞です。まずはdictionary.csvから似たような単語を探しましょう。今回は「スーパードライ」を参考にしました。

"スーパードライ",3999,名詞,一般,*,*,*,*,"スーパードライ","スーパードライ","スーパードライ"

「スーパードライ」がなぜ固有名詞でないのかはさておき、これをコピーしてbeer.csvに貼り付けます。品詞はそのまま使えるので、見出し語と原形と発音を修正します。最後にコストですが、これは低いほど出現しづらい値となります。通常は似た単語と同じにしておけばいいらしいのですが、例えば「エビス」と「シルクエビス」が同一のコストだと、「シルクエビス」は「シルク」と「エビス」に分解されてしまいます。それを調整する為に、長い単語はコストを下げるといいようです。

という事で、追加辞書はこんな感じにしました。