2011-01-03
■[Solr]日本語対応
N-gram
Solrには2-gramのCJKTokenizerがあるのでそれを使える。Tokenizerはインデックスフィールドごとに設定するが、サンプルには記載がないのでschema.xmlにtext_cjkというFiledを追加してこれをCJKTokenizerで解析してみる。追記したらサーバーを再起動。
#schema.xml cd apache-solr-3.3.0/example/solr/conf vi schema.xml <fieldType name="text_cjk" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.CJKTokenizerFactory"/> </analyzer> </fieldType>
確認
http://localhost:8983/solr/admin/analysis.jsp
- Fieldをtypeに変更して「text_cjk」と入力
- FieldValueに「こんにちは」と入力
- Analyzeボタン押下
形態素解析
Solrには日本語の形態素解析器は含まれないので別途形態素解析用のライブラリを用意する必要がある。
これまで、Javaの形態素解析器ではSenが有名であったが、既に長いことメンテナンスされなくなっている。
これとは別にSenをベースとしたライブラリlucene-gosenがリリースされているのでこちらを使用する。
詳しくはこの辺を参照
http://lucene.jugem.jp/?eid=435
http://lucene.jugem.jp/?eid=436
ダウンロード
以下よりダウンロード。2つのjarがあるが、これは辞書の違いなので好きな方を持ってくる。
http://code.google.com/p/lucene-gosen/
ライブラリをコピー
mkdir $SOLR/example/solr/lib cp lucene-gosen-1.1.1-ipadic.jar $SOLR/example/solr/lib
schema.xmlを編集
#schema.xml
cd apache-solr-3.3.0/example/solr/conf
vi schema.xml
<fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.JapaneseTokenizerFactory"/>
</analyzer>
</fieldType>
再起動
#Senのディレクトリを指定して起動 cd apache-solr-3.3.0/example java -jar start.jar
トラックバック - http://d.hatena.ne.jp/takeR/20110103/1294045877
リンク元
- 20 http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rlz=1T4GWYA_jaJP307JP307&q=macアドレス+取得 java
- 14 http://www.google.co.jp/search?hl=ja&lr=lang_ja&tbs=lr:lang_1ja&q=java+stringutils+isblank&aq=1&aqi=g10&aql=&oq=java+StringUtils&gs_rfai=
- 13 http://www.google.co.jp/search?hl=ja&source=hp&q=StringUtils.isEmpty&aq=f&aqi=g2g-m1&aql=&oq=&gs_rfai=
- 11 http://www.google.co.jp/search?client=firefox-a&rls=org.mozilla:ja:official&channel=s&hl=ja&source=hp&q=StringUtils+isEmpty&lr=&btnG=Google+検索
- 11 http://www.google.co.jp/search?q=StringUtils.isEmpty&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&hl=ja&client=firefox-a
- 9 http://www.google.co.jp/search?q=NAS+NFS&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&hl=ja&client=firefox-a
- 8 http://www.google.co.jp/search?hl=ja&client=firefox-a&rls=org.mozilla:ja:official&q=isEmpty+java&btnG=検索&aq=f&aqi=g-e1g5g-m3&aql=&oq=&gs_rfai=
- 8 http://www.google.co.jp/search?sourceid=chrome&ie=UTF-8&q=StringUtils.isBlank
- 7 http://www.google.co.jp/search?hl=ja&q=java+ゼロ埋め&revid=1623597941&sa=X&ei=pRkkTZTqMoPcvQPN7P36DQ&ved=0CEQQ1QIoAA
- 6 http://www.google.co.jp/search?hl=ja&source=hp&q=stringutils+isempty&lr=&aq=0&aqi=g5&aql=&oq=stringutils+is&gs_rfai=

