May 28(Thu), 2009 NLPの時代がキタ
■[NLP][Ubuntu]UbuntuにUTF-8版のcabochaを簡単にインストールする方法
環境はUbuntu 9.04 Desktop-jaです.
mecabのインストール
aptにutf8版の辞書も用意されていました.
何故かjuman-dicも入るし,utf8ではないipadicも入る対象に入ってしまうが,気にしない.
動作確認
$ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
もちろんターミナルはUTF-8です.apt-getのみでここまで来れたのは素晴らしい.
cabochaのインストール
http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/ が各種NLPパッケージのリポジトリ.サイトに設定方法が書いてありますが,下記に最低限のステップを.
リポジトリの追加
/etc/apt/source.listに以下を追記.
deb http://cl.naist.jp/~eric-n/ubuntu-nlp dapper all
署名情報の取得とパッケージリストの更新
$ wget http://cl.naist.jp/~eric-n/ubuntu-nlp/8ABD1965.gpg -O- | sudo apt-key add - $ sudo apt-get update
パッケージの確認(オプション作業)
$ apt-cache search cabocha cabocha-dic-utf8 - Dictionaries of Cabocha (UTF-8) cabocha-dic - Dictionaries of Cabocha (EUC-JP) libcabocha2 - Libraries of Cabocha libcabocha-dev - Header files of Cabocha cabocha - A Japanese dependency/case structure analysis system
お待ちかねのインストール
$ sudo apt-get install cabocha cabocha-dic-utf8 パッケージリストを読み込んでいます... 完了 依存関係ツリーを作成しています 状態情報を読み取っています... 完了 以下の特別パッケージがインストールされます: cabocha-dic crf++-doc libcabocha2 libcrf++0 libmecab1 以下のパッケージが新たにインストールされます: cabocha cabocha-dic cabocha-dic-utf8 crf++-doc libcabocha2 libcrf++0 以下のパッケージはアップグレードされます: libmecab1 アップグレード: 1 個、新規インストール: 6 個、削除: 0 個、保留: 4 個。 61.4MB のアーカイブを取得する必要があります。 この操作後に追加で 188MB のディスク容量が消費されます。 続行しますか [Y/n]?
Yes以外の選択肢はありません.
動作確認
$ cabocha すもももももももものうち すももも-D ももも---D ももの-D うち EOS
これだとNLP処理屋としては物足りないので-f1オプションをつけてみる.
$ cabocha -f1 すもももももももものうち * 0 1D 0/1 0.886878 すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ O も 助詞,係助詞,*,*,*,*,も,モ,モ O * 1 3D 0/1 0.000000 もも 名詞,一般,*,*,*,*,もも,モモ,モモ O も 助詞,係助詞,*,*,*,*,も,モ,モ O * 2 3D 0/1 0.000000 もも 名詞,一般,*,*,*,*,もも,モモ,モモ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 3 -1D 0/0 0.000000 うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ O EOS
感想?
NAIST様様.NLPの時代がキタね.UTF-8の進出も素晴らしい.
まさか,apt-cache search mecabでUTF-8版の辞書が出てくるとは思わなかった.
cabochaは一昔前ですと,各種関連パッケージも含め,ソースコードから入れないといけなかったわけですが.まさかdebが登場するとは……鼻血モノです.
トラックバック - http://d.hatena.ne.jp/Syo-Takasaki/20090528/1243484754
リンク元
- 167 http://b.hatena.ne.jp/entry/d.hatena.ne.jp/Syo-Takasaki/20090528/1243484754
- 94 http://d.hatena.ne.jp/Syu-syu/20100508/1273315850
- 56 http://d.hatena.ne.jp/yusuke_s37/20100508/1273299964
- 45 http://www.google.co.jp/search?hl=ja&client=firefox-a&rls=org.mozilla:ja:official&hs=Iju&q=namazu+xpdf&btnG=検索&lr=lang_ja
- 42 http://d.hatena.ne.jp/udzuki/20090721/1248178114
- 33 http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rlz=1T4ADBR_jaJP323JP323&q=ubuntu+tomcat
- 24 http://www.google.co.jp/search?hl=ja&lr=lang_ja&client=firefox-a&rls=org.mozilla:ja:official&hs=Nug&q=アイポ4+インストール&revid=527001667&ei=754eSpLzKM6XkQXCge2LDQ&sa=X&oi=revisions_inline&re
- 21 http://www.google.co.jp/search?q=cabocha&lr=lang_ja&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&client=firefox-a
- 20 http://www.google.co.jp/search?hl=ja&client=firefox-a&rls=com.ubuntu:ja:unofficial&hs=98R&q=ubuntu+リモートログイン&btnG=検索&lr=
- 13 http://www.cue.im.dendai.ac.jp/~masuda/cgi-bin/tdiary/?date=20091105