ケーズメモ このページをアンテナに追加 RSSフィード

2009-04-12

Ubuntu8.04にMeCabをインストール

形態素解析を使うことになったので、再度インストールログをまとめておきます。Debian/Ubuntuの場合は

言語解析系のUbuntudebパッケージ配布サイトを見つけた

http://d.hatena.ne.jp/ksmemo/20071107/p2

にも書いたようにDebianパッケージファイルがあるのですが、ソースからインストールすることにします。


MeCab本体インストール

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

http://mecab.sourceforge.net/

既に他のバージョンをインストールしていたのでprefixでインストールディレクトリを変えました。

$ tar zxvf mecab-0.97.tar.gz
$ ce mecab-0.97
$ ./configure --prefix=/usr/local/mecab/0.9
$ make
$ sudo make install

MeCab辞書インストール

辞書の文字コードはディフォルトでEUC-JPなのでUbuntuのディフォルトエンコードUTF-8にあわせます。

$ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --prefix=/usr/local/mecab/0.9 --with-charset=utf8
$ make
$ sudo make install

MeCabのテスト
$ mecab
にわにはにわにわとりがいる
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
わに	名詞,一般,*,*,*,*,わに,ワニ,ワニ
はにわ	名詞,一般,*,*,*,*,はにわ,ハニワ,ハニワ
にわとり	名詞,一般,*,*,*,*,にわとり,ニワトリ,ニワトリ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
いる	動詞,自立,*,*,一段,基本形,いる,イル,イル
EOS

文字化けもなく実行できているようです。


Text::MeCabインストール

$ sudo cpan -i Text::MeCab

インストールします。


Text::MeCabのテスト

perldocのSYNOPSYSほぼそのままですが、下記のコードを書いて実行します。

#!/usr/bin/perl

use strict;
use warnings;
use Text::MeCab;

my $mecab = Text::MeCab->new();

for (my $node  = $mecab->parse("にはにはにわにわとりがいる"); $node; $node = $node->next) {
  printf "%s\t%s\t%s\n", $node->surface, $node->feature, $node->cost;
}

これを実行した結果は以下になります。

に	助詞,格助詞,一般,*,*,*,に,ニ,ニ	2447
は	助詞,係助詞,*,*,*,*,は,ハ,ワ	2669
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ	8316
はにわ	名詞,一般,*,*,*,*,はにわ,ハニワ,ハニワ	15128
にわとり	名詞,一般,*,*,*,*,にわとり,ニワトリ,ニワトリ	22039
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ	21184
いる	動詞,自立,*,*,一段,基本形,いる,イル,イル	23613
	BOS/EOS,*,*,*,*,*,*,*,*	23620

問題ないようです。


TermExtractインストール

一式インストールが済んだのでTermExtractを入れます。TermExtractMeCab形態素に分割した言葉から用語を見つけて結合してくれるモジュールです。

以前にタグクラウドを作成するときに使ったので、用法については下記エントリを参照してください。

形態素解析を使ってタグクラウド

http://d.hatena.ne.jp/ksmemo/20070619/p1

CPANには無いようなので公式サイトからダウンロードして使います。

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract" の解説

http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html

他のものと同様make installします。

$ tar zxvf TermExtract-4_08.tar.gz
$ cd TermExtract-4_08
$ perl Makefile.PL
$ make
$ sudo make install

これでひとまず準備ができました。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/ksmemo/20090412/p2