Hatena::ブログ(Diary)

arupaka-_-arupakaの日記

2014-07-01

お気軽テキスト解析

TinyTextMiner

http://mtmr.jp/ttm/

mecabで頻度解析

http://ldl.ic.kanagawa-it.ac.jp/ioroi/programer/wordcount/wordcount.html

mecab <テキストファイル> | cut -f 1 | sort | uniq -c | sort -r -n

パスを通す

cygwin 上だと文字コードの都合でうまくいかないので,デフォルトSJISの場合

nkf -s <テキストファイル> | mecab | nkf -w | cut -f 1 | sort | uniq -c | sort -r -n

cygwin上にmecabインストールする 0.99だとうまくいかないので注意。

http://www.mk-mode.com/octopress/2012/03/06/06002013/

wget http://mecab.googlecode.com/files/mecab-0.98.tar.gz

tar zxvf mecab-0.98.tar.gz

cd mecab*

./configure --with-charset=utf-8 CPPFLAGS=-DNOMINMAX LIBS=-liconv


辞書

wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz/download