chalk-less::weblog::thecla

※ ここでの商品へのリンクは、Amazonアソシエイトを利用しています。*

2003 | 08 | 09 | 10 | 11 | 12 |
2004 | 01 | 02 | 03 | 04 | 05 | 07 | 09 | 10 |
2005 | 02 | 04 | 05 | 07 | 11 |
2006 | 03 |
2009 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 08 | 09 | 10 | 12 |
2011 | 01 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 |
2012 | 01 | 03 | 05 | 06 |
2013 | 05 | 06 |
2014 | 01 | 03 | 08 |
2016 | 03 | 06 | 07 | 09 |

2009-12-15(Tue.)

[]RMeCabをきちんといれてみた RMeCabをきちんといれてみたを含むブックマーク

Rによるテキストマイニング入門

Rによるテキストマイニング入門

すみません。今までRMeCabをちゃんと入れてませんでした。

今回、ちゃんと入れて、使えるようにしました。

そのログMacOSXでやってます。今のところ、301 Moved Permanentlyでまとめていますが、そろそろページを独立させてもいいかもな、という感じです。

  • R

sudo port -v install R

ってな具合です。コンパイルに尋常じゃなく時間がかかりました。というのは、MacPortsバージョンアップもしたからかも(RMeCabを使いたい → Rのバージョンが合わない → MacPortsバージョンをあげないと新しいのが入らない)。

いつもなら、portでいれるところなのですが、RMeCabには、portで入れるな、とあるので、ソースを落としてきて入れました。Error 404 (Not Found)!!1に行ってダウンロードして、configure → makemake installの流れ。302 Foundにあるように、LIBS=-liconv をつけなければいけないのと、--with-charset=utf8をするのがキモでしょうか。自分の場合、(仮に不具合が出たときにがっさり消せるように)/opt/pkgs/mecab-0.98 に入れて、/opt/share/mecab/ にシンボリックリンクをはって使うというやり方をしているので、

./configure LIBS=-liconv --prefix=/opt/pkgs/mecab-0.98 --with-charset=utf8

という感じで。(これがあとで事態をややこしくさせる)

辞書も、上からmecab-ipadicの新しいのを落としてきて、上と同様に(LIBSの指定はいらないかな)

  • RMeCab

RMeCab - RとLinuxと...を参考にしながら、ファイルダウンロード。Rをバイナリで入れた場合と、上みたく、コンパイルした場合とファイルが2パターンあるので、適切な方を。Rを立ち上げるべく、ターミナルを開いて、そのディレクトリに移動。で、sudo R(ライブラリファイルとかを自分のホームの下とかに置くならsudoはいらない)。

$ sudo R

> install.packages("RMeCab_0.86.tgz", destdir=".", repos = NULL)

インストールされる。

で、

library(RMeCab)

とやると使えるようになって、RMeCab機能 は編集できません - RとLinuxと...の受け売りで

> library(RMeCab)

> kekka <- RMeCabC("すもももももももものうち")

> unlist(kekka)

とやると、うまくいけば、

名詞 助詞 名詞 助詞 名詞 助詞 名詞

"すもも" "も" "もも" "も" "もも" "の" "うち"

となる。が、きっと上のようにmecabとか入れるのにprefix指定したりすると、

M t d

"\xe3\x81" "\x99\xe3" "\x82\x82\xe3\x82"

t d t

"\x82\xe3" "\x82\x82\xe3\x82" "\x82\xe3"

d t d

"\x82\x82\xe3\x82" "\x82\xe3" "\x82\x82\xe3\x82"

t M t

"\x82の" "\xe3\x81" "\x86ち"

になったりする。これって、Macに元々入っているmecabを見に行っているからだと踏んでいる(文字コードが違う)。

ここでけっこうはまって試行錯誤をしたのだが、結局、/usr/share/mecab/mecabrc というmecab辞書の設定をしてあるファイルを変えれば大丈夫だったようで、

$ cd /usr/share/mecab/

$ sudo mv mecabrc mecabrc.org

$ sudo ln -s /opt/share/mecab/etc/mecabrc mecabrc

とやるとうまく行きました。

元々Macmecabが入っているということは、mecabを何かに使っているのでは、と思うわけですが、その設定ファイルを書き換えて大丈夫なんだろうか、というのが、ちょっと心配。Rの方で、設定ファイルをここを見る、みたいな指定をした方が、もしかしたら安全な気がします。

[][][]ライフサイエンス広場 が復活して ライフサイエンスの広場 が復活してを含むブックマーク

ライフサイエンスの広場が復活して、よかったよかった、これでまたちゃんと見られるようになるわい、とか思っていたらば、各種ページのURLが変わったので、日本の生命科学データベース政策 - ライフサイエンス統合データベースプロジェクトのあちこちでリンク切れを起こしていますよ、という指摘。さすがにそこまでは気づかなかった。恐るべし じぇい えす てい。

[]ラボページに追加依頼 ラボページに追加依頼を含むブックマーク

LSDB Lab. - ライフサイエンス統合データベースセンターですね。また一つ加わりました。

Amazonアソシエイト:書籍などを紹介することで、その書籍が購入された場合に、紹介者(この場合、私)に紹介料が支払われるものです。見ることによりお金がかかる、ということはありません。また、購入しても、その代金や運送費以上に余計にお金がかかることはありません。ここで得られた収益は、サイトの維持、書評を書く、あるいは、翻訳するなどのための書籍代として使わせていただきます。