Hatena::ブログ(Diary)

武蔵野日記 このページをアンテナに追加 RSSフィード

2010-10-27

手軽に自然言語処理を学ぶには「入門 自然言語処理」の第12章がお勧め

手軽に自然言語処理を学ぶには「入門 自然言語処理」の第12章がお勧めを含むブックマーク 手軽に自然言語処理を学ぶには「入門 自然言語処理」の第12章がお勧めのブックマークコメント

午前中、言語教育勉強会。進捗報告と発表練習など。見る度に新しい機能が追加されていたりUIが向上していたりするので、まだまだ先が楽しみである。

午後、CJE 勉強会と研究会。日本語の依存構造解析、これ以上向上させていくのは難しいということを知る。いろいろと悩ましい。少なくともこの状況の上に述語項構造解析をやらなければならないわけで……

松本研OBの@takahi_iさんが記事を書いていると小耳に挟んだので、大学の売店で WEB+DB PRESS を購入してみる。ちなみに大学の売店、書籍・雑誌は1割引である。

目次は

1章 データマイニング入門: どのようなデータを、どう分析し、どのような結果を得るか?

2章 テキストマイニング: Hadoopを使った自然言語の頻度分析/共起分析

3章 クラスタリング: 自動的なデータのグループ化

4章 ログデータマイニング: 検索履歴から「もしかして?」、購買履歴から「お勧め商品」

5章 リンクマイニング: つながりを分析してネットワークの成長パターンを発見

という感じで、shunyaさんも感想を書かれているが、確かに全体的に基本的な内容でまとめられている。自然言語処理専門の人にはちょっと物足りないだろうが、これくらいが限界だろうか……。

個人的には@kimurasさんの書いたテキストマイニングの話がとてもよく書かれていてすばらしい。コードもあり、実例も(Mixi の実データを対象とした実験結果と一緒に)書かれていて、自然言語処理と(大規模)データマイニングのちょうどよいイントロダクションになっている。(2010-10-30 変更、Twitter のアカウント間違えていました。@kimuras さん失礼しました!m(_ _)m )

先日情報科学若手の会でも「検索エンジンを作りたいと思って自然言語処理について学びたかったらどうすればいいですか」というような質問があり、答えにちょっと困ったが(いまは@overlastさんのスライドに紹介されている教科書の類を当たるとよいと言えるが)、やはりこういう一般向けの記事だと参考文献として論文を挙げにくいので、悩ましい。

そういえば自分も翻訳のチェックをお手伝いした「入門 自然言語処理」が11月上旬に発売になる。

入門 自然言語処理

入門 自然言語処理

Pythonで書かれた Natural Language Toolkit という自然言語処理ツールがあるのだが、これを使って自然言語処理のイロハを教えるという本(英語版は無料でダウンロードできる)。恐らくこの本の日本人にとって一番参考になるのは書き下ろしとなる第12章で、これは先日バイドゥから楽天技術研究所に転職された@mhagiwaraさんが一から書き起こしたもので、目次から引用すると

12章 Pythonによる日本語自然言語処理

Pythonにおける日本語の取り扱い

12.1 日本語コーパスの取り扱い

12.1.1 平文コーパス

12.1.2 タグ付きコーパス

12.1.3 依存構造解析済みコーパス

12.1.4 コーパスを用いたテキスト処理

12.1.5 日本語WordNet

12.1.6 その他の日本語コーパス

12.2 日本語形態素解析

12.2.1 形態素解析アルゴリズム

12.2.2 文字単位分かち書きを使う

12.2.3 MeCabを使う

12.2.4 JUMANを使う

12.2.5 そのほかのトピック

12.3 日本語構文解析

12.3.1 句構造解析

12.3.2 文節チャンキング

12.3.3 CaboChaを使う

12.3.4 KNPを使う

12.3.5 係り受け解析

12.4 日本語意味解析

12.4.1 格フレームとその獲得

12.4.2 日本語LFG

12.4.3 日本語句構造文法(ICOT JPSG)

12.4.4 その他の日本語HPSG

12.4.5 述語項構造解析

12.4.6 照応解析

12.5 さらに学ぶために

12.5.1 ウェブサイト

12.5.2 一般的な教科書

12.5.3 形態素解析

12.5.4 仮名漢字変換

12.5.5 構文解析と意味解析

12.5.6 機械翻訳

12.5.7 情報検索

12.6 演習問題

というような感じ。ここのところ日本語で読める自然言語処理のテキストの発刊ラッシュだが、コンパクトに分野外の人が自然言語処理ってなんだろう、ということを知るにはとてもよい文書である。

11章までのところは(すでに自分は自然言語処理の知識があるので)正直なんとも言えないが、実行可能なコード断片が全部書かれているという意味でこのテキストはユニークであり、文科系の学生相手に計算言語学のコースを半期なり通年なりで教えるという目的だったらこれはとてもいいテキストになると思う(もともとそういう目的で書かれたものだし)。

自然言語処理を専門にしたい学生であれば、ちょっとこの本だけでは不足だと思うし、FSNLPSLPに相当する網羅的な本を読むしかないだろうが、分量があってなかなか難しい。やっぱり勉強会みたいなので地道に読むしかないのかなぁ……。