テキスト自動要約

テキスト自動要約 (知の科学)
奥村 学 難波 英嗣
オーム社
売り上げランキング: 284383


以前書いた「自然言語処理ことはじめ」と一緒に買った本。
自然言語処理分野の研究者である奥村氏と難波氏が書いた、テキスト要約については数少ない日本語の文献です。

テキスト自動要約とは、ある文をより短い文に自動的にまとめる技術で、Web上に蓄積されている文書の数が爆発している今、情報へのアクセスを容易にするために重要な研究分野です。
本書は、研究者向けの内容なので、場所によっては専門用語が使われるところもあり、このあたりの分野をまったく勉強したことがない人はとっつきにくいかもしれません。
著者も前書きで述べているように、本書はテキスト自動要約の研究を全体的に取り上げているため、それぞれの話の詳細は取り上げておらず、実装をしたい人にとっては物足りない内容かと思います。
実際に使えるレベルのものになると、構文解析シソーラスの利用も必要になってきますし、重要度の指標を組み合わせて決定木などで機械学習を行ったりするので、もっと詳しい知識が必要になってきます。
テキスト自動要約の手法や論文が広く取り上げられているので、この分野について勉強を始めたいと思っている人にはよい本だと思います。
Web page of Summarization in Okumura-Lab
上記のページに、本書で取り上げられた文献などの情報がまとめられています。

余談ですが、著者の一人である奥村氏の研究室では、ブログ検索で以前話題になったblogWatcher(ブログウォッチャー)を開発しています。

本書の具体例で個人的に興味深いもの

http://cyclone.slis.tsukuba.ac.jp/

様々なページから言葉に関する説明を自動的に集めて、辞典のよ
うに使うためのシステムです。

Multi-document Summarization by Visualizing Topical Content[PDF]

ニュース記事の集合を意味空間という二次元平面に配置するシステムについての論文です。

関連文献