Hatena::ブログ(Diary)

public static void main

誰かが困って検索したときに助けになる話題を書いていければと思っています。

2008-05-19

[][]意見分析エンジン―計算言語学社会学の接点

意見分析エンジン―計算言語学と社会学の接点
大塚 裕子 乾 孝司 奥村 学
コロナ社
売り上げランキング: 46467


意見分析エンジンというと真っ先に思いつくのが、今はもう終了してしまったブログウォッチャーやgooブログ検索Yahooブログ検索などの、ポジティブ・ネガティブな記事の割合やどのようなキーワードでそう判断したのかといった情報を表示してくれる機能です。

アンケートなどの自由作文などで自動的に意見抽出しようという試みは結構前からありましたが、感想や意見が多く書き込まれるブログの普及に伴って、研究・ビジネスの両方で一気に注目が高まっています。ただ、Webで提供されているレベルだと一部を除いて、すごく高度なことをしてるわけでもないので、どのくらい実用で使えるのかは疑問ですが、逆に少し勉強すれば簡単なものならなんとなく作り方がわかると思います。

本書は、評判・意見を分析するための仕組みについて、技術論だけでなく、社会学的な視点からも語られているのが特徴です。工学よりの視点だと技術ありきで考えてしまうので、それが社会的にどういうニーズやメリットがあるのか、ということでバランスを取ることが重要です。


個人的に面白かった章

意見分析へのニーズと背景(1章)

本論に入る前に、意見とはなんぞ?という内容を取り扱っています。

また、問題をシンプルにすることが意見分析の出発点になっているけれども、それを当たり前として捉えているようになったら問題であるとしています。これは自分でも反省すべきところで、SNSを例にとって考えると、その仕組みは現実世界の人間関係を誰かがモデル化した結果生まれたもののはずで、それを当たり前のものとして捉えるようになったら革新的なサービスを思いつくことができなくなります。

また、裁判員制度などの市民参加においても意見分析の仕組みが必要になってくるとしています。


意見分析エンジンの要素技術(4章)

約40ページぐらいが意見分析に使われる技術の簡単な内容です。なので、研究などで評判分析をやっている人が見ると知っている内容ばかりだと思います。

しかし、機械学習、文書分類、特徴ベクトルの抽出、評価語辞書の作り方、そして評価分析の手法と一通りまとまっているので、ちょっとこの分野に興味があるけどまず何からはじめればいいかわからないという人にはちょうどいい内容だと思います。

また、課題として、よいか悪いかの2極化をさけるための中立クラスや、「買ってすぐに動かなくなった」のような明示的でない評判について取り上げています。


テキストマイニングの勉強したい人なら

一読の価値はあるのではないかと思います。

2008-01-17

[][]事例で学ぶテキストマイニング

事例で学ぶテキストマイニング
渕上 美喜 末吉 正成 高山 泰博 今村 誠 小木 しのぶ 村田 真樹
共立出版
売り上げランキング: 173607


no title」経由で知って、直後に本屋に行ったところ偶然発見したので買ってみました。

こういう分野を専門にしている人というより、「テキストマイニングに興味があるんだけど、何から手をつけたらいいんだろう」という人向けな内容。

2章の自然言語処理入門と、3章のテキストマイニングの実践の基礎編を読めば、テキストマイニングで使われている基礎の技術と、実際にどうやって分析していくのかがなんとなくわかると思います。

事例が5つ取り上げられていますが、それぞれ、ChasenYamChaWordMinerText Mining StudioDIAMining EXと使っているテキストマイニングソフトが違います。実行結果の見方についても詳しく解説してあるので、テキストマイニングツールってどんなことができるのか知りたい人は参考になります。

個人的には、ChasenとYamChaによる「社説タイトルを利用した社会動向の把握」が自分とやっていることが近いので参考になりました。

後、付録1のデータマイニングソフトの比較は、他では見たことがないので、購入を検討している人には有益な情報になると思います。



参考になった技術の話

特徴分析(第3章の3.2.4)

ある文書の集合で特徴的な単語を抽出する方法です。

特徴度 = 共起回数の実測値 / 共起回数の期待値

でその集合における単語の特徴度を求めることができます。

たとえば、ブログの記事が100あって、その内10の記事に「Java」というタグがついていたとします。

wicket」という単語を使っている記事数が全体で15、そのうち「Java」とタグがついた記事数が5だとした場合、

共起回数の期待値 = 15(「wicket」の総数) * 10(タグ「Java」の総数) / 100(総記事数) = 1.5
タグ「Java」における「wicket」の特徴度 = 5 / 1.5 = 3.33...

となります。

これをすべてのタグと単語について行えば各タグの特徴を分析することができます。

TF-IDFと比べるとどっちが効果的なのかな?


意味ソート(付録5)

ある単語に関連のある語を出すときに、50音順や頻度順で並べてもわかりにくいから、「組織」とか「人間」とかの意味でまとめたらわかりやすいよね、という話。分類語彙表を利用してソートします。

分類語彙表のデータベースは以下のページから申し込んで入手可能で、研究開発用途に使えます。

独立行政法人 国立国語研究所:データベースのお申し込み

2007-12-25

[][]テキスト自動要約

テキスト自動要約 (知の科学)
奥村 学 難波 英嗣
オーム社
売り上げランキング: 284383


以前書いた「自然言語処理ことはじめ」と一緒に買った本。

自然言語処理分野の研究者である奥村氏と難波氏が書いた、テキスト要約については数少ない日本語の文献です。

テキスト自動要約とは、ある文をより短い文に自動的にまとめる技術で、Web上に蓄積されている文書の数が爆発している今、情報へのアクセスを容易にするために重要な研究分野です。

本書は、研究者向けの内容なので、場所によっては専門用語が使われるところもあり、このあたりの分野をまったく勉強したことがない人はとっつきにくいかもしれません。

著者も前書きで述べているように、本書はテキスト自動要約の研究を全体的に取り上げているため、それぞれの話の詳細は取り上げておらず、実装をしたい人にとっては物足りない内容かと思います。

実際に使えるレベルのものになると、構文解析やシソーラスの利用も必要になってきますし、重要度の指標を組み合わせて決定木などで機械学習を行ったりするので、もっと詳しい知識が必要になってきます。

テキスト自動要約の手法や論文が広く取り上げられているので、この分野について勉強を始めたいと思っている人にはよい本だと思います。

Web page of Summarization in Okumura-Lab

上記のページに、本書で取り上げられた文献などの情報がまとめられています。

余談ですが、著者の一人である奥村氏の研究室では、ブログ検索で以前話題になったblogWatcher(ブログウォッチャー)を開発しています。


本書の具体例で個人的に興味深いもの

no title

様々なページから言葉に関する説明を自動的に集めて、辞典のよ

うに使うためのシステムです。

Multi-document Summarization by Visualizing Topical Content[PDF]

ニュース記事の集合を意味空間という二次元平面に配置するシステムについての論文です。


関連文献


筆者らのWebページ:

2007-12-17

[][]自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ

自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ
荒木 健治
森北出版
売り上げランキング: 88452


研究などでmecabやYahoo! 日本語形態素解析Webサービスを使って形態素解析した結果を統計的に処理したりすることが多いのですが、きちんと自然言語処理について網羅的に内容を勉強していないので、店頭で見かけて一番わかりやすそうなこの本を呼んでみることにしました。

わかりやすくするために詳しい話はカットされているので、難しい説明はほとんど出てこず、ページ数もそう多くないので、すぐに読むことが出来ました。

読み終わってから、今後意味解析とかに一歩足を踏み出せそうな気がしました。

各章ごとにコンピュータに自然言語を扱わせる方法を紹介しているのですが、章の終わりにその対象に対して筆者が実際にどのような研究をしているかの説明が入ります。

自然言語初心者としては少々難解な部分もあるので、興味のない部分は飛ばしてもよいと思うのですが、個人的にはGAを用いた帰納的学習の話が面白かったですが、論文をWebから自由に見ることができないのが残念でした。



以下、後でもうちょっと調べようと思った話。

n-gramの統計言語モデルで文章から単語を切り出す

文章中の単語の出現頻度を調べるときに、隣接するものを一まとめにして共起頻度を求め、確率が閾値を越えた場合に単語分割を行う手法です。文字単位でやる場合もあれば、単語単位でやる場合もあります。

buzztterの裏側でフレーズを抽出する話でも出てきましたね。

dara日記


ELIZAの話

精神分析医のインタビュー代行システムで、人間と雑談を行うことができるシステムです。

人口無能に興味がある人なら多分知っていると思います。

マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは - CNET Japan

上記の記事でもあるように最近また人口無能が注目されてきているのかな?

実際のルールについては詳しく知らないので、時間があれば調べたいです。


遺伝的アルゴリズムによる文生成ルールの学習

先ほども少し触れましたが、これについてはちゃんと論文を読んでみたいと思っています。



筆者のWebページ:

no title