Hatena::ブログ(Diary)

経済産業省オープンガバメント推進ブログ このページをアンテナに追加 RSSフィード

2009-11-30

アイディアやコメントの内容の活用

アイディアボックスのフォローアップサイトに、<アイディアのテキスト分析>として全アイディアデータとそのアイディアデータを分析する方法を載せています。


もちろん、いただいた全体のアイディアやコメントを読んでいますし、類似のテーマを集約したマインドマップを作って、今後の方向など検討しているのですが、その方法ですと、どうしても分析をする担当者の主観が入りやすくなります。

また今後、アイディアボックス取り組みを他テーマなどに展開する場合には、もっと多くの意見をいただく場合も考えられます。

その場合には議論の整理をすることも難しくなってきます。

そこで今回は、文章を自動的に定量的な分析を行う「テキストマイニング」といわれる手法を導入してみました。

テキストマイニングとは何かというと、文章を単語に分類して、「何回出てくるのか」「この単語とこの単語は一緒に使われる事が多い」とか分析する手法です。「電子政府」と「便利」と言う単語が近いのか「不便」と言う言葉が近いのかなどを定量的に見ることができます。

元々は数字のデータを解析する「データマイニング」という手法があり、それを文書の解析に応用したものです。

スーパーマーケットに行くと、野菜のコーナーに意外な組み合わせの調味料がおいてあることなどありますが、これもデータの分析で、「キャベツを買う人は、この調味料も買う人が多い」などの分析結果をもとに売り場の配置をしていることが多いです。

このような実は身近で使われている手法を、分析に使ってみました。

f:id:ideaboxFU:20091130164646p:image

上記は、テキストマイニング結果をビジュアルに示しているものです。

どのようなテーマが議論の遡上にあがっていたのかは一目で俯瞰できると思います。

簡単にこれまでの手法との違いを整理すると、以下になります

○これまでパブリックコメントなどで大量に意見が寄せられたときの分析の限界

・一つ一つ個別に検討をすることが多く、意見の根底にある本質的なものを抽出することが難しい

・分析者の個人的な分析力によって分析の深さが異なる

・分析者の主観が入る

・分析に時間がかかる

・公表された結果を見ても定性的な回答の一覧で判断が難しい

データマイニングを使うときの利点

・大量のデータを半自動で分析することができる

・分析者の主観が入らない

・分析者による誘導や操作が入りにくいため、結果の信頼性向上につながる

・新たな相関関係などの発見につながる

・定量的に分析を行うことができる

・多様な視点からの評価が可能であり、データを公開することで、研究者などによるさらなる分析が期待できる

もちろんまだ課題もあり、

・分析結果の精度が十分でない

・データクレンジングなどの準備が必要

と言う解決すべき課題もあります。

簡単な分析しかしていませんが、すごい活用法などありましたら是非教えてください。よろしくお願いいたします。