Hatena::ブログ(Diary)

やねうらお−俺のブログがこんなによっちゃんイカなわけがない このページをアンテナに追加 RSSフィード

書籍化されたで! 監修したで!(`ω´) 絶版なってしもた 大好評発売中です! 少し書いたデ!(`ω´) これにもな!(`ω´)
解析魔法少女美咲ちゃん マジカル・オープン!

YaneuLabs / YaneuraoGameSDK.NET / 掲示板 / やねうらおにメール / twitter / プロフィール

 | 

2012-02-10 自然言語処理こそが今世紀最後の錬金術

[] 自然言語処理こそが今世紀最後錬金術  自然言語処理こそが今世紀最後の錬金術を含むブックマーク  自然言語処理こそが今世紀最後の錬金術のブックマークコメント


日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ~変わり続けるコンピュータ言葉世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。


日本語入力を支える技術という本を書きました

http://d.hatena.ne.jp/tkng/20120203/1328248554



以下、どうでもいいことをつらつらと。


最近ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。


例えば、2chまとめサイト収益を生み出すのだから機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的にお金を生み出すことは自明なのだが、現代の自然言語処理技術はそんなレベルには全く到達していない。


テキスト自動要約 (知の科学) 自動要約


テキスト自動要約」についての専門書として「テキスト自動要約」(asin:4274200426)と「自動要約」(asin:4320120736)とが挙げられるが、前者はさわり程度のことしか書いていないし、後者もいささか内容が古すぎる。(2003年出版された本だ)


正直言うと実用には程遠いと思う。こんな本を数冊読んだぐらいで実用的な自動要約のプログラムが書けるならば、いまごろとっくにWeb自動要約で生成された文章で溢れている。そうなっていないのは自動要約の質が低いからだ。


また、上の二冊ぐらいしか自動要約の本が出ていないのは、この分野に大きな進歩がないことと、人気がないことも示唆している。自動要約が“金の成る木”であることが自明であるとしても、まだ“金の成る木”レベルの自動要約のプログラムは誰も作れておらず、それゆえ、現状ではほとんど金にならないからである


日本語文章の自動要約の場合、その自動要約の礎(いしずえ)として、まず日本語文章のparse(かな表記になっている部分を適切な漢字に変換したり)が必要になるが、それはIMEで使われている技術にも共通するものがある。GooglePFIのような先見性があり目先の利益にとらわれない企業が、IMEの開発や自然言語処理に注力するのは、当然のことである


ちなみに広辞苑辞書データは(画像や音声ファイルを除き圧縮すれば)50MBにも満たない。意味情報をいろいろ持たせるとしても日本語の知識に関して言えば10GB程度あれば十分収まるのではないかと思う。つまり、いまどきのPCならばオンメモリで処理できる。ハード的な制約から日本語を理解するソフトウェアが書けないという時代はとうに過ぎ去っており、いまはソフトウェア進歩のほうが遅れをとっているのが自然言語処理の実状なのではないだろうか。近年機械学習の分野の進歩は目覚しいものがあるので、そういう結果を利用すると自然言語処理もっと発展するのではないかと私は思う。


ともかく、自然言語処理のうち意味理解をするようなプログラムはなかなかお金にならず、研究者も少なく、進歩も遅いのが実状なのだが、優秀な研究者にこそ、こういう道無き道を切り拓いて行ってもらいたいと思う。

kk 2012/02/10 20:29 まとめは壺の運営がアンカつきレスを抽出してるだけです
ステマ騒動以来色々いじってはいたみたいですが。
だから糞レスばかり抜いてきててまとめの意味を成してないんですね

yaneuraoyaneurao 2012/02/10 21:04 ↑2chのまとめ系サイトって山ほどありますけど、どこのことでしょう?

n7shin7shi 2012/02/10 22:06 素晴らしい記事です。私も学生時代は自然言語処理こそフロンティアだと思っていたのですが、自分の能力に限界を感じて挫折し、最近はバイナリ遊びばかりしていました。
お陰様で昔の熱い気持ちを思い出しました。ありがとうございます。

yaneuraoyaneurao 2012/02/10 22:09 ↑是非とも、“金の成る木”を手に入れていただき、その暁には、私に少しばかりお小遣いをいただきたく…(・∀・)

ぽぺぽぺ 2012/02/11 01:24 googleの日本語入力は、たぶん超々膨大なコーパスがバックボーンにあるかと思うんですが、それでも特出した日本語変換になっていないことを考えると、10GByte程度では日本語の知識は収まらない気がするんですがどうなんでしょうねー。

やっぱりどちらかというと、日本語の構文解析的なロジカルな研究が進む方が一歩未来をいける気がするんですが、なかなか難しそうですね。

yaneuraoyaneurao 2012/02/11 01:30 > 10GByte程度では日本語の知識は収まらない気がするんですが

Google IME自体のファイルサイズは50MB以下です。そのデータを作るために、機械学習などをさせる場合には、そのときにワーキングメモリーはふんだんに必要になるでしょうけども、それはまあそこそこ並列化できるでしょうから、たくさんのPCを用意してやってしまえばいいのではないかと。

IKeJIIKeJI 2012/02/11 02:12 言い出しっぺの法則

yaneuraoyaneurao 2012/02/11 04:39 ↑言い出しすぎて収集つかないの法則

ってのは無いですか…。

紫外線紫外線 2012/02/11 05:01 錬金術級の自然言語処理の使い手は、本物の錬「金」術の方がよっぽど儲かることを発見しました。

http://d.hatena.ne.jp/mamoruk/20101119/p1

yaneuraoyaneurao 2012/02/11 05:14 ↑ノーベル賞受賞者が二人もいたLTCM(Long Term Capital Management)の破綻(1998年)のあとで、まあ、同じような道を辿って2007年に莫大な損失を出すわけですね。歴史は繰り返すと言いますか…、なかなか興味深いです。

すがりすがり 2012/02/11 20:26 外野から見ての話ですが。
錬金術目当てに研究するには次辺りに見えてるハードルが高すぎるのではないかと思います。

錬金術になるレベルで「文章」から「意味」を拾うには、いわゆるSFの人工知能並に柔軟なエンジンが要求されるのではないかと。
(文学や芸術を含んでしまうので)文章の解釈は表層的な分析では完結できないって事は自明だと思いますが、表層で完結出来る範囲が思ったよりも狭くって、だから下火になったというかそういう背景があるんじゃないでしょうか。

yaneuraoyaneurao 2012/02/11 21:44 ↑1982年にICOT(新世代コンピュータ開発機構)が設立され、1992年にプロジェクトが終了するまでに、法的推論システム(≒法律をルール化して設定すれば、ある事例が合法か違法かを判定するプログラム)や意味理解に関する研究がさかんにされていた時期がありまして、日本は世界的に見てもかなり前を行っていたのに、もろもろの事情で頓挫してしまったという経緯があります。

現在では自然言語処理と言うとテキストマイニング等に代表されるような、大量にデータを突っ込んで統計的に処理してしまうような研究が主流ですが、文章の意味理解に対する研究は“まだまだこれから”という未来の技術ではなく、もう過去にある程度やり尽くされていて、(文章の表層的なレベルよりはもう少し深いレベルでの意味理解が当時のプログラムでも出来ていたように私は思うのですが)当時に計算資源が乏しくて出来なかったことにチャレンジするところあたりから始めなければならないのでしょうけど、そのための人手(研究者)が足りていないと私は感じています。

ベイジアンばっかりやっている人達(←偏見?)が、早く戻ってきてくれると良いのですが…。

yaneuraoyaneurao 2012/02/12 01:10 いま本文読み直したら、どうも書き方が悪いと思ったので以下の部分を訂正。

誤) 自然言語処理はなかなかお金にならない分野で、研究者も少なく、進歩も遅い
正) (自然言語処理自体の研究者は掃いて捨てるほどいるが)意味を理解するプログラムを作る研究に従事している研究者は少なく、その分野は成功すれば“金の成る木”なのだが、まだまだ“金の成る木”にはなっておらず、この分野は労多く、茨の道で、進歩も遅い。

yaneuraoyaneurao 2012/02/12 01:12 ↑に基づき、本文を少し修正しました。

金のなる木ですか金のなる木ですか 2012/02/12 09:37 法律を扱う業界、特に特許方面では簡単に金になりますね。
意味解析までは必要なく、まともに構文解析ができれば価値があるのですが、特許情報フェアあたりにいってもまだそういう製品が見られないです。
実用化されてるのだと単純検索レベルですね。
でも、そういうのが流通すると、対策として明細書を難読化するテクニックが流行するのかもしれません・・・

研究者レベルの何かは適正の問題でなげちゃった末端コーダですが、何か面白いものが出てきたら世の中にアプリとして投げ込む部分にはかかわりたいです

bbbb 2012/02/13 22:19 そのまんまAI研究について同じことが言えそうな感じのことですよね
メイドロボがいつ出来んねん的な…

かたつむりかたつむり 2012/06/13 15:37 全自動の2chまとめ作りましたよ。http://blog.livedoor.jp/katatsumuri2261/

ぐはぐは 2012/07/13 05:41 文章を粗視化してクラスタリングしたデータベースと照合して意味を拾って構文規則に基づいて再構成した文章だと人が要約した文章になるという方針で設計すれば可能かな。

 | 

人気blogランキング
1900 | 01 |
2004 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2005 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2006 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2007 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2008 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2009 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2011 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2012 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2013 | 01 | 03 | 04 | 05 |


Microsoft MVP
Microsoft MVP Visual C# 2006.07-2011.06