| 書籍化されたで! | 監修したで!(`ω´) | 絶版なってしもた | 大好評発売中です! | 少し書いたデ!(`ω´) | これにもな!(`ω´) | |
|
|
|
|
![]() |
![]() |
| YaneuLabs / YaneuraoGameSDK.NET / 掲示板 / やねうらおにメール / twitter / プロフィール |
『日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。
http://d.hatena.ne.jp/tkng/20120203/1328248554
以下、どうでもいいことをつらつらと。
最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。
例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的にお金を生み出すことは自明なのだが、現代の自然言語処理の技術はそんなレベルには全く到達していない。
「テキスト自動要約」についての専門書として「テキスト自動要約」(asin:4274200426)と「自動要約」(asin:4320120736)とが挙げられるが、前者はさわり程度のことしか書いていないし、後者もいささか内容が古すぎる。(2003年に出版された本だ)
正直言うと実用には程遠いと思う。こんな本を数冊読んだぐらいで実用的な自動要約のプログラムが書けるならば、いまごろとっくにWebは自動要約で生成された文章で溢れている。そうなっていないのは自動要約の質が低いからだ。
また、上の二冊ぐらいしか自動要約の本が出ていないのは、この分野に大きな進歩がないことと、人気がないことも示唆している。自動要約が“金の成る木”であることが自明であるとしても、まだ“金の成る木”レベルの自動要約のプログラムは誰も作れておらず、それゆえ、現状ではほとんど金にならないからである。
日本語文章の自動要約の場合、その自動要約の礎(いしずえ)として、まず日本語文章のparse(かな表記になっている部分を適切な漢字に変換したり)が必要になるが、それはIMEで使われている技術にも共通するものがある。GoogleやPFIのような先見性があり目先の利益にとらわれない企業が、IMEの開発や自然言語処理に注力するのは、当然のことである。
ちなみに広辞苑の辞書データは(画像や音声ファイルを除き圧縮すれば)50MBにも満たない。意味情報をいろいろ持たせるとしても日本語の知識に関して言えば10GB程度あれば十分収まるのではないかと思う。つまり、いまどきのPCならばオンメモリで処理できる。ハード的な制約から日本語を理解するソフトウェアが書けないという時代はとうに過ぎ去っており、いまはソフトウェアの進歩のほうが遅れをとっているのが自然言語処理の実状なのではないだろうか。近年の機械学習の分野の進歩は目覚しいものがあるので、そういう結果を利用すると自然言語処理はもっと発展するのではないかと私は思う。
ともかく、自然言語処理のうち意味理解をするようなプログラムはなかなかお金にならず、研究者も少なく、進歩も遅いのが実状なのだが、優秀な研究者にこそ、こういう道無き道を切り拓いて行ってもらいたいと思う。

ステマ騒動以来色々いじってはいたみたいですが。
だから糞レスばかり抜いてきててまとめの意味を成してないんですね
お陰様で昔の熱い気持ちを思い出しました。ありがとうございます。
やっぱりどちらかというと、日本語の構文解析的なロジカルな研究が進む方が一歩未来をいける気がするんですが、なかなか難しそうですね。
Google IME自体のファイルサイズは50MB以下です。そのデータを作るために、機械学習などをさせる場合には、そのときにワーキングメモリーはふんだんに必要になるでしょうけども、それはまあそこそこ並列化できるでしょうから、たくさんのPCを用意してやってしまえばいいのではないかと。
ってのは無いですか…。
http://d.hatena.ne.jp/mamoruk/20101119/p1
錬金術目当てに研究するには次辺りに見えてるハードルが高すぎるのではないかと思います。
錬金術になるレベルで「文章」から「意味」を拾うには、いわゆるSFの人工知能並に柔軟なエンジンが要求されるのではないかと。
(文学や芸術を含んでしまうので)文章の解釈は表層的な分析では完結できないって事は自明だと思いますが、表層で完結出来る範囲が思ったよりも狭くって、だから下火になったというかそういう背景があるんじゃないでしょうか。
現在では自然言語処理と言うとテキストマイニング等に代表されるような、大量にデータを突っ込んで統計的に処理してしまうような研究が主流ですが、文章の意味理解に対する研究は“まだまだこれから”という未来の技術ではなく、もう過去にある程度やり尽くされていて、(文章の表層的なレベルよりはもう少し深いレベルでの意味理解が当時のプログラムでも出来ていたように私は思うのですが)当時に計算資源が乏しくて出来なかったことにチャレンジするところあたりから始めなければならないのでしょうけど、そのための人手(研究者)が足りていないと私は感じています。
ベイジアンばっかりやっている人達(←偏見?)が、早く戻ってきてくれると良いのですが…。
誤) 自然言語処理はなかなかお金にならない分野で、研究者も少なく、進歩も遅い
正) (自然言語処理自体の研究者は掃いて捨てるほどいるが)意味を理解するプログラムを作る研究に従事している研究者は少なく、その分野は成功すれば“金の成る木”なのだが、まだまだ“金の成る木”にはなっておらず、この分野は労多く、茨の道で、進歩も遅い。
意味解析までは必要なく、まともに構文解析ができれば価値があるのですが、特許情報フェアあたりにいってもまだそういう製品が見られないです。
実用化されてるのだと単純検索レベルですね。
でも、そういうのが流通すると、対策として明細書を難読化するテクニックが流行するのかもしれません・・・
研究者レベルの何かは適正の問題でなげちゃった末端コーダですが、何か面白いものが出てきたら世の中にアプリとして投げ込む部分にはかかわりたいです
メイドロボがいつ出来んねん的な…