Hatena::ブログ(Diary)

shi3zの長文日記 RSSフィード Twitter

2015-05-15

人工知能は今、なにができるようになったのか 06:57

 現在、第三次人工知能ブームが起きている。


 これまで第一次、第二次の人工知能ブームはどれも失敗に終わった。

 人類は幾度も人工知能を作ろうと挑戦し、幾度も失敗した。


 しかし、成果がなかったわけではない。

 人工知能を研究することは人間の知性を研究することとほとんど一緒だ。


 人工知能を作るために研究された方法論は様々なところに応用されている。

 たとえば手書き文字認識や音声認識、検索エンジンや迷惑メールフィルター、はてはGunosyやSmartNewsなども、広義の人工知能研究の成果を応用したものと言えなくもない。


 そして第三次人工知能ブームは、深層学習(ディープラーニング)というブレイクスルーとともに広がっている。


 実は将棋でプロに勝つ人工知能やIBMのワトソン、AppleのSiriのような人工知能は、知能そのものとしては第二世代の人工知能である。


 例えばSiriは音声認識をし、自然言語を解釈するが、音声認識は第一世代の人工知能の応用技術であり、Siriの自然言語解釈は人工知能とは呼べないレベルのものだ。


 たとえばSiriに「愛してる」と言うと「他のApple製品にもそう言ってるんでしょ」と返される。

 これは素人を「おっ」と驚かせるが、Siriがユーモアを解釈したり作り出しているわけではない。その裏側にいる人間がそのセリフを書いているだけだ。いわばシーマンと同じような仕組みであり、第一世代の人工知能研究の際に人工知能とは別の、人工無能としてしばしば作られたジョーク・ソフトと同じ仕組だ。


 今、注目されている第三の波、ディープラーニングはこれまでの人工知能とは一線を画する。


 これまでの人工知能は、ごく表層的なパターン認識や、記号化された情報を扱うことしか出来なかった。

 そして「この情報を読み解く鍵はこういうところですよ」と人工知能にパターンの読み解き方を教えるのは人間だった。


 たとえばコンピュータ囲碁の場合、最初は「こういう盤面は優勢」「この盤面は劣勢」というように人間が判断して優勢な盤面をコンピュータに教える必要があった。しかしあるとき、コンピュータが突然強くなったのは、ある盤面が優勢か劣勢かということを判断するのに、ランダムな手を使って統計的に評価する、モンテカルロ法を採用してからなのだという。人間の経験と勘に頼るのではなく、ひたすらランダムに手を指して最後勝つか負けるかまで打ち切ることで、その手筋が統計的に見てどの程度優勢か劣勢か正確に測ることができるようになったのだ。人間が勘で「なんとなく、こう」と掴んでいることを、コンピュータは得意の繰り返し処理で泥臭いがはるかに正確な数字で「手筋の良し悪し」を判断できるようになった。


 しかし他の分野においては、この「読み解き方」の構築、特徴量の抽出方法を考えるのが非常な難題であり、また同時に、超えられない壁でもあった。


 ところがディープラーニングはこの「特徴量の抽出」つまり「情報の読み解き方」そのものを人工知能が学習によって導き出す。


 つまり、ディープラーニングは無数の情報を学習し、概念そのものを見つけ出すことができるのである。

 例えば無数の猫の画像を学習させると、ディープラーニングされた人工知能の中は、「斜めの線」「丸い線」などに対応する層と、その上の「毛っぽい」「ひげっぽい」「顔っぽい」「建物っぽい」という情報に対応する層と、さらにその上の「人の顔っぽい」「猫っぽい」という概念まで抽象化される。



 人工知能が見つけ出した概念に「それはネコだよ」とか「それは人だよ」という「記号」を結びつけるのは人間がしなければならないが、人工知能を使うことで人間が気づかない意外な法則を人工知能が教えてくれるかもしれない。




 というような話がこの本にまとまっている。

 第一次、第二次、第三次という3つの人工知能ブームを振り返り、今、一体何ができるようになったのか、これからどうなりそうなのか、という予想が書かれている本で、非常に面白かった。


 僕も個人的には人工知能に昔から注目していて、自分でニューラルネットワークを作ったり、人工無能を作ったりしていたんだけど、人工知能を現実の仕事に応用するにはいくつかの壁がありなかなかその壁を突破できないもどかしさを幾度も感じていた。


 たとえば文字認識を行うニューラルネットワークを作ることそのものはそんなに難しくないが、文字認識をするためにうんざりするほどたくさんの人々に文字を書いてもらって学習させるのはコスト的にキツい*1


 ディープラーニングは特徴を自分で見つけてくれるので、あとは学習させるための材料だけあればいい。


 本書を読むと、ディープラーニングは、「これなら仕事に使えるかもしれない」と期待させるに十分な技術であることがよくわかる。


 そしてIBMやGoogleドワンゴといった会社がなぜ人工知能研究に力を入れているのか、その片鱗も伺うことができるだろう。


 しかも専門家でなくても簡単に読めるように、数式がほとんど出てこない。


 「人工知能ってなんなんだ?」と思っている人にオススメである。


 ところで最近はこの手の「人工知能」や「拡張現実感(AR)」、HoloLensみたいな混交現実感(MR)、はてはAppleWatchのようなウェアラブルデバイスによる「人間能力の拡張」を行う技術を「HET(ヒューマンエンハンスメントテクノロジー)」と呼ぶらしい。


 昨日プレスリリースだしたけど、UEIでもVRiderというサービスを開始した。

http://gyazo.com/91cb4cc436e15ea51e7d9a425de15c2f.png


 実写のVR動画コンテンツを撮影してOculus RiftなどのHMD向けに作るサービス。

 これ、結構技術的にも大変だけど泥臭いノウハウの塊なので、高画質なVRコンテンツを作るのはけっこう難しいのだそうだ。


 実際体験してみるとかなりビックリする。

 CGじゃなくて実写なので余計にビックリするみたいだ。


 理化学研究所の藤井先生のところのSR(代替現実感)より解像度が高く、驚いた。まあ機材が新しいのもあるんだけど。



 ところで「右クリックを知らなかった女子大生」ことyunyaにenchantMOONを触らせて記事を書かせてみた。


 もしかすると彼女はそのままほっとけば一生ハイパーテキストコンテンツを作らなかったかもしれない。

 けれどもいざ作ってみたら、マルチエンディングの立派なハイパーテキスト絵本になっていて驚いた。ここまで作れるとは全く期待していなかっただけに驚きは大きかった。


 どうもenchantMOONは比較的ITリテラシーの低い女子と相性がいいようだ。


 そういう意味ではenchantMOONも広義のヒューマンエンハンスメント技術なのかもしれない。

 というか、僕がenchant.jsやMOONBlockやenchantMOONで本当にやりたいのは、どうもそういうことっぽいなあ。

http://ch.nicovideo.jp/image/ch2593192/268265/1f073275b6737c9a94171ebc62eeca549105762e.png

MOON女子yunyaのハイパー絵本づくり体験記:電脳ヒッチハイクガイド:電脳空間カウボーイズZZ(電脳空間カウボーイズ) - ニコニコチャンネル:生活

*1:だからenchantMOONは文字認識を自前でやらず、MyScriptという汎用的なエンジンに頼っているのである。あとはコストバランスの問題だけだ