Hatena::ブログ(Diary)

shi3zの長文日記 RSSフィード Twitter

2016-10-01

AI蒸留とPhotorealisticとイラスト 09:56

 蒸留ヤバイ

 楽しい

深層ニューラル・ネットワークの効率を劇的に上げる「蒸留」 - WirelessWire News(ワイヤレスワイヤーニュース)

【ヤバイ】ニューラル・ネットワークは本当に蒸留できるのか!?実験してみた【機械学習】:電脳ヒッチハイクガイド:電脳空間カウボーイズZZ(電脳空間カウボーイズ) - ニコニコチャンネル:生活


 これってどういうことなのかなーと思うと、要するに人間もなにかを最初に覚えるときはかなり頭をつかうわけですよ。


 で、慣れてくると反射的にパッと答えが出るようになる。

 かけ算の九九とか、県庁所在地とかね。

 そしてオレはどちらも覚えるのが苦手だった。


 そういう、丸暗記みたいな勉強がとてもくだらないと思えてしかたなかった。

 蒸留が示すのは、丸暗記は実際にくだらなかったという話である。



 最近、知能について考える。まあそれが僕の仕事だから当たり前なんだけど、よくよく考えを重ねていくと、なぜワンピースの登場人物が爆乳ばかりなのか分かってきた気がする。



 僕はコンピュータグラフィックスをずっとやってきた。

 特にリアルタイムのレンダリングに関しては専門家である。


 CGの研究所を設立したくらい、コンピュータグラフィックスには思い入れがある。


 さて、コンピュータグラフィックスの世界では、これまでずっと「写実的」な手法を主流として開発してきた。

 この「写実的」というのは、要は「写真みたいなリアリティ(Photorealistic)」な表現を意味する。


 さて、では写真はどうか。

 僕は写真もやる。趣味としてだけど、たまに仕事でも写真を撮ることがある。


 写真は真実を写すと書くが、それはウソであることはよく知られている。

 写真を撮るアングルやフレーミングによって写真の与える印象はぜんぜん変わってきてしまう。

 

 たとえばかなり胸が大きい女性を写真で撮影しても、大きく見えないことがある。

 その逆に、かなり胸が小さい人であっても、撮り方によっては大きく見せることもできる。


 化粧も似たようなもので、人間の認知を騙すために女性は顔に化粧をする。

 

 さて、ところで絵はどうだろうか。

 先日、長年の友人である安倍吉俊に、久しぶりに会って改めて話をしてみると、僕はこの10年ものあいだ、安倍吉俊の言っていることをなにひとつ理解してなかったことに気づいてしまった。


 絵を描く人、というのは根本的に違うものの見方をしている。

 安倍吉俊は絵がまるでかけない段階で漫画家のアシスタントになって、必死で絵を覚えたという。美大の予備校に通い、ひたすら石膏デッサンをやった。


 石膏デッサンのコツはマシーンになることだ、と安倍吉俊はいった。

 感情を入れず、ひたすら写真のように書くのだと。


 つまり、フォトリアリスティックな画法を石膏デッサンによってマスターするのである。


 さて、安倍吉俊の絵を見るとデッサンは確かに狂っていない。しかし、当然ながら、そこに描かれる人間は写真のようには見えない。


 前々から、なぜ人は二次元の絵に描かれた存在に心をときめかせるのか不思議だった。

 そして、少年漫画と少女漫画の線の数や表現の数の違いが謎だった。少年漫画を読み慣れた人間が少女漫画を読むと、線が少なすぎるように感じる。今の少女漫画は知らないけど。


 少年漫画はざっといえば黒っぽい

 少女漫画は線が少ない。


 エリア88は絵柄は少女漫画の少年漫画だ。


 そしてふとタイムラインを流れてきたアニメ風初音ミクを見た。

https://pbs.twimg.com/media/CFGLHK9UUAEgjLE.jpg

Unityでのアニメ風表現設定ノウハウ


 グッと心をつかまれてしまった。これはヤバイ。

 いますぐ会社に行って、アニメ風のミクたんとhtc Viveでデートしたい。


 今まで初音ミクに対してあんまりそういう気持ちになったことがなかった。

 なぜなのか知らんが

 うーむ。

 どうしてなのか。

https://pbs.twimg.com/media/CFNgVtiUEAAWTKl.jpg

 なんとアニメ風にするにはテクスチャをわざとフラットにするらしい。

 なんということだ。

 情報量を自ら削るなんて!

 そして削った情報が美しいなんて!


 そこでようやく安倍さんのやってることがわかって来た気がした。

 人工知能の研究で、安倍さんに手書きでポットを塗ってもらった。こちら側で用意したティーポットの線画に、安倍さんがデジタイザーペンで色を塗っていく。


 緑色で塗り始めた安倍さんは、影の表現として茶色を使い始めた。濃い緑色でも黒でもなく茶色を選んだことに僕は仰天した。


 「どうして茶色なの?」


 「あのね、色を塗るときっていうのは、ただ目の前のものに色をつけるわけじゃないんだよ。これまでに見てきたすべてのポットのイメージが僕の頭のなかにあって、この形ならなんとなく緑色で、さらにいえば、ポットというのは空中に浮かんでいるわけじゃない。だから、だいたいは木のテーブルのうえに置かれている。木の表面の茶色がポットに映り込むから、茶色を使うんだよ」


 ガツンと頭を殴られたような衝撃だった。


 これはコンピュータグラフィックスの世界ではカラーブリーディングという現象で、ラジオシティ法やレイトレーシングで得られる映像の特徴として知られている、そして僕の設立した研究所、UEIリサーチの西田所長こそが、ラジオシティ法の発明者である。


 そしておおよそこういうことなのではないかという考えが浮かんできた。

 つまり人はなぜ絵に強く惹かれるかということである。


https://i.gyazo.com/3fa04bfa60bd4c88fb3d71cbba14bf21.png


 たとえばりんごを示すとき、写真のりんごでもイラストのりんごでも、その目的は「りんご」ということを伝えることである。


 りんごには個体差がある。写真の場合、りんごの個体差の情報がそのまま残って被験者に伝わる。

 イラストの場合、個体差が打ち消されて抽象化された概念としてのりんごが相手の脳を直接刺激する。


 ここではネットでみつけた「いかにもりんごらしいりんごの絵」を例に出したが、りんごの場合、情報量を減らしたほうがむしろ被験者はストレスなくりんごをりんごと認識できる。


 写真のりんごの場合、情報量が多いので、被験者は自分で情報を整理しなければならないのに対し、イラストの場合は情報量が少ないのでそのぶんダイレクトに創作者の意図が伝わる。

 

 写真といえど誰かが撮影したものなので、そのカメラマンの意志が反映されているはずだが、その意志がりんごという概念だけを伝えたいのか、それともこの個体としてのりんごの魅力を伝えたいのか、その場合、どこに注目すべきなのかがわからず、ただイラストを見る場合に比べて被験者は混乱する。



 さて、まあしかしりんごの写真を見ても普通の人はりんごとしか思わないだろう。りんごに特別な思い入れがある人は珍しいからである。


 ではこれが女性のイラストだった場合はどうか。

 このブログの読者の大半が男性であるという前提に立つとして、いやまあ女性も一緒かもしれないけれども、人間が最も気になるのは女性の胸である。


 女性の胸が好き、というのは万国共通の事象であり、胸が小さいのが女性のコンプレックスであるということも、基本的には万国共通している。


 なぜそうなのか。

 それは当たり前だが、子供の頃、誰でもお母さんが好きだからである。

 そしてお母さんの象徴は胸なのだ。いや、違うかもしれないけど。


 男女問わず女性の胸が好き・・・これは我々人類のDNAに刻み込まれた、生きるための本能なのである。だって最初に食べるべきご飯なんだから。好きでいいんだ。堂々としよう。とりあえず。


 さて、胸の大きい女性と話をするとき、どうしても相手の胸を見てしまう現象を男女問わず経験したことがあるに違いない。見てはいけないと思いつつも見てしまう。それくらい、胸の印象は大きい。


 だから逆に、僕は胸の大きい女性と会話するのが苦手である。見ちゃうから。見ちゃう自分が恥ずかしいから。なんなんだこのブログ。なにを告白してるんだ僕は。


 さて、イラストにするとき、女性の胸の大きさは実際の大きさ以上に脳内で存在感を放っているはずである。実際の縮尺に忠実に絵を描くと、イラストにしたときに胸が大きく見えない。


 「違う、オレは胸の大きい女性の魅力を表現したいんだ」と思えば、自然と胸を大きめに描くことになる。そうしないと良さが表現できないからだ。


 そうして強調されたプロポーションは「あんなの現実にいるわけないじゃん」という絵になる。ところが、それでちょうどいいのだ。このイラストにとって重要なのは現実にいることではなく、脳内にある魅力的な女性を見て発火するニューロンが興奮することなのだから。


 むかし、とある映像作家と話をしていた時に「あの監督は脚フェチなんだ。だから全カット必ず女性の脚が入ってる。そのせいで演技が小さくなってよくわからん映画になるんだ」と言っていたことをふと思い出した。


 ワンピースの登場人物は脚が長い。胸もでかいが脚も長い。ついでに目もデカイ。目が人に与える印象もとても強いからだ。だがそのほうが魅力的に見える。


 僕は月が好きだ。

 子供の頃から、天体望遠鏡で月を眺めるのが好きだった。

 

 月はいつも大きく見える。

 それで旅先ででっかい月を見た時に、これを写真に撮ろうと思うと、これがぜんぜん、上手く撮れない。


 ものすごくちっちゃいのだ。

 僕の心にあるのはでっかい月だ。

 けれども写真に映るのは、正確な縮尺としての月だ。


 映画の場合、こういうときに簡単にウソをつく。

 

https://i.gyazo.com/5fee425f4e405df660c77fbc69de8b25.png

https://www.youtube.com/watch?v=YWjF9UNu0gw

 enchantMOONのプロモーションビデオに出てくる月は、実はVFX合成だ。

 こんなにタイミングよく月がここから見えるわけないし、そもそも実際の縮尺では月はこんなに大きく映らない。


 僕はできあがったあとでこれがVFX合成だときいて仰天した。なにしろもの凄い低予算だったのだ。なのにそこまでするのか、と思った。


 映像の人はこういうウソを平然とつく。

 この手の話が一番得意なのは、よく考えたら樋口真嗣監督である。


 シン・ゴジラの庵野総監督、樋口監督が館長、副館長を努めた特撮博物館には、特撮に使われるさまざまな道具やテクニックが展示されている。今年のニコニコ超会議にもちょっとだけ出展されていた。


 僕が驚いたのは、巨大感を出すため、わざと縮尺を歪ませて作られたマイティジャック号とか、ウルトラマンの変身ポーズが実際にはかなり歪んだへんてこな縮尺で作られていることだった。


 そう、特撮映画は、そもそも最初から「ウソ」の絵作りを真面目に作り込むことからスタートしていたのだ。というか、その大専門家が身近に居ながら、その本当の凄さをなにも理解していなかった自分に絶望した。


 そういえば「のぼうの城」のとき、手篭めにされた村の女を演じる尾野真千子に「いつもの二倍のパットを入れろ」という指示をだしてた、みたいな話がパンフレットかなんかに載っていた。


 たしかになぜだかわからないが、画面にすると小さく見える。

 


 そして今ボクは、写真は正しくないのだということを改めて思い知った。

 そこに知能の秘密があるのではないか。


 そんなことを考えている。

 今日このごろ

2016-09-29

「よくわかる人工知能」 発売一ヶ月前ですがAmazonランキングで1位に(PC/ITジャンル) 09:32

https://i.gyazo.com/2e9b731167481f8d159e8c1cc51c4da5.png


 こ、これがよくわからないっていうことなのか。

 まだ売ってない本が1位。世の中にPC/IT関係の本は存在してないのでしょうか。


 お陰様で新刊「よくわかる人工知能」がPC/ITジャンルで1位になりました。もちろん人工知能ジャンルでも1位です。


 やっぱりあれなんですかね。

 みんな、人工知能について知りたくなってきたというか

 知らないといけない気がしてきたというか。

 そういう感じなんでしょうか。


 今回の人工知能に関する動きをたまに「第三次人工知能ブーム」と呼ぶ人も居ますが、今度ばかりは完全に「人工知能の実用化に成功」と呼ぶのが正しいかと思います。


 その思いが益々強まりました。


 地味な話なんですけど、2003年に今の会社を設立するときに、定款に「人工知能の研究開発」と入れておいたんですよ。まあその頃はここまで人工知能が実用的になるとは思ってなかったんですけど、いずれそういう時代が来るんじゃないかという、なんとなくの予感ですかね。まあ税理士に勧められたんですけど。


 その後、セマンティックWebを実現するためのメタデータ管理をするためのCMSとか、Twitterへの投稿からあるトピックに寄せられた感情を分析するエンジンとか、ブログを読んで評論文を書くジョークサービスとか実は地味にいろいろ人工知能っぽいサービスを作ったりはしてはいたんですけど、その時点で「人工知能やってます」とは、やっぱりちょっと、言いづらかった。


 ところが今や僕の仕事の100%が人工知能になってしまった。

 最近たまに聞かれるんですけど「なんで人工知能やってるんですか?」って言われた時に、「え、だって一番おもしろいからですよ」と言ってもなかなか信じてもらえない。あ、そうそう、エンジニアもですが、営業職やアシスタントも募集してます。求人情報には出してないけど。(興味のある方は http://uei.co.jp から)


 世間はVRに熱中してるかもしれないけど今流行ってるVRはあくまで表現手段のひとつであって、本質的には違うわけです。むしろVRとAIっていうのは相互作用して高め合う性質がある。けれども、VRはVRとして既存のゲームだとかCGだとかの価値観のうえに構築されちゃってるわけですね。


 だから「なんでこの人、最近は人工知能の話ばっかりしてるんだろう」と思う人にはぜひ読んでいただきたいですね。僕がどうしてこんなに夢中なのか、よくわかっていただけると思います。これほど面白い世界は、他にちょっとないんですよ。実は。


2016-09-28

「よくわかる人工知能」お陰様で発売前ですがAmazonランキング3位に 18:30

https://i.gyazo.com/3d914c47310e29221db5fe132fb9d9aa.png

 昨日紹介した新刊「よくわかる人工知能」ですが、お陰様で既に発売一ヶ月前の段階で販売数がAmazonの人工知能ジャンルで3位に来ました。ありがとうございます。


 いつものように発売直後は売り切れる可能性があるので、お早目に予約いただくとお得です。

 また、Amazonだと、なぜか予約すると10%引きで買えますのでこちらもお得になっております。


 今回も直球のタイトルなわけですが、今回のタイトルは揉めに揉めました。

 もともと本書の企画は今年の四月頃でした。

 アスキーのイトー君といつものように酒を飲んでいるときのこと。


 「最近清水さん人工知能にハマってるけど何が面白いの?」


 「え、なにいってんの?松尾先生の本読んでないの?」



 「いや、読んだよ。読んで、面白いなあって思ってはいるんだけど、それが実際にどんな感じで役に立つのかっていうといまいちよくわからないなあと思ってさ」


 「まああの本も今となっては一年半前の内容だからね。今はもっとずっと進んでいるよ。毎日5〜20本の論文が発表されているんだぜ」


 「そんなに凄いの?どんなことができるのさ」


 「いやまあ、いろんなことができるよ。僕はね、人工知能が僕より賢くなる日はすぐ来ると思う。いや、ひょっとすると、既に僕より賢い気がする」


 「ウソウソ。マジで?そんなに来てんの?今」


 「来てる。みんな気付いてないだけだよ。だってさ、AlphaGoがイ・セドルに勝った話だって、もうたいていの人類は人工知能に思考ゲームで負けるってことじゃん。おれ囲碁弱いし」


 「まあそりゃあそうだけどさ」


 「というかね、僕はコンピュータだって、実は人工知能の原始版に過ぎなかったんじゃないかって今は考えているんだ。enchantMOONが次のステップに行くためにも、どうしても人工知能はやっておかなければならない。人間の思考と機械の思考をつなぐには、人工知能のようなものがどうしても必要だと思ってるんだよ」


 「へえ、そうなんだ。それがそうつながるとは思わなかったな。じゃあそれとプログラミングはどうか関わるの?」


 「人工知能が今、僕より賢いとしても、それを使いこなすにはどうしてもプログラミングしなきゃなんないよね。人工知能のプログラミングは実はむかしよりずっと簡単になってるんだけど、それに気づいてない人がまだまだ多いからね。そして人工知能をいち早く使いこなした人が、21世紀で活躍できると思ってる。たぶんね、僕らの子供が成人する頃には、コンピュータって電卓みたいな存在になってるよ」


 「電卓?」


 「いまも電卓はあるでしょ?まあ便利だし。使うよね。でも、ある程度以上複雑な計算はExcel使うでしょ。同じように、コンピュータが残ったとしても、ワープロとかお絵かきとか、原始的なことだけ。それ以外のものはすべて単にAIって呼ぶ時代が来るかもしれないよ。きっと」


 「へえ、そんな時代が来るのかねえ・・・面白そうじゃん、ねえ、本書かない?」


 「え、イトー君、それマジで言ってるの?」


 「マジマジ。大マジよ」


 「付き合い長いけど、僕に本書かない?って言ったの、初めてだよね」


 「たしかにそうだ。いや、その本はきっと絶対面白いと思うよ。書こうよ」


 「書くのはいいけど、忙しいんだよね。200ページとかとてもとても。話はできるけど」


 「じゃあ、清水さんが今一番話を聞いてみたい人に会うインタビューで構成した本にしよう。それならどう?」


 「え、ほんと!?じゃあさ、松尾豊先生と会って話がしたいんだけど。なにしろ去年読んだ本でダントツに面白かったからね」


 「松尾先生いいね。あの本から一年して、どんなアップデートがあるんだろう」


 「それに、トヨタがけっこうAIに力入れてるよね。あともちろんNVIDIA、それてYahooJapanもいいと思う。そのへんがディープラーニングをかなり積極的にやってる企業群だし」


 「インタビューのアポとれるかなぁ。・・・でもそこらへんは絶対聞きに行きたいね。他に大学の先生とか研究者とかでは?」


 「ディープラーニングに否定的な人も必要だと思うんだよね。その意味では慶應の満倉先生がいいと思う。彼女はディープラーニングが嫌いってはっきり公言してるからね」


 「やっぱりディープラーニングがキライな研究者もいるんだ」


 「そりゃそうでしょ。それと、僕が前々から憧れていた、受動意識仮説を唱えている、慶應の前野先生。もともと心をコンピュータに実装する研究をしてる人らしいよ」


 「心をコンピュータに!?」


 「AIが意識や心を持つかという問題について、一番くわしいんじゃないかと思う。だから話を聞く価値はあるよ。それに受動意識仮説については、マクロス河森正治さんや久夛良木さんあたりも注目していて、わりと国内では信憑性があるのではないかと思われてるんじゃないかと思うんだよね。僕も支持しているし」


 「受動意識仮説って?」


 「意識は完全な幻想で、身体は勝手に動き、口は勝手にしゃべって、やってしまったことを意識が辻褄をあわせて追認するという仮説だよ。実験によって確かめられている事実から考えると確かにそれが一番腑に落ちるんだ。受動意識仮説を踏まえると、吊り橋効果もローボールテクニックもガンコジジイもぜんぶ説明できる」


 「へえ、面白そうだね。他には?」


 「あとはドワンゴ人工知能研究所の山川さん。彼は面白いよ。全脳アーキテクチャっていう、人間の脳の機能すべてをAIに実装しようという超絶に野心的なプロジェクトをやっている。世界にも類を見ないんじゃないかな」


 「そんな人がいるんだ。しかもドワンゴ」


 「あとはPEZYの齋藤さんかなあ。あの人の話はぶっ飛びすぎてて、人工知能の未来を語ってもらうにはちょうどいいかもしれない」


 「あのGreen500の上位を独占したスパコンの人ね。すげえな、全員取材依頼受けてくれたら凄いね」


 「そうでしょ。まあそこまでしてくれたら、僕も半分くらいの原稿は書くよ」


 「オッケー、まずは取材申し込みしてみる」


 数日後


 「やばい、清水さん、松尾先生のアポとれちゃったよ」


 「え、日本一忙しいと言われてる人が?」


 「トヨタも北米の人工知能研究機関のTRIの人がインタビュー受けてくれるって」


 「マジか」


 「それに前野先生もYahooJapanもOKだって」


 「やばい。みんな語りたいことあるんだなあ・・・それなら行こうか」


 「行こうよ」



 そんな感じで出来上がった本です。


 つい先週、校了が終わったイトー君が「これまでいろんな本を作ってきたけど、この本は本当に面白い。自分の人生の記念碑的な本になった」と述懐してました。


 僕個人としては、自分が気になっていることが本当に聞きたいと思っていた人たちに聞けたということと、普通自分がインタビューした記事の類は自分で読み返すことは滅多にないんだけど、この本は本当に何度も何度も読み返したくなるような、すごく魅力的な人たちにインタビューできたと思います。


 もちろんインタビューだけでなくて、本文もできるだけわかりやすく、松尾先生の本が書かれた時点で分かっていたことと、それ以降に発見された様々な事実や研究成果を解説しています。今のAIには何が出来て、なにが出来ないのか、そしてこれから先、どんなことができるようになるのか


 そういうことが「よくわかる」ことを目指して書きました。


 ぜひご予約ください。


2016-09-27

AIが切り開く21世紀のお気楽ゲームクリエイション または、私はどのようにして心配するのをやめてAIを愛するようになったか 08:38

 昨日はUnityインターハイ2016の特番でした。

Unityインターハイ2016

https://inter-high.unity3d.jp

 Unityインターハイはその名の通りUnityを使った高校生の大会です。

 中学生でも応募できるようです。

 

 応募作品を見ると、ものすごくレベルが高くて、90年代ならそのまま市販されててもおかしくないようなものが、完全に個人の高校生の手で作られていることに驚異を覚えました。

 Unityは、僕が高校時代に欲しかったツールそのものです。

 それが存在しないから、僕は3Dライブラリから作る羽目になり、中学時代のぜんぶと高校時代のぜんぶを捧げて、ようやくなんとなくポリゴンが描画できる3Dライブラリを作ることが出来ただけでした。


 ところが今は表現手段としてのプログラミングが、逆説的にほとんどプログラミングすることなしに実現可能です。


 それがUnityを始めとするゲームエンジンの世界です。



 「すげえなあ」


 と思うと同時に


 「やばい、オレたちの仕事ってどう変わっちゃんだろう」


 という不安も同時にあります。

 ところで最新のAIでは、こんなことができます。

https://i.gyazo.com/40dfbd3e3bf32d4ea49cc56054123e2f.png

https://www.youtube.com/watch?v=9c4z6YsBGQ0


 「こんな絵がほしいにゃー」と思って、適当に線を引くと、残りの部分を自動生成してくれるんです。

 まさに「空気を読むAI」とでもいうんでしょうか。


 「このへん、もっと青空広げて」と指示すると、「オッケー、こんな感じでいいっすか?」と適当に青空を広げてくれます。


 興味深いことにこのインタラクションは手書きによって与えるんですね。

 人間が意思表明をするときにいかに視覚的情報に頼っているかわかるというものです。



 さて、僕は心配するのをやめてAIを愛するようになったわけですが、要するにこれは味方につけたほうが得だぞ、ということです。


 さあちょっと想像してみましょう。いまから10年か20年後、AIを使った創作はどう変わるでしょうか。



                  *


 「ふう、今日もいい天気だな」


 ベッドから起き上がったオレは、カーテンを通して部屋に降り注ぐ陽光に目を細めた。

 顔を洗って、ジャージに着替える。


 「さーて、今日はなにしようかな」


 相変わらず、今日も特に仕事がない。

 働いたら負け。


 そんな時代がついにやってきた。

 人類はついに労働から解放されたのだ。

 あらゆる生活必需品はロボットが作り出し、あらゆる生産活動はロボットによって行われる、現代。


 ベッドの上でゴロゴロしていると枕元の端末が微かに振動した。

 メガネ型の端末だ。まあ端末の形などどうでもいい。とりあえず便宜上、メガネ型端末、enchantMOON MkXI(マーク・イレブン)としよう。

 MkXIを掛けると、ゴトーからメッセージが来ていた。

 

 「清水さん、今日ヒマっすか?」


 「ヒマだよ」


 音声入力すると完璧な日本語に変換されてゴトーに送信。MkII上ではゴトーを模した疑似キャラが入力中を意味するジャスチャーをする。


 「オレもヒマなんすよ。カミさんがコドモつれて実家に帰っちゃって」


 「そうか。んー、なんか面白いことないかなあ・・・あ、そうだ。砂漠でもいくか」


 「え、砂漠っすか!?」


 ゴトーの疑似キャラが大げさに驚く。

 まるで本人そっくりだ。


 「今からなら、12時のフライトに間に合う。よし、いくぞ、ゴトー」


 「どこの砂漠に行くんすか?」


 「決まってるだろ、ネゲヴ砂漠だよ」


 使い古しのリーバイスとナイキを履く。今やビンテージとなってしまった、人力製造(ハンドメイド)による服飾品だ。


 マンションの外に出ると、既にタクシードローンが着陸していた。


 「いつ見てもこの座席には慣れないなあ」


 コクピットのように圧迫感のある二人乗りの座席に座り、シートベルトを締めると、ドローンは音もなく飛び立った。仕組みはよくわからないがむかしのドローンからは想像もつかない静かさだ。


 ドローンには既にMkXIから指示が出ている。羽田空港に向かうところだ。

 MkXIに表示。エルアル航空、208便。抽選に漏れたのでビジネスクラスになってしまった。


 この時代、基本的に貧富の差はない。

 ビジネスクラスという名称も便宜上のものだ。いまどき、ビジネスをしているのは趣味人だけだ。

 

 純粋に抽選で座席が決定される。ポイントを使えばファーストクラスに乗れたかもしれないが。


 羽田に着くと、すでに到着していたゴトーがどでかいリュックサックを背負って立っていた。出力品(プリンテッド)のスニーカーとジーンズ。今はみんなそうだ。好きなデザインで好きな素材のものがなんでもプリントアウトできる。わざわざ生の素材を使った服など買わない。


 「なんだその荷物は」


 「ええっ。砂漠に行くんですよね。やはり装備は整えておかないと」


 「いまどきなんでもどこにいても手に入るのにそんなサバイバルグッズを持っていくのはお前くらいだ」


 ネゲヴまでのフライトはすべてが順調だった。機内はガラガラで、満室のファーストクラス以外ではビジネスクラスにはオレたちを含めて5人ほどしかいなかった。オレとゴトーと、キャビンアテンダントが3人。


 「清水さん、CAですよCA。本当にいるんですね」


 「ああ。とはいえ、趣味でやってるんだろ。コスプレイヤーと同じだよ」


 むかしの飛行機にはちゃんとした本物のCAが客室に居た。危険時の誘導や手当を行うためだ。

 しかしすべての人間が働く必要のない現代では、働くということはひとつのレジャーなのだ。


 うやうやしくサービスをしようとするCAを遮り、ドリンクバーに向かう。CAごっこをしたい彼女には申し訳ないが、オレは酒は手酌で飲む主義だ。


 ビジネスクラスのドリンクバーで酔っぱらい、泥のように眠った。

 エイラートからタクシーを拾う。

 この辺は、まだ四輪のタクシーが走っているようだ。

 とはいえこれもやはり無人タクシーだ。運転席にZMPのロゴが見える。


 やっと到着したネゲヴ砂漠には乾いた風が吹いていた。


 「いやー、来ちゃいましたね。砂漠」


 「しかもネゲヴ砂漠だからな。デスバレーとは違うよ」


 「んで、どうするんですか。砂漠に来ましたけど」


 「ん。とりあえず酒でも飲むべ」


 ゴトーが持ってきたレジャーシートを敷いて、空港で買ったアラックという安い蒸留酒をストレートで煽る。


 「砂漠っていいなあ。どこまでも広いんだぜ」


 「そうですねえ」


 見渡す限り誰もいない。


 「よーし、いっちょ砂漠をテーマにしたゲームでも作るか」


 「へえ、どんなのですか」


 「それをこれから考えるんだよ」


 MkXIはメガネに搭載されたAR機能で砂漠にゲームの素案を描き始めた。

 もちろんMkXIがその場で勝手に考えたものだ。


 「えー、砂漠で巨大ボーリング?んー、それも面白いけどちょっとイマイチだなあ」


 オレのMkXIに浮ぶARは、ゴトーのMkXIにも同期する。


 「えー、けっこうボーリング楽しい気がしますけどね」


 「もうひとひねりほしいなあ。もっとオレならではっていうやつが」


 するとMkXIは砂漠に巨大な金属の筐体を描き始めた。

 

 「なんだこれは」


 MkXIのモードがVRモードに切り替わり、実景が全て消え、VR空間上に再構築されたネゲヴ砂漠が表示される。あまりにスムーズな表示に、切り替わったことに一瞬気づかなかったが、次の瞬間、身体がフワッと浮かぶ浮遊感。VR空間を飛んでいるのだ。しかし身体感覚としては地面に足がついているのがわかる。

 

 「こ・・・これは・・・」


 ゴトーは絶句した。

 オレも言葉を失った。


 そこにあったのは、全長120メートルはある、戦艦大和のような超弩級サイズの、炉端大将だった。


 「砂漠で巨大炉端大将ゲーム・・・ですか」


 ゴトーは呆れたように言う。


 「悪くない」


 オレがそう言うと、MkXIが赤いインディケータをチラチラと瞬かせた。まるで喜んでいるように思えた。


 この時代になっても、いや、なったからこそ、AIは必要とされなければしゃべらない。

 AIが喋り始めると人間が疲れるからだ。AIはごくわずかな接客用のものを除いて自ら喋ることをしない。もちろん、聞けば説明してくれるが、聞いてもわからないし、分かってもどうにもならないから今の時代、誰もAIに理由の説明を求めないのが当たり前になっていた。


 「この巨大炉端大将で、超巨大ステーキを焼いたら楽しいぞ、きっと」


 オレがそう言うと、アフリカゾウティラノサウルスが出現した。


 「いいっすね」


 ほろ酔いのゴトーが、へんな目つきで腰を落とすと、ゴトーの手には白く輝くツーハンデッドソードが握られていた。


 「おまえもアナクロな趣味をしてるな」


 僕も同じように剣を構えるポーズをすると、ライトセーバーが起動する。

 ゴトーと僕がティラノサウルスとアフリカゾウをあっさり倒すと、その肉が炉端大将に載せられた。


 「これは現実にはできない迫力だな」


 「そうっすね。壮観っすね。ある意味」


 「このゲームで重要なのは、肉の内部に火が通るかどうかなんだよな。しかしどんな味がするんだ。ティラノサウルス」


 「ところで清水さん、これ、ゲームだから実際は食えないじゃないですか」


 「あ、そうか・・・忘れてた」


 あまりにもリアルな画像に、これがVR空間の中であることをすっかり忘れていた。ときどきそういう錯覚に陥るのは20世紀生まれ特有の現象らしい。


 「んー、このゲームちょっとイマイチっすね」


 「そうだな。もうちょっと考えるかあ」


 「砂漠でプログラミングってのはどうですか?」


 「どんなの?」


 するとMkXIは、突然炉端大将と塊肉を消滅させ、巨大な黒曜石の直方体を出現させた。


                  *


 AIが切り開く世界で本当に10年〜20年で労働がなくなるかというと、まあさすがに難しいとは思いますが、AIを使った作品制作というのはこのくらい簡単になる可能性があります。


 そのとき要求されるのは、技術というよりも、「いかに人を楽しませるか」という純粋にエンターテイナーとしての能力に変わっていくでしょう。今でも求められていなくはないのですが、今はまだ技術的ハードルの方が高いわけです。それでもUnityは非常に簡単なツールとアセットストアという強力な仕組みによってほとんどプログラミングせずに高度な作品を実現できる土壌が揃っています。


 創作というものが仕事のためにやることというよりは楽しみのためにやることに変わっていくでしょう。

 ディレクターだけが残り、他のすべての作業者はAIに置き換えられるはずです。もちろん、超一流の職人はそのまま残っていくのだと思いますが。


 今のAIについて、知れば知るほど夢は膨らんでいきます。

 

 「そんなもの眉唾なんじゃないの?」


 と思う人は、まず学んでみたらいいと思います。そのときにAIのプログラミングそのものを学ぶ必要はあまりなくて、AIの仕組みを知り、それに実際に携わっている人たちがどういう目線で物事に当たっているかを知っておくことは決して損ではないと思います。


 というわけで、昨年「人工知能は人間を超えるか」が大ベストセラーになった東京大学の松尾豊先生を始めとして、トヨタ、NVIDIA、YahooJapan、などなどで実際に人工知能研究の最先端にいる人達にインタビューをしながら、最先端の人工知能はどこまでできるのか、このあとどこまでできることが期待されているのか、人工知能について今わかっていることとわかっていないことをまとめた本がようやくできあがりました。

 

 Amazonにまだ書影が出てませんが、こんな感じの本です。

https://i.gyazo.com/3d914c47310e29221db5fe132fb9d9aa.png


 今Amazonで予約すると10%引きで買えます。

 全300ページ以上で、たぶん僕の書いた本の中では最大の大きさを誇ります。内容は、人工知能を全く知らない人でも、最先端の話がどうなっているのかわかるように解説しつつ、要所要所で専門家へのインタビューやディスカッションを挿入するというなかなか珍しいかたちの本です。


 購入者対象の出版記念イベントも企画していますのでぜひお早めにご予約ください

2016-09-26

どこに何が写ってるのか分かる人工知能 FasterRCNN勉強メモ 08:25

 FasterRCNNというのがある。

 単純なCNN(Convolutional Neural Network)畳み込みニューラル・ネットワーク)のように「この写真は何の写真?」ということに答えるのではなく、「この写真のこれは何でそれは何」と答えるニューラル・ネットワークである。


 もともとRCNNというのがあって、これはめちゃくちゃ遅かった。

 次にFastRCNNというのが発明されて、これは少し早かったけどリアルタイム処理は難しかった。


 さらに高速で、まあ気合を入れたらもしかしたらリアルタイムでもいけるかも?というのがFasterRCNNである。


 これまであんまり仕事に使ってこなかったんだけど、どうも最近の案件はFasterRCNNを使ったほうが良さそうなものが増えてきて、まあさもありなんという感じである。


 そもそもRCNN自体あんまり使ってなかったのでお勉強がてらソースコードを読んだり改造したりする。

 まあただ使うだけなら、例によってすぐできる。





 Chainer実装の方がCaffe実装よりも使いやすいのでこれを出発点としてFasterRCNNを見てみるとする。


 とりあえず適当な写真を見せる。


https://i.gyazo.com/74ef73829fda3757c2f4cd080b0738df.png


 日比谷シャンテゴジラ像である。

 さあこれをFasterRCNNに見せるとどうなるか


https://i.gyazo.com/352a9ceb4b32c152a4f5b0fc5f70e031.png


 バーン、ちゃんとどこに何があるのか認識してくれるのである。やったね。


 さて、ところが一つ問題がある。

 FasterRCNNが見つけ出せるものは基本的に「既に知っているもの」しかないということだ。


 つまり、自分の求めるものを見つけさせたい場合は、自分でトレーニングする必要がある。

 写真をただひたすら放り込めばいいCNNのトレーニングと違ってFasterRCNN(というかRCNN)は目的がはっきりしていないと学習用データセットを用意するのもしんどいのである。


 さらにいうと、先のChainer実装にはトレーニングが実装されていなかった。

 ので、自分でトレーニングを実装する必要がある。


 するとFasterRCNNにどのようなデータを突っ込めばいいのかわからないと訓練しようがないのでFasterRCNNの構造を学ぶ必要がある。


 まず、FasterRCNNの全体構造を見てみる。

https://i.gyazo.com/2eadbe93c97cece3357db8ced3d03a3d.png


 新しいタイプの嫌がらせのように細かい図になってしまう。全貌はこちらのページを参照 → https://raw.githubusercontent.com/wiki/mitmul/chainer-faster-rcnn/images/Faster%20R-CNN.png

 まあでも丁寧にみればそんなに複雑でもない。

https://i.gyazo.com/b1de415d504f94591b0735a0c7b4ee09.png

 通常のCNNと違い、どんな解像度の画像でも放り込めるようになっている。

 VGG16(というCNN)を前段に配置して、途中で特徴を取り出す。

 relu5_3をバイパスして最後のROI(Regions of Interest;興味のある領域)プーリングに直接突っ込む。

 https://i.gyazo.com/e213d29696eaae7b0129af82d4082bcc.png

 rpn_relu_3x3以降は特徴マップを整理して、最終的にできあがったものをすべてプロポーザルレイヤーに突っ込む。

https://i.gyazo.com/790f3b7bad4c9399ef0879c82a50ba1f.png

 プロポーザルレイヤーではなにをしてるのか。

 いんだよ細けえことは。

 とにかく、特徴マップから「このへんがいいんじゃないの?」というROIを探す。探したROIは300箇所に及ぶ。

 つまり300のROIが得られる。


https://i.gyazo.com/61aeeda46a75462ecf4063b5e3553cb6.png

 次に、さっきバイパスしたrelu5_3とプロポーザルレイヤーで得られた結果を合成する(ROI Pooling)

 そのあとは、なにかちょっと安心感のある全結合層を使ったスコア推定と領域推定。

 最後に個別のスコア(cls_score)と、個別の領域予測(bbox_pred)を出力して終わり。

 ところでプロポーザルレイヤーだが、プロポーザルレイヤーの出力だけ見ても基本的にぜんぜんダメすぎてビックリする。ちなみにプロポーザルレイヤーは300もの領域を提案する。

 これほぼランダムなんじゃないの?という勢いでダメである。こんなに複雑な計算をしてるのに!


 そこでわりと絶望的な気分になるのだが、捨てる神があればなんとやら。どうも最後の全結合層でなんとかしてるらしいのである。


 せっかくなので可視化してみた。 

https://i.gyazo.com/ed7191ffacc1b1c7b813bc825e1efda4.gif


 青い四角がプロポーザルレイヤーの推定、水色が全結合層経由で得られたbbox_predである。わりと凄いよね?

 ちなみにさっきの図の最後のところは若干間違ってるというか省略されているらしく、実際にbbox_predで得られるのはプロポーザルレイヤーが提案した300あるROIそれぞれにつき21クラスがどこにあるかという推定になる。この推定がいかにテキトーかは、みればわかるだろう。乱数で与えてるんじゃないかと疑ってしまう。


 つまり、(あくまでここで示しているモデルの場合)FasterRCNNで識別可能なのはひとつの画面につき1クラス最大300、合計21クラスまでということだ。まあそれならそれで充分じゃないの?という気もするけど。


 なるほどなあ。

 ソースコードを追いかけると性質がよくわかるなあ


 まあこれを目的に応じてカスタマイズすればいいわけだね

 ちなみに現状だと

https://i.gyazo.com/a7c27bad6cce90f233bfbebd2f994240.gif


 文字だけのものはうまくいかないようだ。