Hatena::ブログ(Diary)

shi3zの長文日記 RSSフィード Twitter

2015-07-01

もうシンギュラリティは始まっているのかもしれない。 07:02


 昨日は世界一簡単なディープラーニング体験環境がリリースされてた。

Labellio - Sign in

https://www.labell.io/models/


 こう毎日のようにニュースがあると、おちおちしていられないというよりも、色んな意味で空恐ろしくなってくる。


 要するにさ、もう新しいネタを勉強する前に次のネタがやってきてしまうという状況なワケですよ。

 どうするのよ、それ、ほんと。


 シンギュラリティは「収穫加速の法則」なわけだから、まさにいま、収穫が加速しすぎてる状況と言える。むしろ幸いなのは、今のところディープラーニングで具体的な仕事をどうこうする、というのがまだあまり「発見」されていないことだ。でもこれも時間の問題だろう。


 ただ、labellioはいまのところ500MB以下のデータしかアップロードできないので、caltech256みたいな本格的なものはできないっぽい。


 あと、人気すぎてサーバーが止まってる気味。


 実際、やってみたらわかるんだけど、ディープラーニングはクラウド向きじゃない。

 と、個人的には思ってる。


 なんとなーく、「こんな感じなのかな?」と試すだけならクラウドでもいいのかもしれないけど、実際には何週間も、時には何ヶ月も学習セットをブン回してブレークスルーが起きるのをじっと待たなきゃならないから、辛い。

https://cloud.githubusercontent.com/assets/606565/7289999/1f75fadc-e946-11e4-8f52-c2f7e0e9e1fd.png

Parallel / distributed training by shelhamer ? Pull Request #1148 ? BVLC/caffe ? GitHub

https://github.com/BVLC/caffe/pull/1148


 加えて、CaffeのSLI(複数のGPU対応)はまだ開発の途上にある。

 

 SLIのメリットを活かしたければ今のところ自分でコードを書くしかない。

 convnet2(https://github.com/akrizhevsky/cuda-convnet2)は既にマルチGPUに対応している

no title

http://wazalabo.com/wp-content/uploads/2014/09/20140905_section_1_xc.pdf


 ただ、8枚のGPUを使っても実質的な性能は6倍くらいにしかならないらしい。

 これは個別に学習させた畳込みニューラルネットワークを結合するときのデータ転送のロスと考えられる。

http://i.gyazo.com/9196bad80883429c78589579bcd41dd7.png

http://arxiv.org/pdf/1404.5997.pdf


 イメージとしてはこの図がわかりやすい。

 畳込みニューラルネットワークは完全に独立して計算できるけど全結合層ではデータをやりとりしなければならないので大変、みたいな。


 2つ以上のGPUで畳み込み→1つのGPUで全結合層を計算の、計3つでやると効率良さそう(TITAN X三枚で45万円くらいかかるけど)だが、やってみないことにはなんともいえない。金かかるなあ。


 やっぱ無料で使えるlabellioは偉大だ。

http://i.gyazo.com/7fdb74c1b354af80905f3fe828188f03.png

 

 しかし141MBしかないCaltech101のアップロードがいつまで経っても終わらない。

 やっぱりサーバーの負荷は相当なもんなんじゃないかと推測。


 一緒にディープラーニングの仕事をしてるNくんたちは学生時代、同期で集まって機械学習の勉強会をやっていたらしいんだけど、その時の教科書はこれだったそうな。


パターン認識と機械学習 上

パターン認識と機械学習 上


 で、僕とCくんで書泉に行って立ち読みしてみたんだけど、こりゃアカン。難しすぎる、と思ったのと、上巻には辛うじてニューラルネットワークの話が載ってるんだけど下巻はもうぜんぜん違う方向へ行ってしまうので買わなかった。


 そもそも、信じられないくらい高い。大学の教科書としてあり得ないレベル。

 これ買わないと授業受けられないとしたら悶死するわ。


 「あんなむつかしい内容は東大生にしかわからんだろう」


 とNくんに言うと


 「いや、東大生でもわからなかったから勉強会してたんですよ。下巻にいくとさらに加速度的にわからなくなるので・・・」


 と言う。うっかり買わなくてよかった。絶対わからない自信がある



 昨日、Amazonから届いた教科書をNくんに見せたら「あ、これ僕買います」と言っていた。


深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)


 これ、数式がわからなくてもなんとなくキーワードについて解説してあるのでわかりやすい。


 けっこう、いまのところ、ディープラーニング関連のソフトや解説は説明なしにあたらしいキーワードが出てくる。


 まあ専門家にとってはそれがわかりやすいんだと思うけど、強烈に進んでいる分野なのでうっかりすると昨日まで最先端だと思っていた人が来週には時代遅れになっているかもしれない。そんな時代である。

 

 とはいえ、例えばJPEGの離散コサイン変換やLiv-Zempelのスライド辞書法を知らなくてもlibpngやzlibは使えるように、ディープラーニングも中身のことはよくわからなくてもとりあえず使うことはできるというところまで来た。zlibくらい簡単になるまであと一歩という感じがある。


 Nくんによるとプリファード・インフラストラクチャーの岡之原さんが書いた「オンライン機械学習」もいいらしい。


 うう。積ん読が増えていく・・・


 心が折れそうになったのでキングダムを読む。

キングダム 20 (ヤングジャンプコミックスDIGITAL)

キングダム 20 (ヤングジャンプコミックスDIGITAL)


 20巻まで来た。


 いやー、アツい。

 アツい話ですよ。キングダムは。


 ポエム感はないものの、内容の凄惨さ、おどろおどろしさは進撃の巨人に通じるものがある。

 人を食わないだけで巨人より恐ろしい感じがするぜ。中華の猛将は。


 キングダムの欠点は読んでると仕事にならないこと。


 昨日も一台ディープラーニング用のマシンをセットアップして、返す刀でもう一台に別のディープラーニング用フレームワークをインストール(まあ実験用のマシンは社長くらい暇がないと作れない)したりしてたんだけど、コンパイル途中に読み始めると止まらない。まずい。封印しないと。これが孔明の罠か!



 昨日のインストールはすんなりいった。

 さすがに慣れてきたか。

 こんなことに精通してもあまり嬉しくないのだが・・・


 ところで一時間くらい経過したからLabellioもさすがに学習進んでるだろうとおもったら

http://i.gyazo.com/4a0736313157dd48152f9bd044c39956.png


 800くらいで終わっていて進捗がない。

 アレ?と思ってみたら


http://i.gyazo.com/a04e02b88baf61ad5699463e864f959b.png


 Completed

 いやいやいやいやいや・・・800エポックくらいでコンプリートってドヤ顔で言われましても・・・

 Accuracy(正解率) 30%じゃないですか。こんなん無料でダウンロードできても実用的に使える見込みがゼロじゃないですか。


 しかも練習問題として配布されているCaltech101でこれだ(101種類のカテゴリの画像が予めフォルダ分けされている)。さらに上位の練習問題であるCaltech256(256種類のカテゴリ)はアップロードさえできないし・・・。まあ800エポックで止めるんだったらクラウドサービスとしては提供可能と言えるかもしれないけどなんだかなあ。もうちょっと実用的に使えるならもっとガンガン活用したかったのだが


 これどういうものなら実用的に分類できるんだろう。

 MNISTとかならできるかもしれないけどそれって嬉しいかな


 昨日は未踏スパクリである吉崎航さん率いるロボットベンチャー、アスラテックの面々+古川享さんと酒を飲んだ。

http://i.gyazo.com/ed58cb168ac3b15e190c256395e9f2ba.png


 主な議題はアスラテック世界進出のために、美人広報である加藤さんにどんなコスプレをしてもらうかということだったので、僕はすかさず「セーラー服は30歳を過ぎてからがいいんですよ」と、ブラックワイドショーに三つ編みセーラー服で出ていた三浦理恵子(当時30歳)の素晴らしさを力説した。



 吉崎さんに「クラタスってたまにAmazonから在庫0になってるよね。あれホントに売れてるの?」と聞くと「フフフ・・・」と不敵な笑いを浮かべる。


 「クラタスは夏から面白い展開になりますよ」


 と言われて朝起きてブログ書いたらとんでもないことになっていた。

D


 日本のクラタスにアメリカの巨大ロボが挑戦状!?

 クラタスは戦闘ロボだったのか


 夏って・・・いや、おかしい。

 こんなペースでイノベーションが起きてたらおかしい。


 やっぱ始まってるよ。

 シンギュラリティ、始まりつつある


 一方我が国のメガバンクは・・・・

みずほ銀、“鬼門の”システム統合でなぜ再び遅延?旧3行意識、ベンダ共同発注も仇に | ビジネスジャーナル

http://biz-journal.jp/2014/04/post_4713.html