Hatena::ブログ(Diary)

スティルハウスの書庫 このページをアンテナに追加 RSSフィード

2010-03-25

MapReduce on #appengine キタコレ!?

ひがさんが見つけた書き込み:

30 sec execution limitation only to web requests or to all requests ?

We've committed to map/reduce support to help make this easier on our roadmap for a future release. 

MapReduceキタコレ! いつのまにコミット(=確約)してたなんて。。

以前のGoogle I/Oビデオでは「MapReduceはいつサポートするの?」という質問に「それにはやるべきことがたくさんあるなぁ。。」的な解答でしたし、ロードマップにも載っていませんでしたから、MapReduceサポートは遠い先な感じでした。

が、Google I/O 2010セッション一覧には「Building high-throughput data pipelines with Google App Engine」なんていう、それ何てMapReduce?みたいなセッションが掲載されてましたし、先日DevFestでFredさんに突撃インタビューしたときには「え、そんなセッションあったっけ?(ニヤリ もし俺がApp EngineでMapReduceを実装するなら、Task Queueベースでやるかなぁ〜(ニヤリ」って反応でしたので、これはくるかな?くるだろ?って感じでしたが、やっぱり来そうですね!

しかしTQベースのMapReduceって、それオリジナルのMapReduceとは全然別物な気もするけど。。まあ細けえこたぁいいんだよ!

追記

ひがさんのつぶやき

Nickさんのbulk update utilityでmap/reduceについて言及してたから似たような感じになる予感 http://bit.ly/diFLsd #appengine

hidemonhidemon 2010/03/25 16:47 いや,オリジナルのMapReduceだって,ある種のタスクキューシステムですよ.Hadoopの実装もそう.そこにそんなに乖離はないです.

実装も別に難しくはなさそうです.どうやったら多くのユーザにメリットのある見せ方ができるか,と言う方が問題ですよね.

いずれにしても期待,ですが,このcommitってsvnとかcvsにコミットしたって意味じゃないんじゃないでしょうかね.開発はしているのでしょうが.

kazunori_279kazunori_279 2010/03/25 16:57 しかし今のTQって最大50/sくらいだし、オリジナルMRみたいな大規模並列処理って感じでもないですよね。。

commitですが、文脈からすると「svnにコミットした」じゃなくて「Googleはコミットしてる」って感じと思います。

hidemonhidemon 2010/03/25 18:00 まあアプリケーション次第だと思いますが,たとえば30秒のマップタスクが100個あったとして,2秒以内に全部起動すれば十分でしょう.Hadoopだってそんなもんです(^_^;). むしろ同時に走るインスタンスの数が少ないことのほうが問題ですね.30並列じゃなあ...

それはともかくMapReduceの本質は並列処理をいかに簡単に書かせるか,と言うところのあるのだと思うのです.だから実際の並列性がたかだか30並列だったとしても,それなりに意味があるのではないかと...

#もちろんもっと並列度が上がってくれればうれしいですが.

kazunori_279kazunori_279 2010/03/25 18:12 そうですね、30並列はあくまで論理的な制限だし、私も30制限外してってグーグルに依頼したりそれでTQ試したことはないので、制限外されたApp Engineは本来MapReduceみたいに簡単に数1000ノードとかにスケールしてしまえるのかもしれませんね。。要するに「お試し」じゃないリアルな案件がないと試せない!ってことかな。

おっしゃるとおり、MRの本質は「簡単さ」にあり!と思います。誰でも書ける並列処理って感じで。その簡単さとApp Engineのコストの低さによって思いもよらなかった応用例が出てくるのに期待ですね。

はてなユーザーのみコメントできます。はてなへログインもしくは新規登録をおこなってください。

Connection: close