Hatena::ブログ(Diary)

naoyaのはてなダイアリー

May 31, 2008

Kansai.pm での発表資料 (Hadoop Streaming で MapReduce)

Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。

MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと Java 以外でも MapReduce できます。

以下のエントリも合わせてご覧ください。

kiyokapkiyokap 2008/06/05 00:08 先日は、たいへん勉強になる発表ありがとうございました。
以前から、ネットなどでGoogleのMapReduceの資料を読んでわかった気になっていましたが、naoyaさんの発表を聞いて、本質的なところが理解できていなかったことに気づきました。

見逃していた点は、次の点です。
1. 分散ファイルシステムは必須で、それが無いと、MapReduceはパフォーマンスを発揮しない。(最初からデータが分散されているからスケールする。計算要求のたびに巨大データをコピーしていたらネットワーク帯域がいくらあっても足りない)
2. reducerがボトルネックになると思いきや、reducerも複数プロセスでスケールする。(reducerはスケールしないと思っていました)

今後とも、Kansai.pmで最新テクノロジを紹介してください。

はてなユーザーのみコメントできます。はてなへログインもしくは新規登録をおこなってください。

トラックバック - http://d.hatena.ne.jp/naoya/20080531/1212245982