MapReduce@20080910125910

極めて大規模なデータを並列分散処理するために、Googleが開発したフレームワーク。

ある値とリストのkey-valueペアをデータ単位とし、

:Mapフェーズ:1つのkey-valueペアから1つ以上のkey-valueペアを生成する
:Reduceフェーズ:keyが同じ複数のkey-valueペアから1つないし少数のkey-valueペアを生成する

という2つのフェーズそれぞれについて適当なプログラムを書くと、MapReduceのシステムが自動的に与えられたホスト上で各フェーズの操作を分散処理する。

オリジナルは非公開だが、このシステムに関する論文が公開されており (http://labs.google.com/papers/mapreduce.html)、それを基にしたオープンソース実装としてHadoop MapReduceがある。