[Hadoop] Amazon EC2 で Hadoop Cluster を構築してみた
特にニッチなネタでもないので情報はWeb上にいっぱいありますが、バージョンうんぬんでうまくいかないところがいくつかあったので、一例として記録を残しておきます。
ほんとは「Amazon Elastic MapReduce で楽勝!」といきたかったのですが、今試している Asakusa Framework の 0.2.6 は未対応(開発中の 0.4.0 は対応しているようなんだけどね)。一筋縄ではいかなさそうだったので EC2 で構築することにしました。
参考にした記事
Hadoopで始める並列データ解析/前編 | Inhale n' Exhale が一番まとまっていて、かつ現状との差異が少なかったです。基本これでうまく行きました。
注意すべき点は・・・
1. AMI(Amazon Machine Image)の選択
一つ目のポイントは、「Ubuntuのインスタンスを作るなら、12.04LTS ではなく、11.10 を選択する」こと。
後ほどインストールする ec2-api-tools のパッケージが、Precise(Ubuntu 12)では含まれていません・・・!apt を使った経験はそれほど多くないのですが、こういったことは珍しくないのでしょうか。