[Hadoop] Amazon EC2 で Hadoop Cluster を構築してみた

特にニッチなネタでもないので情報はWeb上にいっぱいありますが、バージョンうんぬんでうまくいかないところがいくつかあったので、一例として記録を残しておきます。

ほんとは「Amazon Elastic MapReduce で楽勝！」といきたかったのですが、今試している Asakusa Framework の 0.2.6 は未対応(開発中の 0.4.0 は対応しているようなんだけどね)。一筋縄ではいかなさそうだったので EC2 で構築することにしました。

参考にした記事

Hadoopで始める並列データ解析／前編 | Inhale n' Exhale が一番まとまっていて、かつ現状との差異が少なかったです。基本これでうまく行きました。
注意すべき点は･･･

1. AMI(Amazon Machine Image)の選択

一つ目のポイントは、「Ubuntuのインスタンスを作るなら、12.04LTS ではなく、11.10 を選択する」こと。
後ほどインストールする ec2-api-tools のパッケージが、Precise(Ubuntu 12)では含まれていません･･･！apt を使った経験はそれほど多くないのですが、こういったことは珍しくないのでしょうか。

2. Java のインストール

二つ目のポイントは、(まあ、これは必須ではないのかもしれませんが) Oracle の Java をインストールするなら以下の手順で。

$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java7-installer

ちなみに、上記記事中で説明されていた sun-java6-jdk のインストールは、12でも11でもダメでした。

環境・使用したツールなど

[作業PC]

Windows 7
EC2への接続(SSHクライアント)は Cygwin

[作成したEC2インスタンス]

Ubuntu Server 11.10 64bit

[Hadoop]

hadoop-0.20.203.0