Hadoopのインストール

Hadoopを使うことになりそうなので、とりあえずインストールしてみた。

以下のリンクをまず読みながら写経。

分散処理に入門してみた(Hadoop + Spark) | キャスレーコンサルティング株式会社
Apache Hadoop 2.9.2 – Hadoop: Setting up a Single Node Cluster.


まずは、Vagrantで仮想環境のCentOS6.5を構築。この手順は省く。
epelは設定済み。

javaが入っていなかった。

$sudo yum install java-1.7.0-openjdk-devel.x86_64

前提パッケージとやらのインストール。これはAapacheのガイドには書いてなかった。

$sudo yum install gcc-c++ curl make cmake zlib zlib-devel

Hadoopをダウンロード

$mkdir hadoop
$cd hadoop
$wget http://ftp.riken.jp/net/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz

Hadoopは/usr/localに入れるのが当然のようなので、mv

$sudo mv hadoop-2.5.2 /usr/local/

.bash_profileを修正

#Hadoop
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.71.x86_64
export HADOOP_HOME=/usr/local/hadoop-2.5.2

password無しでlocalhostに接続できるようにする(擬似分散実行のために必要らしい)

$ cd
$ ssh-keygen -t dsa
Generating public/private dsa key pair.
Enter file in which to save the key (/home/vagrant/.ssh/id_dsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/vagrant/.ssh/id_dsa.
Your public key has been saved in /home/vagrant/.ssh/id_dsa.pub.
The key fingerprint is:

$ cat .ssh/id_dsa.pub >> .ssh/authorized_keys
$ chmod 600 .ssh/authorized_keys

hadoopのインストール確認

$ hadoop version
Hadoop 2.5.2
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r cc72e9b000545b86b75a61f4835eb86d57bfafc0
Compiled by jenkins on 2014-11-14T23:45Z
Compiled with protoc 2.5.0
From source with checksum df7537a4faa4658983d397abf4514320
This command was run using /usr/local/hadoop-2.5.2/share/hadoop/common/hadoop-common-2.5.2.jar

とりあえずSingleNodeでgrepのサンプルを実行する。

$ cd
$ cd hadoop
$ mkdir input
$ cp /usr/local/hadoop-2.5.2/etc/hadoop/*.xml input/
$ hadoop jar /usr/local/hadoop-2.5.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

inputディレクトリに入っているファイルの中をGrepして出現件数を集計し、
集計結果をoutputディレクトリに出力する。っぽい。