Apache Spark 0.8.0の新機能
こんにちは。
前回まででApache Spark & Streamingの概要がわかったので、
とりあえず実際の環境を構築してみよう・・・と思ったら、Apache Spark自体がバージョンアップしていました。
Spark0.8.0になりますね。
なので、とりあえずどんな機能が追加されたかは実際クラスタ組む前に確認しておこう・・・
というので更新内容が何か確認してみます。
更新で大きいものは8点。
1. Monitoring UI and Metricsの追加
SparkのUIにJobダッシュボードとMetricsメニューが追加され、
実行中のジョブや、実行段階の情報が見えるようになったそうです。
その他にもジョブの実行パーセンタイル統計や、GC発生数といった性能情報も見えるようになった模様。
加えて、ジョブ実行あたりのディスクの使用量増加といった情報もわかるそうです。
尚、こういった性能情報や統計情報はJMXとGangliaのAPIで外部から取得することも可能な模様。
単にUIとして使うだけでなくて他の外部プロセスからも見れるというのはいいですね。
2. MLbaseを基にした機械学習ライブラリの追加
UC Berkeleyの機械学習ライブラリMLbaseを基にSpark向けに最適化した機械学習ライブラリ「MLlib」が追加されました。
現状サポートしているアルゴリズムは以下。
1. Support vector machines (SVMs)
2. Logistic regression
3. Several regularized variants of linear regression
4. Clustering algorithm (KMeans)
5. Alternating least squares collaborative filtering.
一般的な機械学習ライブラリという形では当然既にあるんですが、Sparkに最適化されたライブラリというのは有難いですね。
4. Hadoop YARN support
スタンドアローンSparkJobをHaoop YARN上で実施するための口が追加されました。
また、Hadoop YARN supportが正式版となったそうです。