データサイエンティストを目指すなら知っておきたいRパッケージ10個+α

元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。

  1. randomForest:超強力な汎用予測モデル
  2. RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続
  3. plyr:データ集約
  4. reshape2:データ加工
  5. forecast:時系列予測
  6. stringr:文字列操作
  7. lubridate:日付操作
  8. sqldf:SQLライクなデータ操作
  9. ggplot2:綺麗なプロットを描く
  10. qcc:品質管理

個人的には、下の3つは優先度低いです。理由は、sqldf:R使いっぽくない、ggplot2:指定の仕方が特殊なので、結局描きたい絵を描くのが難しい(エクセルパワポを使った方が早いことも)、qcc:使い所があまり多くない。


プラス、下記に私のオススメパッケージを紹介しておきます。

  1. party:決定木が綺麗に描ける
  2. gbm:randomForestより汎用性の高い超強力な予測モデル
  3. survival:生存分析
  4. caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算できる
  5. XLConnect:エクセルのデータを読み込める、Rオブジェクトエクセルに保存できる

これらが全部使いこなせれば、データサイエンティストのR技術は充分のように思います。あとは必要になったものをCRANで調べながら分析を進めていくスキルが必要ですね。

isseing333
isseing333

東大医学部卒。保健学博士。医療データ分析専攻。東大病院情報システム部勤務後にiAnalysis(アイアナリシス)社設立。