Hatena::ブログ(Diary)

iAnalysis 〜おとうさんの解析日記〜

2009 | 11 |
2010 | 02 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2011 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2012 | 01 | 03 | 04 | 05 | 10 | 12 |
2013 | 01 | 02 | 04 |
2014 | 03 | 12 |
2016 | 03 |

2013-02-20

データサイエンティストを目指すなら知っておきたいRパッケージ10個+α

元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。

  1. randomForest:超強力な汎用予測モデル
  2. RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続
  3. plyr:データ集約
  4. reshape2:データ加工
  5. forecast:時系列予測
  6. stringr:文字列操作
  7. lubridate:日付操作
  8. sqldf:SQLライクなデータ操作
  9. ggplot2:綺麗なプロットを描く
  10. qcc:品質管理

個人的には、下の3つは優先度低いです。理由は、sqldf:R使いっぽくない、ggplot2:指定の仕方が特殊なので、結局描きたい絵を描くのが難しい(エクセルパワポを使った方が早いことも)、qcc:使い所があまり多くない。


プラス、下記に私のオススメパッケージを紹介しておきます。

  1. party:決定木が綺麗に描ける
  2. gbm:randomForestより汎用性の高い超強力な予測モデル
  3. survival:生存分析
  4. caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算できる
  5. XLConnect:エクセルのデータを読み込める、Rオブジェクトエクセルに保存できる

これらが全部使いこなせれば、データサイエンティストのR技術は充分のように思います。あとは必要になったものをCRANで調べながら分析を進めていくスキルが必要ですね。

リンク元