Hatena::ブログ(Diary)

ほくそ笑む このページをアンテナに追加 RSSフィード

2012-02-14

統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ

はじめに

統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。

しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。

統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。

それでは実際のデータをどうやって手に入れましょうか?

実験や調査をして実際のデータを得るのは大変でお金もかかります。

幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。

例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。

ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。

英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。

というわけで、今日は、統計初学者のために、Rデータセットのうち、日本語訳のあるものをまとめてみました。*1

データセット一覧

データセット名タイトル説明詳細DL
airmiles商用航空会社マイレージ1937年から1960年の各年の、合州国の商用航空会社の課税利用者マイル数。詳細DL
airqualityニューヨークの大気状態観測値ニューヨークの大気状態観測値。1973 年の五月から。詳細DL
anscombe``同じ'' 線形単回帰に対する Anscombe の四つ組同じ通常の統計的性質(平均、分散、相関、回帰直線)を持つが、全く異なる 四つの x-y データセット。詳細DL
attenuJoyner-Boore の地震波の減衰データこのデータはカリフォルニア州の 23 の地震のピーク時加速度を、様々な観測基地で測定したデータを与える。このデータは多くの研究者により、基本加速度に対する距離による減衰効果を推定するために用いられてきた。詳細DL
attitude管理者に対する態度(まだ)無い。詳細DL
cars車の停車距離車が停車するまでに必要な距離のデータ。 データは 1920 年代に得られたことを注意せよ。詳細DL
co2Mauna Loa 火山の大気中の炭酸ガス濃度大気中の CO2 濃度が百万分の一単位 (ppm) で表され、preliminary 1997 SIO manometric mole fraction scale で報告されている。詳細DL
discoveries重要な発見の数1860年から1959年の各年における ``偉大な'' 発明と科学的発見の数。詳細DL
esoph喫煙、アルコールと食道ガンフランスの Ile-et-Vilaine における食道ガンの類別研究のデータ。詳細DL
euroヨーロッパの為替レート様々なヨーロッパの通貨の交換比率。詳細DL
eurodistヨーロッパの都市間の距離このデータはヨーロッパの21の都市間の道路距離(km 単位)を与える。 データは ``The Cambridge Encyclopaedia'' 中の表から取られた。詳細DL
Formaldehydeホルムアルデヒドの定量これらのデータは、クロム酸と濃縮硫酸を加えた結果生ずる紫色を分光計で 読みとるホルムアルデヒドの定量用の標準カーブを用意する ために行われた化学実験による。詳細DL
HairEyeColor統計の講義を受講している学生の髪と瞳の色統計の講義を受講している 592 人の学生の髪、瞳の色と性別の分布。詳細DL
infert自然・人工流産後の不妊症これは条件付きロジスティック回帰が登場する前に行われた対応対照群研究である。詳細DL
InsectSprays昆虫への薬剤噴霧の効果異なる農薬を散布した農業実験単位毎の昆虫の計数値。詳細DL
irisEdgar Anderson のあやめのデータこの有名な(Fiher もしくは Anderson の)あやめのデータセットは、三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。詳細DL
islands世界の主要な陸地の面積10,000 平方マイルを越える陸地の千平方マイル単位の面積。詳細DL
LifeCycleSavings各国の世代毎の貯蓄データ1960 - 1970 の貯蓄データ。詳細DL
OrchardSprays果樹園への散布液の効果果樹園への散布液の様々な成分が 蜜蜂を忌避する効果を確かめる実験が、ラテン方陣デザインを用いて行われた。詳細DL
PlantGrowth植物の成長に関する実験の結果対照群と二つの異なった処理条件のもとで得られた、収穫量(乾燥重量で計った)を比較する実験の結果。詳細DL
Titanicタイタニック号乗客の生存このデータセットは大洋定期船 `Titanic' の破滅的な処女航海の乗客の運命に付いての情報を、経済的地位(船室等級)、 性別、年齢、そして生還の有無で要約して与える。詳細DL
ToothGrowthギニアピッグの歯の成長に対するビタミン C の効果三種類のビタミン C の投与量(0.5, 1, そして 2mg)、二種類の 摂取法(オレンジジュースまたはアスコルビン酸)に対する、各々10匹のギニアピッグ(訳注: いわゆるモルモット)の 造歯細胞(歯)の成長量。詳細DL
UCBAdmissionsカリフォルニア大学バークレイ分校の学生入学1973年のバークレイ校大学院の六つの最大学部の受験生の総合的データで、入学状況と性別で分類されている。詳細DL
USArrests合州国の州別暴力犯罪率このデータセットは 1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている。詳細DL
USJudgeRatings弁護士による合州国最高裁判事の評価弁護士による合州国最高裁判事の評価詳細DL
USPersonalExpenditure個人消費データこのデータセットは、1940,1945, 1950 そして 1960 年における、 次の各項目の合州国の個人消費(単位 10 億ドル)データを含む: 食品とタバコ、家事、医療と健康、趣味、教育。詳細DL
VADeaths死亡率データ1940年代のバージニア州の100人あたりの死亡率。詳細DL
women米国女性の平均身長と平均体重30歳から39歳のアメリカ人女性の平均身長と体重。詳細DL

上記のデータセットを適用可能な解析手法で分けるとこんな感じです。*2

回帰anscombe, attitude, cars, esoph, Formaldehyde, iris, LifeCycleSavings, Titanic, ToothGrowth, women
分散分析HairEyeColor, infert, InsectSprays, PlantGrowth, Titanic, ToothGrowth, UCBAdmissions, VADeaths
多変量解析airquality, attenu, attitude, eurodist, iris, LifeCycleSavings, OrchardSprays, USArrests, USJudgeRatings
時系列解析airmiles, co2, discoveries, infert

例えば、線形回帰を学んだら、anscombe データに線形回帰モデルを当てはめてみると、大変勉強になると思います。

統計言語 R を使っているなら、

example(anscombe)

のように、example() 関数によって、そのデータセットに対する解析例を見ることもできます。

さらにデータを得たい人へ

さらにデータを得たい人のために、下記に参考になるサイトを紹介しておきます。

データセット一覧 : DoDStat@d

日本語の説明があるデータセット集。適用できる解析手法も併記されていて便利。

no title

フリーなデータセットを提供するサイトへのリンク集。このページ自体は日本語ですが、データのあるリンク先は英語です。

R: The R Datasets Package

R のデフォルトデータセットのヘルプページ。R にはこの他にもパッケージに付属するデータセットがたくさんあります。

no title

R のデフォルトデータセットの日本語説明。(2012/02/24追記)

*1:日本語訳はすべて東工大間瀬先生のサイト http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/ によります

*2:かなりてきとーです

myopommemyopomme 2012/02/14 23:49 Rのデータセットは王道を学ぶのにいいですよね。ただ、きれい過ぎてデータクレンジングを学べない。いいサイトがないでしょうか?http://data.un.org/でゴリゴリするぐらいでしょうか?

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証