Hatena::ブログ(Diary)

ほくそ笑む このページをアンテナに追加 RSSフィード

2015-05-12

実践 統計モデリング入門 【1. 概要・目次】

【宣伝】2016/09/14

このページに来た方へ。あなたが求めている本はこれです。

まずこれを予約してから下記を読むといいです。

【宣伝終】


はじめに

統計モデリングは今後ますます重要になってくる技術です。

現在、Web 上には統計モデリングに関する様々な優良記事があります。

それらの記事は、完成したモデルをスマートに提示しているものが多いようです。

しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。

この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイステップで追うことにより、統計モデリングの実際のやり方を実践的に学ぶことを目的としています。

目次

  1. 概要・目次 (この記事)
  2. 最も簡単なモデルの作成
  3. 二変数への拡張
  4. 三変数への拡張
  5. 異なる標準偏差への拡張

統計モデリング

統計モデリングとは、データと仮説をもとに現象に対する数理モデルを作成することです。

例えば、有名な アッシェンフェルターのワイン方程式 は、降雨量などの様々な要因をもとにワインの値段を決定する計算式を導いています。*1

作成されたモデルは、予測、制御、変動要因解析などに使われます。

統計モデリングを行うには、基本的な統計学の知識が必要です。

また、統計モデリングツールを使用するため、プログラミングの知識が少し必要になります。

この一連の記事では、消費者がブランドを選択する際の決定原理についてのモデルを構築していきます。

問題設定

スーパーで定価の同じ 3 種類の牛乳が並べて売られています。

このとき、消費者が 3 種類のブランドのうちどの牛乳を選ぶのか、その行動原理をモデリングして下さい。

データとしては、3 種類の牛乳それぞれの定価からの値引き額(x)と、お客さんがどの牛乳を買ったか(y)があるとします。

y は購入したブランドの番号、x1, x2, x3 はそれぞれブランド 1, 2, 3 に対する定価からの値引き額(円)です。

y x1 x2 x3
2 47 47 55
2 44 45 55
3 37 52 66
2 50 49 55
1 55 38 55

第一印象では、消費者は値引き額の最も大きなブランドを選択しそうな気がします。

しかし、一番目のデータを見ると、ブランド 3 が最も大きな値引き額ですが、消費者が選択したのはブランド 2 です。

統計モデリングツール

今回使用する統計モデリングツールは Stan です。

Stan はマルコフ連鎖モンテカルロ法(MCMC)を用いたベイズ統計モデリングツールです。

統計モデルを記述するための独自の言語を持ち、それに従って MCMC サンプリングによるパラメータ推定を行います。

統計解析ソフト R には Stan へのデータ転送を可能にするパッケージ rstan があるため、これを使って R と Stan でのデータの受け渡しを行います。

統計モデリングのコツ

この一連の記事で最も伝えたいことは、下記 2 つの統計モデリングのコツです。

  1. シンプルなモデルから始める
  2. シミュレーションを行う

1つ目のコツは、シンプルなモデルから始めるということです。

これは、いきなり最終的に実現したい複雑なモデルを構築しようとするのではなく、簡単なモデルから始めてだんだんと拡張していく方がやりやすいということです。

段階的に拡張を行うことによって、うまくいかなかった場合に、どこでうまくいかなくなったのか、その原因を突き止めやすくなります。

また、段階的にモデルを書くことで、それぞれのモデルを起点とした拡張のアイデアが生まれ、最初は考え付かなかった拡張の方向性を見つけることができます。

2つ目のコツは、作成したモデルに対していきなり現実のデータを入れるのではなくて、必ずシミュレーションデータへの適用を行うということです。

シミュレーションで作成された理想的なデータに対して、モデルがうまくパラメータを推定できるのは当たり前じゃないかと考える人もいると思います。

しかし、もしその当たり前のことすらできないモデルであった場合、現実のデータに適用してうまくいくはずがありません。

その当たり前のことができるということを確認するために、シミュレーションデータへの適用は必ずやることをお勧めします。


それでは、上記 2 つのコツを念頭に置きながら、次の記事に進んで下さい。


参考文献

参考サイト

謝辞

この記事のもとになった分析を行った際に、@berobero11 さんに多くの助言をいただきました。ありがとうございます。

ただし、この記事の間違い等に関しましては筆者(@hoxo_m)の未熟によるものですので、コメント等でご指摘いただければ幸いです。

*1:ただし、原論文とは異なる計算式が誤って広まっています。http://d.hatena.ne.jp/wlj-Friday/20150121/1421802947

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証