2008-07-06

さて，ここで改めてランダム効果について記述する。
ランダム効果は，一昔前の統計の教科書では「変量効果」などと記述されている。英語では，random effectである。で，どのような時にこの「ランダム効果」を使うのか？

以下はこちらやこちらを参考にしました。

　様々なデータ解析の場において，階層性のある構造，入れ子になっている構造を持つデータに出会う。
　例として，ある昆虫の体サイズと羽の大きさに相関関係があるか，ということを知りたくて，３つの場所でサンプリングをしたとする。各地で，n=15，つまり全部で45サンプル集まったとする。
　それを散布して，相関係数を調べてよいのか？
　そう，実は３つの場所で採集したということから，３つの地点それぞれで体サイズと羽の関係が異なる可能性もある（A,Bという地点では体サイズと羽に正の相関関係があっても，Cという地点では，負の相関があるかもしれない）。
　だが，解析者にとって重要なのは，体サイズと羽の関係であって，場所はそこまで重要ではない。かといって，場所の効果を無視する解析は，データの独立性という前提を外れてしまっている。場所ごとに体サイズと羽の影響が異なっている可能性がありうる。
そのような際，用いるのが「ランダム効果」である。
t検定，分散分析のような解析で推定しているのは，主に固定効果（fixed effect）である。
ランダム効果は次のような特徴を持つ。

研究者がその効果に興味はないが，無視できるものではない場合。

もう一度同じ実験をやろうとした時，再現できるものは「固定効果」。再現できないものは「ランダム効果」。

例）ある薬を投与したグループと効果のない薬（プラセボ）を投与した群の比較を行いたい場合を考えよう。薬の有無という効果は固定効果。一方，患者ごとに薬の効き方が異なることも考えられる。ので，患者は「ランダム効果」として考える。この場合もう一度追試したい時，薬は同じように計画できる。が，患者は同じようにはならない（普通，別の人たちを使うので）。

ランダム効果は，大きな母集団の一部のサンプルとして扱われる。つまり，確率変数（ある母数（パラメータ）を持った分布）からランダムに選ばれたバラツキとして考える。

ランダム効果は，その期待値を推定するものではなく，そのバラツキを推定する。

固定効果は「平均」に興味がある場合，ランダム効果はその「バラツキ」に興味がある場合。

モデル式に固定効果とランダム効果がある場合，混合効果モデル，と呼ばれる。

普通の線形モデル（回帰や一元配置の分散分析）では，
$y=\alpha+\beta_iX_i+\epsilon$
$\alpha$ が切片（回帰）や全平均（分散分析）を表し， $\beta_i$ が固定効果， $\epsilon$ は誤差（残差）を表す。

一方，ランダム効果モデルでは，
$y_i_j=\mu+\alpha_i+\epsilon_i_j$
$\alpha$ がランダム効果によるバラツキ， $\epsilon$ はそれぞれの誤差（残差）。

で，これが混合効果モデル（mixed effect model）になると，
$y_i_j_k=\mu+\beta_iX_i+\tau_jZ_j+\epsilon_i_j_k$
となる。ここで重要なのは $\tau_j$ と $\epsilon_i_j_k$ はそれぞれ独立の分布からなることである。
要は，固定効果だけから予想されるよりも誤差（バラツキ）が大きくなったり，ランダム効果ごとに似たような挙動を示す場合に混合モデルは有用になります。

さて若干話がそれました。先日の解析をやってみませう。
続く。

知行合一日記

続き。