分散と不偏分散

この歳になるまできちんと理解していなかったので一応まとめておきたいと思います.平均値に並ぶ基本的な統計量として,分散が上げられると思います.この分散var=\sigma^2の計算は

\sigma^2=\frac{1}{N}\sum_{i=1}^{N} (x_i-\bar{x})^2
で得られるわけです.ところが,この手の計算を習うときに,よく N で割るのではなく,
\sigma^2=\frac{1}{N-1}\sum_{i=1}^{N} (x_i-\bar{x})^2
N-1 で割るという定義を見たことがあると思います.これを不偏分散と言います.「平均値が決まっていないので,自由度が一個減る」という説明が与えられていることが多いです.これの効果をいまいち理解していなかったのですが,時と場合によっては非常に大きいことを理解しました.

正規分布に従う乱数を n 回 sampling し,それから分散と不偏分散の平方根を計算します.それの頻度分布を示したものが次のグラフです.

青が不偏分散の平方根で,緑が分散の平方根です.正規分布の分散は1ですので計算された数値はどれも 1 になることが期待されますが,実際は sample が無限ではないために sample 数に応じた広がりを持ちます.
極端な例として sampling 数 n=2 の場合と n=1000 の場合も載せました.見て分かる通り,n=2 の場合は 1 を中心とした分布でさえありません.1 を中心とした分布になるためにはすくなくとも n=5 程度必要そうです.n=5 の場合の分散と不偏分散の平方根の頻度分布を比べます.普通の分散は明らかに左側によっています.分散の値を過小評価してしまうのです.程度としては19%.もし,この計算法を使った値でパラメータフィッティング等を行えば明らかにこの偏り(バイアス)は見えるはずです.一方で不偏分散の場合,こちらはおよそ3%です.5倍以上ましな結果を与えることが分かります.

どうしてこんなことになるかというと,不偏分散の期待値を計算すると
wikipedia:分散#.E4.B8.8D.E5.81.8F.E5.88.86.E6.95.A3.E3.81.AE.E6.9C.9F.E5.BE.85.E5.80.A4
にある通り母関数の分散に等しいからです.分散自身を計算すると,1-1/n 倍になってしまいます.「自由度が減る」という効果のせいで分散の期待値がそもそも母関数の分散と一致しないという決定的な違いがあったのです.
なんとなく大学や統計の教科書で習ったのですが,実感として現れて来たのが初めてなのでかなり驚きの結果でした.というか,普通はそもそも n=5 で分散とか計算しない・・・

ていうか恥ずかしー.