第8限 検定1 分割表検定(推定統計) 遺伝統計学のための統計学基礎
- Fisher's exact test(2x2分割表用)とそのNxM表への拡張について中心に述べる
- 分割表とは
- こんなもの
- 2行2列で、各行・各列の値の和と、全セルの総和も記載されている。N行M列の場合はNxM分割表と言う
- 分割表の検定
- 「はずれ」の基準:期待値の分割表
- 観測データのはずれの程度の評価
- 手元に得られた観測データのはずれ度の評価を下すことが可能であるためには、次のことができる必要がある
- 仮になされる「別のデータサンプリング」とは何だろうか?
- このように、『期待値』の分割表が同一であるようなデータセットのとり方のすべての場合について、『期待値』の分割表に近いか遠いかの1本の尺度が存在する必要がある
- 手元に得られた観測データのはずれ度の評価を下すことが可能であるためには、次のことができる必要がある
- 自由度:観測データセットと同じ比較されるべき「仮のデータセット」の場合わけに必要な変数の数
- 「はずれ」の序列のための単一の尺度
- 全標本数・各列・各行の標本数が固定されているとき、作りうるすべてのNxM分割表への標本の分配のしかたに対して、特定のNxM分割表(セルの度数)をのとり方の確率は、組み合わせを用いて次のように計算できる
- 全標本数・各列・各行の標本数が固定されているとき、作りうるすべてのNxM分割表への標本の分配のしかたに対して、特定のNxM分割表(セルの度数)をのとり方の確率は、組み合わせを用いて次のように計算できる
- 「はずれ」の序列が得られたら、確率を足し合わせる
- 観測データの分割表から、「期待値」の分割表が作られ、また、「期待値」の分割表を作りうるすべての観測度数の組み合わせが確率とともに計算された
- 今、観測データと同じ観測度数が得られる確率以下の確率を持つ場合をすべて足し合わせると、それが、「観測データが『期待値』からはずれていて、極端である確率」になる
- これが正確検定のP値である
- 未整備ながら、本件を検討するためのエクセルを2つ
- 2x2分割表(総標本数、各列・各行の和を指定、1セルの値を変数として取り扱うことで、とりうるすべての度数の場合とその確率とを計算する)(こちら)
- 2x3分割表(総標本数は100で固定、各列・各行の和を指定(黄色いセル)、2セルの値を変数として取り扱うことで、とりうるすべての度数の場合とその確率とを計算する。それを2変数の2次元プロットする。各度数パターンの確率が等高線表示されている。正確検定の場合には、観測度数データの点と、その点を通る等高線よりも確率の低い点の確率を足し合わせることになる(エクセルはこちら:かなりファイルサイズが大きいです)
- →若干、説明を加えると、100x100の2次元領域のうち、フラットな領域は「全セルが0以上」という条件を満たさないために、ありえない変数領域に相当する。等高線が描かれている部分は、「全セル0以上」条件を満たす領域である。その領域は、直線で区画されている
- →これを自由度2のカイ自乗値になぞらえれば、2x3分割表から計算されるカイ自乗値は、個々の度数パターンごとの確率を個別に意識していないが、正確検定で計算している範囲の足し合わせを近似していることを意味する
- →実際、エクセルが表示する等高線は確率密度であり、ある『標高』以下の部分を足し合わせる(積分する)ことで、観測データとそれよりはずれている場合のすべてについての確率を足し合わせることになる。すべてを足し合わせると1となる。他方、カイ自乗値に対応するp値は、0から1の分布をとるもので、「累積確率」になっている。それは逆に言うと、カイ自乗分布の「累積」を支える「確率密度分布」があるはずだ、ということで、それが正規分布に相当する。
- →これは、2群の比率の差の検定を分割表のカイ自乗検定で行うことと、正規分布によって行うこととが同じことであることに対応する(正規分布が確率密度分布、カイ自乗分布が、その累積確率の分布)
- →また、期待度数が5未満セルが全セルの2割以上ある場合や1未満のセルが1個以上ある場合に、カイ自乗値の近似が不十分であるとは、このエクセルの周辺の計算が、離散的特長を色濃く持つ(境界が多角形であるなど)ことと符号する
- →さらにいうと、たとえ境界領域でなくても、観測度数が整数しかとれない場合には、表示の曲面(曲線)はなだらかではない。しかしカイ自乗分布はなだらかである。この違いの補正を連続性の補正と呼ぶ。ただし、連続性の補正をしない値を用いている場合も多い。なおカイ自乗値は補正をすると少し小さくなる(検定結果は少し保守的になる)から、補正をしていない検定結果はした場合より少しアグレッシブであることになる
- →両側検定と片側検定
- この曲面の「はずれ領域」に着目する。観測データの確率等高線以下の確率の部分が「はずれ領域」であるが、その範囲は「こっちの方向にはずれた部分」と「あっちの方向にはずれた部分」の2部分に分けることはできない。このことは、自由度2以上の分割表検定では片側検定ができないことを意味する。ただし、自由度1の場合には、片側検定ができる。なぜなら、「こっちの方向」と「あっちの方向」が分けられるからである
- カイ自乗検定
- 上述したが、正確確率を計算すれば事足りる。しかしながら、その計算は面倒くさい
- したがって、NxM個の数値を算術的に紙と鉛筆で計算できる程度の複雑さで計算し、求めたい正確確率の近似値を得ようというものである
- 算出されたカイ自乗値を対応する自由度のカイ自乗分布におけるパーセンタイル点と関係付けることでP値を得る
- 正確検定でも記載したとおり、期待度数の値に5未満のセルが全セルの2割以上あったり、1未満のものがある場合には、正確P値とのずれが顕著になるので、使用しない