第8限 検定1 分割表検定(推定統計) 遺伝統計学のための統計学基礎



  • Fisher's exact test(2x2分割表用)とそのNxM表への拡張について中心に述べる
  • 分割表とは
    • こんなもの
    • 2行2列で、各行・各列の値の和と、全セルの総和も記載されている。N行M列の場合はNxM分割表と言う
  • 分割表の検定
    • 各行、各列が独立かどうかの検定と、各行を亜集団として亜集団の(母)比率に差があるかどうかを検定する
    • 今、データセットが得られている。このデータセットが、『基準=要因が相互に独立であるとの仮説、または、各群の比率に差がないという仮説』からのどれくらいばずれているかを数値化する
  • 「はずれ」の基準:期待値の分割表
    • 観測データセットが得られたとき、個々の要因の陽性比率の期待値を求めることができる。今、要因が相互に独立であると仮定すれば、要因の掛け合わせごとの期待値も算出できる。このようにして作成される「期待値の分割表」を基準として、観測データセットのはずれの程度は評価する
  • 観測データのはずれの程度の評価
    • 手元に得られた観測データのはずれ度の評価を下すことが可能であるためには、次のことができる必要がある
      • もしも別のデータサンプリングをしたとしたときに、今手持ちのデータセットと仮に得られるであろうデータセットとのどちらが「より外れた」データなのか、どちらが「より外れていない」データなのか、の判断である
    • 仮になされる「別のデータサンプリング」とは何だろうか?
      • サンプル総数が手持ちのデータセットと等しく、要因ごとの標本数(分割表の列の合計と行の合計)が等しいデータである。これは、言い換えると、「要因が相互に独立であるとしたときに得られる『期待値』の分割表」が同一のデータセットのことである
    • このように、『期待値』の分割表が同一であるようなデータセットのとり方のすべての場合について、『期待値』の分割表に近いか遠いかの1本の尺度が存在する必要がある
  • 自由度:観測データセットと同じ比較されるべき「仮のデータセット」の場合わけに必要な変数の数
    • 上述したように、あるデータセットを手にしたとき、そのデータセットがつくる『期待値』の分割表と同一のそれを作るような「仮のデータセット」の場合わけがしたい。その場合わけはどのようになっているだろうか?
    • 分割表の期待値が固定されている条件では、NxM個のセルのうち、(N-1)x(M-1)個のセルに値を与えると、その他のすべてのセルの値は決定される:これを自由度という
    • 「仮のデータセット」の場合わけ
      • 上述のように、「仮のデータセット」の場合わけをするには、自由度個の変数が登場する
      • 言い換えれば、自由度個の変数によって「はずれ」の程度が決められる
      • しかしながら、サンプルされうるすべてのデータセット間について、「はずれの序列」を1つの尺度で決める必要があると上で述べたが、2個以上の変数によって「データセット」が規定されるとすると、ここに、「はずれ」の程度を決める単一の尺度を持ち込まなければならない
  • 「はずれ」の序列のための単一の尺度
    • 全標本数・各列・各行の標本数が固定されているとき、作りうるすべてのNxM分割表への標本の分配のしかたに対して、特定のNxM分割表(セルの度数O={O_{ij})をのとり方の確率は、組み合わせを用いて次のように計算できる
      • ただし、全標本数をN_{..}、第i列の和をN_{i.}、第j行の和をN_{.j}と表すとする
      • ¥Large ¥frac{1}{S!} ¥times ¥frac{¥prod_{i}^{N}N_{i.}!¥prod_{j}^{M}N_{.j}!}{¥prod_{i}^{N}¥prod_{j}^{M}O_{ij}!}
      • 今、この値の大小を「はずれ」のための単一の尺度とする方法がある
      • この尺度は、2x2分割表(自由度1)の場合にもあてはまる。2x2分割表は自由度1であるので、そもそも、変数が1つ(4個のセルのうち、1つのセルの値を決めると残りの3つのセルの値が決まる)であるので、この値の大小について着目するだけで、観測データセットと「仮のデータセット」のどちらが「はずれ」ているかはわかるが、上記のように、組み合わせに基づく確率を用いても同じ序列が得られる
  • 「はずれ」の序列が得られたら、確率を足し合わせる
    • 観測データの分割表から、「期待値」の分割表が作られ、また、「期待値」の分割表を作りうるすべての観測度数の組み合わせが確率とともに計算された
    • 今、観測データと同じ観測度数が得られる確率以下の確率を持つ場合をすべて足し合わせると、それが、「観測データが『期待値』からはずれていて、極端である確率」になる
    • これが正確検定のP値である
  • 未整備ながら、本件を検討するためのエクセルを2つ
    • 2x2分割表(総標本数、各列・各行の和を指定、1セルの値を変数として取り扱うことで、とりうるすべての度数の場合とその確率とを計算する)(こちら)
    • 2x3分割表(総標本数は100で固定、各列・各行の和を指定(黄色いセル)、2セルの値を変数として取り扱うことで、とりうるすべての度数の場合とその確率とを計算する。それを2変数の2次元プロットする。各度数パターンの確率が等高線表示されている。正確検定の場合には、観測度数データの点と、その点を通る等高線よりも確率の低い点の確率を足し合わせることになる(エクセルはこちら:かなりファイルサイズが大きいです)
    • →若干、説明を加えると、100x100の2次元領域のうち、フラットな領域は「全セルが0以上」という条件を満たさないために、ありえない変数領域に相当する。等高線が描かれている部分は、「全セル0以上」条件を満たす領域である。その領域は、直線で区画されている
    • →これを自由度2のカイ自乗値になぞらえれば、2x3分割表から計算されるカイ自乗値は、個々の度数パターンごとの確率を個別に意識していないが、正確検定で計算している範囲の足し合わせを近似していることを意味する
    • →実際、エクセルが表示する等高線は確率密度であり、ある『標高』以下の部分を足し合わせる(積分する)ことで、観測データとそれよりはずれている場合のすべてについての確率を足し合わせることになる。すべてを足し合わせると1となる。他方、カイ自乗値に対応するp値は、0から1の分布をとるもので、「累積確率」になっている。それは逆に言うと、カイ自乗分布の「累積」を支える「確率密度分布」があるはずだ、ということで、それが正規分布に相当する。
    • →これは、2群の比率の差の検定を分割表のカイ自乗検定で行うことと、正規分布によって行うこととが同じことであることに対応する(正規分布が確率密度分布、カイ自乗分布が、その累積確率の分布)
    • →また、期待度数が5未満セルが全セルの2割以上ある場合や1未満のセルが1個以上ある場合に、カイ自乗値の近似が不十分であるとは、このエクセルの周辺の計算が、離散的特長を色濃く持つ(境界が多角形であるなど)ことと符号する
    • →さらにいうと、たとえ境界領域でなくても、観測度数が整数しかとれない場合には、表示の曲面(曲線)はなだらかではない。しかしカイ自乗分布はなだらかである。この違いの補正を連続性の補正と呼ぶ。ただし、連続性の補正をしない値を用いている場合も多い。なおカイ自乗値は補正をすると少し小さくなる(検定結果は少し保守的になる)から、補正をしていない検定結果はした場合より少しアグレッシブであることになる
    • →両側検定と片側検定
      • この曲面の「はずれ領域」に着目する。観測データの確率等高線以下の確率の部分が「はずれ領域」であるが、その範囲は「こっちの方向にはずれた部分」と「あっちの方向にはずれた部分」の2部分に分けることはできない。このことは、自由度2以上の分割表検定では片側検定ができないことを意味する。ただし、自由度1の場合には、片側検定ができる。なぜなら、「こっちの方向」と「あっちの方向」が分けられるからである
  • カイ自乗検定
    • 上述したが、正確確率を計算すれば事足りる。しかしながら、その計算は面倒くさい
    • したがって、NxM個の数値を算術的に紙と鉛筆で計算できる程度の複雑さで計算し、求めたい正確確率の近似値を得ようというものである
    • 算出されたカイ自乗値を対応する自由度のカイ自乗分布におけるパーセンタイル点と関係付けることでP値を得る
    • 正確検定でも記載したとおり、期待度数の値に5未満のセルが全セルの2割以上あったり、1未満のものがある場合には、正確P値とのずれが顕著になるので、使用しない