第4限 分布(記述統計)(遺伝統計学のための統計学基礎)(駆け足で読む統計学のための数学入門30講 0)



記述統計学において、データ特性を要約統計量で表示することがある。数式で記述可能な以下の分布は、要約統計量において特徴的な分布である

また、モンテカルロ・シミュレーションにおいて乱数変数を発生させるときには、その変数の生物学的特性に基づいて適当な分布に基づく乱数変数を用いる

この2点から分布・分布関数の主なものについて羅列する

幾何分布



    • 成功する確率がPの事象がある。初めて成功するのがk回目とすると、k-1回は連続して失敗していることになる。今、初めて成功する前に起きる連続失敗の回数がxである確率をP_r(k=x)とすると、xはo¥cdots ¥inftyであり、この0¥cdots ¥inftyについてP_r(k=x)を足し合わせると、1になる。このような分布を幾何分布という。→関連章はこちら

二項分布・多項分布



    • 二項分布は多項分布の項の数が2の場合
    • ある事象が併せてN回起きるとする。そのN回は、D1かD2かD3か…Dkか(k項分布)となり、それ以外の場合がないとする。このようなとき、このN1,N2,…Nkのとるパターンのすべてについて、D1がN1回、D2がN2回・・・DkがNk回起きる確率は計算できて、それらをすべてのパターンについて足し合わせると1になる。このような分布を多項分布という。関連章はこちら

超幾何分布



    • 今、2種類のものがあり、併せてN個である。M個と(N-M)個に分かれているとする。今、Nの値もMの値も不明だとする。このN個から、n個を取り出してやったら、2種類はn1個とn2個であることがわかるだろう。これを繰り返すことによって、¥frac{n1}{n1+n2}の値の推定が可能で、実は、この推定値が¥frac{M}{N}となっている。n1=xになる確率がP_r(x=k)=¥frac{_M¥mathrm{C}_k _{N-M}_¥mathrm{C}_{n-k}}{_N¥mathrm{C}_n}で、これをx=0¥cdots Nについて足し合わせると総和が1になるような確率分布であることが式変形などで示すことができ、このような確率分布を超幾何分布と言う。この超幾何分布の期待値は確率分布の式変形から求めたものと一致する。この超幾何分布が仮定しているサンプリングは、有限個(N)からn個を取り出す(取り出した後には、N-n個残る)ようなサンプリングである。このようなサンプリングは、2項分布のときのサンプリングと異なることに留意する。2項分布においては、n回の試行のそれぞれである事象の起きる確率を一様にPとしたが、こちらのサンプリングでは、取り出すたびにある事象の起きる確率は変化している(その確率の変化自体は式に登場しないが)。2項分布的なサンプリングと超幾何分布的なサンプリングである事象が観測される期待値は同じであるが、両者の違いは分散の違いとなって反映されている。ちなみに2項分布の場合の分散はV(x)=nP(1-P)であるのに対し、超幾何分布のそれはV(x)=¥frac{N-n}{N-1}nP(1-P)となる

ポアソン分布



    • ポアソン分布は2項分布の生起確率Pをゼロに限りなく近づけたものに相当している
    • 2項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
      • P_r(x=k)=_n¥mathrm{C}_kP^k(1-P)^{n-k}
      • この式では、N回試行してk回起きる確率が求められている。言い換えると試行回数を指定して、起きる回数も指定することでその確率が求められている
    • ポアソン分布は2項分布の極限
      • 今、Pが非常に小さい事象を考える。非常に小さいのでこれくらい(たとえば1万回に1回くらい)なことはわかっているが、実際に何回試行するかは未定だとする。そのような場合にも、極限をとることで、事象がk回起きる確率が計算できる。それは、生起確率が非常に小さいので、実際にN回試行するとしようとN'回試行すると仮定しようと、N¥to ¥infty回試行すると仮定した場合とみなせるような状況だから、である(多分。)
      • 実際に2項分布の極限をとってみる
        • 非常に小さい生起確率¥lambda=¥frac{m}{n}とすると、n回の試行においてk回起きる確率は
          • P_r(x=k)=_n¥mathrm{C}_kP^k(1-P)^{n-k}=_n¥mathrm{C}_k(¥frac{m}{n})^k(1-¥frac{m}{n})^{n-k}
          • 今、n¥to ¥inftyとすると¥lin_{n¥to ¥infty}P_r(x=k)=¥frac{¥lambda^k}{k!}e^{-¥lambda}と式変形できて、これは、k回起きる確率が¥lambda(1万回に1回くらい稀な事象、というときの¥frac{1}{10000}とkのみによって決まることがわかる

負の2項分布と幾何分布



  • 負の2項分布

_n¥mathrm{C}_k=¥frac{n!}{k!(n-k)!}=¥frac{n(n-1)(n-2)¥cdots(n-k+1)}{k!}自然数n,kについて定義されているが、今、n,kのうち、nを有理数aとしてやっても、式は成り立つ。これを¥begin{pmatrix}a ¥¥ k ¥end{pmatrix}と表記する。[a=-n]ただし、nは自然数としたとき、『負の2項分布』と呼ばれる。テイラー展開を用いることで、『n回成功するまでにk回の失敗があって、総計n+k回の試行をした場合を考え、そのときの失敗の回数の確率分布がP_r(x=k)=(-1)^k¥begin{pmatrix}-n ¥¥ k ¥end{pmatrix}と表されることが式変換にて示される。

    • 幾何分布はn=1であるような負の2項分布である