2005-11-25

第４限分布(記述統計)(遺伝統計学のための統計学基礎)(駆け足で読む統計学のための数学入門30講 0)

統計分布 Glossary

記述統計学において、データ特性を要約統計量で表示することがある。数式で記述可能な以下の分布は、要約統計量において特徴的な分布である

また、モンテカルロ・シミュレーションにおいて乱数変数を発生させるときには、その変数の生物学的特性に基づいて適当な分布に基づく乱数変数を用いる

この２点から分布・分布関数の主なものについて羅列する

2005-11-25

幾何分布

分布 Glossary

成功する確率がPの事象がある。初めて成功するのがk回目とすると、k-1回は連続して失敗していることになる。今、初めて成功する前に起きる連続失敗の回数がxである確率を $P_r(k=x)$ とすると、xは $o￥cdots ￥infty$ であり、この $0￥cdots ￥infty$ について $P_r(k=x)$ を足し合わせると、１になる。このような分布を幾何分布という。→関連章はこちら

2005-11-25

二項分布・多項分布

分布 Glossary

二項分布は多項分布の項の数が２の場合
ある事象が併せてN回起きるとする。そのN回は、D1かD2かD3か…Dkか(k項分布)となり、それ以外の場合がないとする。このようなとき、このN1,N2,…Nkのとるパターンのすべてについて、D1がN1回、D2がN2回･･･DkがNk回起きる確率は計算できて、それらをすべてのパターンについて足し合わせると１になる。このような分布を多項分布という。関連章はこちら

2005-11-25

超幾何分布

分布 Glossary

今、２種類のものがあり、併せてN個である。M個と(N-M)個に分かれているとする。今、Nの値もMの値も不明だとする。このN個から、n個を取り出してやったら、２種類はn1個とn2個であることがわかるだろう。これを繰り返すことによって、 $￥frac{n1}{n1+n2}$ の値の推定が可能で、実は、この推定値が $￥frac{M}{N}$ となっている。n1=xになる確率が $P_r(x=k)=￥frac{_M￥mathrm{C}_k _{N-M}_￥mathrm{C}_{n-k}}{_N￥mathrm{C}_n}$ で、これを $x=0￥cdots N$ について足し合わせると総和が１になるような確率分布であることが式変形などで示すことができ、このような確率分布を超幾何分布と言う。この超幾何分布の期待値は確率分布の式変形から求めたものと一致する。この超幾何分布が仮定しているサンプリングは、有限個(N)からn個を取り出す(取り出した後には、N-n個残る)ようなサンプリングである。このようなサンプリングは、２項分布のときのサンプリングと異なることに留意する。２項分布においては、n回の試行のそれぞれである事象の起きる確率を一様にPとしたが、こちらのサンプリングでは、取り出すたびにある事象の起きる確率は変化している(その確率の変化自体は式に登場しないが)。２項分布的なサンプリングと超幾何分布的なサンプリングである事象が観測される期待値は同じであるが、両者の違いは分散の違いとなって反映されている。ちなみに２項分布の場合の分散は $V(x)=nP(1-P)$ であるのに対し、超幾何分布のそれは $V(x)=￥frac{N-n}{N-1}nP(1-P)$ となる

2005-11-25

ポアソン分布

分布 Glossary

ポアソン分布は２項分布の生起確率Pをゼロに限りなく近づけたものに相当している
２項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
- $P_r(x=k)=_n￥mathrm{C}_kP^k(1-P)^{n-k}$
- この式では、N回試行してk回起きる確率が求められている。言い換えると試行回数を指定して、起きる回数も指定することでその確率が求められている
ポアソン分布は２項分布の極限
- 今、Pが非常に小さい事象を考える。非常に小さいのでこれくらい(たとえば１万回に１回くらい)なことはわかっているが、実際に何回試行するかは未定だとする。そのような場合にも、極限をとることで、事象がk回起きる確率が計算できる。それは、生起確率が非常に小さいので、実際にN回試行するとしようとN'回試行すると仮定しようと、 $N￥to ￥infty$ 回試行すると仮定した場合とみなせるような状況だから、である(多分。）
- 実際に２項分布の極限をとってみる
  - 非常に小さい生起確率とすると、n回の試行においてk回起きる確率は
    - $P_r(x=k)=_n￥mathrm{C}_kP^k(1-P)^{n-k}=_n￥mathrm{C}_k(￥frac{m}{n})^k(1-￥frac{m}{n})^{n-k}$
    - 今、 $n￥to ￥infty$ とすると $￥lin_{n￥to ￥infty}P_r(x=k)=￥frac{￥lambda^k}{k!}e^{-￥lambda}$ と式変形できて、これは、k回起きる確率が $￥lambda$ (１万回に１回くらい稀な事象、というときの $￥frac{1}{10000}$ とkのみによって決まることがわかる

2005-11-25

負の２項分布と幾何分布

分布 Glossary

負の２項分布

$_n￥mathrm{C}_k=￥frac{n!}{k!(n-k)!}=￥frac{n(n-1)(n-2)￥cdots(n-k+1)}{k!}$ は自然数n,kについて定義されているが、今、n,kのうち、nを有理数aとしてやっても、式は成り立つ。これを $￥begin{pmatrix}a ￥￥ k ￥end{pmatrix}$ と表記する。[a=-n]ただし、nは自然数としたとき、『負の２項分布』と呼ばれる。テイラー展開を用いることで、『n回成功するまでにk回の失敗があって、総計n+k回の試行をした場合を考え、そのときの失敗の回数の確率分布が $P_r(x=k)=(-1)^k￥begin{pmatrix}-n ￥￥ k ￥end{pmatrix}$ と表されることが式変換にて示される。

幾何分布は $n=1$ であるような負の２項分布である