Hatena::ブログ(Diary)

小人さんの妄想 このページをアンテナに追加 RSSフィード Twitter

2018-10-16

チェビシェフの不等式のかんたん理解

どのような標本・確率分布でも・・・平均から 2標準偏差以上離れた値は全体の 1/4 を超えることはなく、

一般にn標準偏差以上離れた値は全体の ¥frac{1}{n^2} を超えることはない。

    >> wikipedia:チェビシェフの不等式 より.

式で表すと、

  P( |x - ¥mu| ¥geq a ¥sigma) ¥leq ¥frac{1}{a^2}

  P() は、カッコの中が成り立つ確率、という意味。

  μは平均。|x-μ| は、個々のデータの値と平均との偏差のこと。

  σ は標準偏差

  a には任意の数を当てはめることができる。

* そんなの常識、あたりまえでない大数の法則 >> http://miku.motion.ne.jp/stories/08_LargeNum.html

このように書くと何だかとても難しいことのように思えますが、実はアタリマエのことを言っているに過ぎません。


● 最も単純な標準偏差1の分布

最も単純な標準偏差1の分布は、データが +1と -1の、2個だけというものでしょう。

f:id:rikunora:20181016155818p:image

 標準偏差σ = √{ (1^2+ (-1)^2) / 2 } = 1。

この状況をチェビシェフの不等式にあてはめると、

『平均0から、1標準偏差以上離れた値は全体の 1/1 を越えることは無い』

つまり、全部のデータを1よりも遠くに引き離すことはできない、ということを言っています。

試しにデータを少しだけ動かして +1.1 と -1.1 にしたならば、それに合わせて標準偏差も 1.1 と大きくなります。

ならば、+1.1 と -0.9 といった具合に動かしてみると、今度は平均が 0.1に上がるだけで、

やはりどちらのデータも標準偏差の1.1を上回る(あるいは-0.9を下回る)ことはありません。


つまり標準偏差とは、データを2個の点で代表させたとき、その広がり方のこと』だったのです。

平均値を『データを1個の点で代表させたとき、その値のこと』だと考えれば、

標準偏差とは、いわば“平均値の2個版”だと見なせます。

データが2個だったとき、チェビシェフの不等式が主張する通り「どのデータも標準偏差を超えることはない」、

・・・そもそも2個のデータの隔たりのことを標準偏差と呼んでいたのだ、と理解できます。


標準偏差が2を越える分布

次に、一部のデータが標準偏差2を越えるような、なるべく単純な分布を考えてみましょう。

2個のデータを +2と -2 に置いて、これらがちょうど標準偏差2に位置するように調整すると、こうなります。

f:id:rikunora:20181016155937p:image

データを +2 と -2 に1個ずつ、あとは0を6個配置する。

最も隔たりの大きい +2, -2 のデータをちょうど標準偏差2の位置に持ってくるには、

標本全体としての標準偏差を1に調整しなければなりません。

それには、±2の広がりを打ち消すだけのデータを平均の0に置く必要があります。

(必ずしも0に置かなくても良いのですが、0に置くのが標準偏差を縮めるには最も効率的です。)

標準偏差を1に保つには、

 { (+2)^2 + (-2)^2 } / (全データの個数) = 1

となるので、(全データの個数) = 8 だと分かります。

このとき、標準偏差2を越える(2以上の)データは8個中2個なので、

確かにチェビシェフの不等式が主張する通り 1/2^2 = 1/4 となっています。


標準偏差がNを越える分布

同じことを、標準偏差3を越える場合で考えると、こうなります。

f:id:rikunora:20181016160016p:image

データを +3 と -3 に1個ずつ、あとは0に16個配置する。

 (全データの個数) = 3^2 × 2

  ・なぜ2乗するかというと、そもそも分散とは各データの偏差の2乗の合計だったからです。

  ・なぜ2倍するかというと、プラス側とマイナス側で2倍になるからです。


標準偏差4を越える場合は、こうなります。

f:id:rikunora:20181016160043p:image

データを +4 と -4 に1個ずつ、あとは0に30個配置する。

 (全データの個数) = 4^2 × 2


標準偏差Nを越えるデータを1個置きたかったなら、N^2 個より多くのデータを0に置く必要がある』

これが、チェビシェフの不等式の意味するところだったのです。


スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/rikunora/20181016/p1