相関係数のわかりやすい解釈(続き)

http://d.hatena.ne.jp/takemita/20091204/p2
これ↑の続きです。



おさらいすると、相関係数というのは

のことで、この分子のsxyというのが共分散というもので、

と定義されるけど、言葉で言った方が簡単で、「平均からの偏差の積の平均」ですよ、と。
で、それを図形的なイメージで言うと、散布図に平均点で縦横に軸を描き込んで、プロットされている各人の点からそれぞれの軸に下ろした垂線と軸とで囲まれた長方形の(正負つきの)面積の平均というわけで、みんなそれぞれ長方形を持ってるんだけど、平均的な長方形の持ち主というのをでっちあげて、その面積が共分散ですよと、まあそんな解説をしました。
それで、いよいよ相関係数を出すわけですが、分母の方のsxとsyというのは縦軸・横軸それぞれの標準偏差なので、とりあえずは、相関係数というのは「共分散を標準偏差の積で割ったもの」と言えますね。でもたぶん、それだけじゃ呪文っぽいので、これについても図形的なイメージを持ってみたいと思います。



そこでとりあえず、標準偏差を図の中に描き込んでみたいと思います。Rで計算したところ、横軸の統計テスト1の標準偏差は2.50998点、縦軸の統計テスト2の標準偏差は4.012481点でした。平均点は(7点,10点)でしたから、横軸の9.50998点のところと、縦軸の14.012481点のところに、軸を引いてみました。
なお、図はRのplotでつくった散布図に、MSのペイントで描き込んでいるだけなので、完全に目測です。まあ、いい加減ですね。いいのいいの、こまけぇこたぁいいんです。

さて、平均点の縦横の軸と、標準偏差(正確には「平均点+標準偏差」)の縦横の軸で、また長方形ができました。標準偏差というのは、この長方形の縦横それぞれの長さのことですね。
あれ? ということは、相関係数=「共分散を標準偏差の積で割ったもの」というときの、「標準偏差の積」というのは、やっぱり縦×横、つまりこの長方形の面積なんですね! ということで、この面積を緑で塗りつぶしてみました。
そうか、きちんと塗るにはペイントの表示を拡大すればやりやすいんだな、ということに気づいたので、今度はきれいに塗れているはず。

というわけで、もうほとんど終わりです。
相関係数というのは、「共分散を標準偏差の積で割ったもの」でしたね。そして、共分散というのは、図の小さい長方形(赤線)の面積であり、標準偏差の積というのは、図の大きい長方形(青線)の面積でした。小さい長方形を大きい長方形で割るんですから、要するに、

小さい方の面積は、大きい方の何割か

を計算していることになります。この割合が、相関係数なんですね。
Rで計算してみると、相関係数は0.749659でした。つまり、小さい方は大きい方の大体75%、4分の3くらいです。



さて、なんでそうなるのかはともかくとして(笑)、相関係数は最小値が-1で、最大値が1です。正負は共分散の正負によって決まるということで、それは無視することにすると、

相関係数の絶対値は0以上1以下

ですね。相関係数は二つの長方形の面積の比率だったので、それが1以下ということは、つまり

共分散として作られる平均的な長方形は、標準偏差によって作られる長方形より大きくなることはない

ということです。相関係数を計算するということは、平均的な長方形が、標準偏差が作る長方形の大きさにどのくらい近づけているかを、割合として算出しているのと同じことなのです。



前に、標準得点(z得点)の話をしたときに、各人の偏差を、標準偏差で割ることによって、その人の偏差は標準偏差の何倍かという形で、数値の振り直しをするんだということを言いました(この標準得点を10倍して50を足すと偏差値ですね)。これを標準化というわけです。
http://d.hatena.ne.jp/takemita/20081017/p2
相関係数も、共分散の長方形の面積を、標準偏差の長方形の面積で割ることによって、前者は後者の何倍か(何割か)というので数値の振り直しをしているわけですから、これも標準化の一種です。

実は、勉強会のときには、上記の「長方形の面積の割合」というのとは異なる解説をしました。
上の例で、共分散で表される面積の長方形を、横(統計テスト1)が 点、縦(統計テスト2)が 点ということにしましょう(上の例では ですね)。
そうすると、共分散は です。だから相関係数は、

ですね。これはまあ代入しただけで。でも、先にかけてから割るのと、先に割ってからかけるのは同じですから、同じ式を、次のようにも書けるわけです。

とか とかいうのは、平均的な長方形の持ち主としてつくられた虚構的な人の、縦横それぞれの、平均からの偏差でした。この偏差を、それぞれ標準偏差で割ってから、かけ合わせています。
はい、偏差を標準偏差で割る、それはつまり標準化ということで、それで出るのが標準得点(z得点)でした。つまり、相関係数の計算というのは、共分散として計算された長方形の縦横それぞれの辺の長さを、まず標準化して、それからその標準得点によって面積を計算し直したものだ、ということになります。まあ、そういう解説をしたわけです。
どうなんでしょうね。どっちがイメージしやすいかというと、やっぱり上の二つの長方形の比率による解説ですかね。



以上で終わりなんですが、もうちっとだけ続くんじゃ。

不偏なんたらの件

あれなんですよ、Rに入っている「分散」の関数「var()」って、不偏分散なんですよ。分散というのは「平均値からの偏差の二乗の平均」だっていうんだけど、最後の平均を計算するの人数がn人じゃなくて一人減らしてn-1人なんですよね。これは初心者には大変不便。
普通の分散(標本分散)を計算するには、「var()」で計算した値を 倍してやらないといけなくてめんどくさいんです。
とりあえず、

  • 割る人数減らすってことは、値は大きくなるってこと。
  • それが不偏っていうんだから、逆に、標本分散は値が(不当に)小さくなってるってこと。
  • ふーん、標本をとると、母集団より、散らばり具合が小さくなるんだー。困ったことですねー。

といったことを押さえて、さっさと標本分散の関数を自分で書いて保存してしまうのが一番。
でまあそれはともかく、分散の平方根である標準偏差「sd()」も同じで、不偏分散の平方根になっている。
それから、共分散の関数「cov()」も、やっぱり 人で割る不偏共分散。あーめんどくせー。
ところが、相関係数の関数「cor()」については、そういうことを考えなくてもいいんだよ、というのがおまけの話。
まあ簡単な話で、何人で割るかというのを 人とすると

ですよね。分母をちょっと整理すると

となって、約分ができます。つまり

やったー。ということで、めでたく は消えました。つまり、共分散や分散を計算するときに、不偏共分散や不偏分散にするのか、標本共分散や標本分散にするのかということ、つまり何人で割るのかということは、相関係数の値には関係しないんです。よかったですね。

Wolfgang Petersen監督『Troy』(邦題:トロイ)

トロイ ディレクターズ・カット [Blu-ray]

トロイ ディレクターズ・カット [Blu-ray]

あんまりいい評判聞かないけど、観てみたら面白いじゃんこれ、と思ったらディレクターズカットでは30分も長くなっていて、その多くが、私が気に入った残虐シーンらしい。
とにかくきちんと、血が噴き出すし、首が飛ぶし、市民は首にロープ巻かれて窓から吊るされるし、石の塊みたいなので頭潰されるし、女は犯されるし、乳飲み子は火の中に投げ捨てられる。これが、トロイの木馬のもたらした栄光ある勝利なんだということがよくわかる。またそれを非難がましく描いていないところも好感触。こういうもんなの、っていう感じで。
アキレウスヘクトルの対決とか、パリス女々しすぎワロタとか、ヘレネーの心中察するとあれだなとか、オデュッセウス影薄くない?とか、そういういろいろは、それなりというか普通だけど、そういうのはあれでしょ、残虐な戦闘シーンにお金かけるためのバーターでしょ。だからいいの。