ちょっと見つけた参考サイト
本日みつけた、面白かったサイトをあげておく。
●この浅野氏のサイトは統計学的な方法を画像処理につかうという方法で面白かったです。
●マハラノビスの汎距離の説明はこちら。
●そして、最後に統計言語Rについての記事で、著者が大学を移られて一時消えていたサイトです。
距離の概念の整理の再挑戦
昨日諦めたところから、今度は「距離」の概念という考え方に基づいて、再度整理してみた。このファイルのPDFをここに格納した。
というか、そもそもLaTexで作って、mimeTeX用に変換したので・・・・
距離の概念が統計的に大事
ある対象に対して、幾つかの測定値の組 が得られたとする。この測定値の組を対象の座標として考える事が多変量解析の基本。そして、対象と対象との関係や、変数と変数との関係を、点と点の距離で表すことによって、数学的な解析に置き直す事ができる。とっても大事な概念だと思う。判別分析や主成分分析とも関係するし・・・・
距離の概念の基本的な考え方
さて、距離を考える上での基本的な考え方は、ユークリッド距離の考え方である。ユークリッド距離では、一般に点が のように個の座標値を持つならば、点から原点への距離は以下のように表すことが出来る。
また2点ととの間の距離は、 とすると以下のように表すことが出来る。
測定値にバラツキがある場合の距離
このようなユークリッド距離は単純だが、実際にデータを取った場合は、そう単純ではない。ユークリッド距離の計算には、それぞれの座標が平等に寄与している事が前提である。ところが実際の測定値は元々大きなバラツキを示す測定値もあれば、小さなバラツキを示す測定値もある。
例えば図のように変数のバラツキの方が変数のバラツキよりも大きな分布を示す場合を考えよう。それぞれの測定値で同じ1という値が得られたとする。元々小さいバラツキを示すという変数における1という値の重要度の方が、元々大きいバラツキを示すにおける1という値よりも重要と考えるのが順当だろう。
このように、それぞれの測定値のバラツキによって同じ1という値の意味、つまり単位の重要度が異なると考えるとすると、それぞれの座標値を測定値の標準偏差で割る。つまり、以下のように点という値があるならば、
と変換してあげることで、単位当たりの重要度を同じに揃えようという考え方である。そうすれば、先のユークリッド距離が適用できる。
このように標準化した場合、点と原点との距離は以下のように表す事が出来るはずである。
さらに測定値に相関がある場合の距離
実際のデータをみると、これでも足りない。それは変数間の相関関係である。今度は図のように2つの変数の分布に相関関係がある場合を考えてみよう。例えば、「身長」と「脚の長さ」のように、変数との2つの測定値があり、それが相関するという事である。こうした場合はどうしたら良いだろうか?
先の考え方と同様にするためには、まず最もデータのバラツキを表現する主軸と、それに直交する軸を作り、ある点をその新しい直交軸との2軸で表現すれば良いだろう。もし点を新しい座標軸でと表現出来たとすると、原点から点までの距離は、新しい軸の標準偏差とを利用して、以下のように「単にバラツキが違う」だけの方法と同じように表現すれば良いだけになるはずである。
まずは色々と材料を準備しよう
料理を始める前に、まずは色々と定義をして準備にとりかかることにしよう。まずは、得られたデータの組を行列で表す。変数との2つの測度に関する組のデータを以下のように行列で表すとする。
ここで、新しい座標軸としてとが出来たと仮定しよう。ちょっとだけ強引かもしれないが仮定するのである。このともとと同様には直交していると考えるのは順当と思う。この新しい座標軸での値を持ってきて下のように行列で表すとする。
どうなっていたら嬉しいの?
さて、準備した所で・・・つぎにどうなっていたら良いのかを考えることにする。まず、元のデータの相関行列はどのように表せるか? このままだと基準化していないので、正確には分散・共分散行列だが、データをあらかじめ平均からの偏差に変換()してあると考えておけば問題ない。
それに対して、勝手に仮定した新しい座標での相関行列(正確には分散・共分散行列)はどうなるか?
ここで、新しい座標軸上では2つの変数のデータが無相関であるのが嬉しい。つまり、とがとなるようになっていれば、単に変数によってバラツキが違う場合と同様に距離を計算できるはずである。
なので、新しい座標軸での相関行列を対角化(対角成分以外をゼロに)できるように新しい座標軸を設定すれば良いのである。
いきなり直感的な答えを仮定する
さて、ここではいきなり直感的に答えを出して、それが本当だ!という説明で理解したことにしたい。
答えは、
現在の座標系でみた相関行列の固有ベクトルの方向に、新しい座標系を取れば、新しい座標系での相関行列の対角成分はゼロ、つまり相関なしになる。
固有ベクトルを座標軸にした表現をして相関行列を求める
まずは、固有ベクトルの方向の成分で表示したら、新しい座標軸上の相関係数行列はどうなるかを考えよう。ここで、ぞれぞれの固有ベクトルは長さが1で、お互いに直交すると考えておく。まあ、座標軸とするのだから当然ですが・・・
点を新しい軸との成分で表すとすると、図のようにとという2つのベクトルに下ろした足の長さが、新しい軸での成分である。
足の長さを求めるには内積を用いて
これをひとつの式で表すと
すべての点について表すと
つまり
ここまできたら、次は新しい座標軸でのデータ行列の相関を求めると、
つまり、新しい座標系での相関行列はと表せるわけである。
ここで、とが元々のの固有ベクトルだから、が対角化されるという事を示すのだが、その前に、そもそも固有ベクトルゆえの性質を利用するので・・・また一旦脇道にそれて・・・。
固有行列の特徴から対角化される事を確認する
そもそも相関行列の固有ベクトルなのでが成り立つ。つまり以下のように表せる。
これをひとつの行列にまとめると
つまり
さてさて脇道から戻って・・・
であり、
ここで固有ベクトルはお互いに直行するので、なので
ほらね。新しい座標系ではデータの相関がなくなり、新座標軸のバラつきが残った形になっている。
ちなみに、は第一軸のバラつきを意味し、は、第二軸のバラつきを意味している。
さらに・・・
本当は、これはマハラノビスの汎距離と言われるもので、 と表す事ができる。そうすると、バラツキがあろうが、相関しようが統一して表現できるのだが、そのあたりはまた今度・・・・ながかった・・・・。