ryamadaの遺伝学・遺伝統計学メモ このページをアンテナに追加 RSSフィード

数学・コンピュータ関連の姉妹ブログ『ryamadaのコンピュータ・数学メモ』
京都大学大学院医学研究科ゲノム医学センター統計遺伝学分野のWiki
講義・スライド
医学生物学と数学とプログラミングの三重学習を狙う学習ツール
駆け足で読む○○シリーズ
ぱらぱらめくるシリーズ
カシオの計算機
オンライン整数列大辞典

2013-05-09 ぱらぱらめくる『情報幾何の基礎概念』

[][][][][][][][][][][]ぱらぱらめくる『情報幾何の基礎概念』

  • わかりやすいオーバービューをまず読んでからにしよう
  • こちらこれから始める
  • イントロ
    • 情報幾何はある程度幅のある概念
    • 個々の確率分布(あるいは確率構造)を点とする空間を考えること、そこで微分幾何を用いること、という緩いくくりはある
    • その空間に何があるかというと(何が置けてもそれは情報幾何の対象になるわけだが、もっとも基本的かつ重要なのは)、『フィッシャー計量〜リーマン計量』と『α-接続』の2つ
      • 『計量』は「長さ・大きさを量としてあらわすこと」
      • 『接続』は「うまいこと動かす方法(動かしたら入れ替わったり交叉したりすると大変なので、そうならないような意味での『平行移動』)のこと」。そんなものなので、その『動き方』について『まっすぐ』とか『曲がっている』とかが重要になる。(接続を「表す」必要があってそこにテンソルとかが出てくる。大きさと向き(ベクトル)的なものなので、(計量が内積的であるのに対して)接続は外積的、かな?→クリストッフェル記号
    • 統計学〜情報幾何〜情報理論〜確率論という結びつき
  • 統計多様体と指数分布族
    • 確率分布・確率密度分布(の多く)は指数関数で表せる
    • 指数関数で表したものは対数をとると便利
    • Fisher情報行列
      • まず、導入された
      • その後いろいろ考えると、よくできたものであることがわかった
      • (本質的な性質を持つので)定義の仕方もいろいろにな(りう)る
      • 基本的には、パラメタのペアワイズな関係の行列表現であり、
      • 期待値として定まっている
      • あっちこっちでいろいろな式が出るけれど、¥frac{d ¥log(f(x))}{dx}f(x) = ¥frac{d f(x)}{dx}とか(の偏微分版)、E¥[f(x)¥] = ¥int f(x) p(x) dxに注意して式変形すると導出できる
      • 確率分布p_{¥theta}を点とみなすのが情報幾何だけれど、その平方根を取って2¥sqrt{p_{¥theta}}を座標とする点とみなすようなことをすると、これは、¥{p_{¥theta}¥}を半径2の球面に配置することで、フィッシャー情報行列の成分がg_{ij} = 4¥int ¥frac{¥partial}{¥partial ¥theta^i} ¥sqrt{p_{¥theta}} ¥frac{¥partial}{¥partial ¥theta^j} ¥sqrt{p_{¥theta}} d¥muとなって、『球面』上の分布に関して、軸ペアに関して積分したもの、というきれいな値になっていることもわかる
      • こんなにシンプルなものなので、変数の取り方によらなかったりするのは当然に見える
        • ここに『半径2の球面』と『2』が出てくるのが、尤度比検定で対数尤度比に2をかける理由、かな?と思う
    • α-接続
      • アフィン接続⇔共変微分⇔接続係数⇔接続係数とフィッシャー計量とを組み合わせたもの
      • アフィン接続
      • 多様体上の点に接空間をとる。別の点にも接空間を取る。その接空間に滑らかな移行関係がある。すると接空間をすぐ近くの接空間に移すこともできて接空間を定めるベクトル(接ベクトル)の間で微分ができることになる。そんな移行関係を「アフィン接続」という
      • リーマン計量があると自然な(自明な?)アフィン接続があるのだが、リーマン計量とフィッシャー計量は同じだから、フィッシャー計量のある統計多様体にもアフィン接続がある
      • アフィン接続は接ベクトルを平行移動してくれる
      • α-接続
        • アフィン接続をある式表現で表し、そのときにαという定数を持ち込む。この式で表される接続をα-接続と言う
        • α-接続はαの値で分類することができて、αが0のときはリーマン接続、αが1のときがe-接続。αに対して (-α)で対応づけられる接続が双対接続で、α=1に対する双対接続であるα=(-1)の接続がm-接続
        • e-接続は指数分布族と関係し、m-接続は混合分布属と関係する
  • さて、確率分布・確率密度分布と情報幾何、再び
    • 確率分布・確率密度分布は空間の点
    • どのように点をとるかは座標系による
    • 座標系による、とは、パラメタの取り方をどうするか、ということ
    • 座標系の取り方によらず「分布」は存在している
    • 座標系の取り方によらずフィッシャー情報行列は定まっている
    • 分布をどういう多様体で表すかはパラメタの取り方による
    • どうせとるなら、扱いやすいパラメタの取り方がよい
    • 多様体上での動き〜接ベクトルの動きが扱いやすいのがよい
    • 接ベクトルの動きが扱いやすいとは「平坦」であること
    • 確率分布の平坦には双対関係にある2つの平坦e-平坦とm-平坦とが登場する
    • 結局、確率分布を情報幾何的に定めるというのは、『計量』としてフィッシャー情報行列を定めることと、『接続』としての具合のよいものを取ることである、となる。『接続』は双対関係の2つの接続があるので、片方を定めれば決まるのだが、両方を見える形にして置いておく方がわかりやすい(ことも多いので)、『フィッシャー情報行列』『e-接続』『m-接続』の組で定めましょう。そのうえでいろいろな検討をしましょう、と言うこと。

[][][][][][][][][]確率分布の存在空間。ぱらぱらめくる『Information Geometry on Hierarchy of Probability Distributions』

  • Information Geometry on Hierarchy of Probability Distributions
  • I. Introduction
    • (あまたある)確率分布が構成する階層構造をInformation geometryという考え方で多様体構造として表現することを目的とする
    • 確率変数同士の関係が見えてくる(独立であるとかそうでないとか、独立(らしき)変数に分解するとか)
  • II. Information Geometryの導入的基礎
    • 多様体、曲線、直交
      • 確率分布を多様体とみなす
        • 確率分布がパラメタ表現されているとする
        • そのパラメタを動かすと、「同じパラメタ表現」を持つ、いろいろな確率分布が作れる
        • そのパラメタの値によってできる確率分布の集まりを、パラメタ数の軸をもつ空間に対応づける
        • こうすることで確率分布の集合がパラメタ数nに関してn次元多様体とみなせる
          • ここがちょっと怪しいのだが『複数の確率変数同士には相互に依存・制約関係で結ばれているものがあり(カテゴリ別の確率が正単体をなすように)、それらは多様体を構成する』ということかもしれない
          • 座標系のすべての点に分布が対応しているので、「多様体」と言っても、限定した図形にはなっていない。翻って、この「座標系全体であるところの多様体」のうちの一部・局所を問題にすることもあり、その場合には、確率分布の部分集合が「全体の多様体の一部としての多様体」としてあらわれてくる。したがって、「ちょっと怪しい」と書いたが、両方の意味を持っている、ということでよいようだ
      • 確率分布の多様体にはフィッシャー情報行列が定義できて、これは、うまいことできた確率密度分布集合のときには、「内積が定義されて接ベクトル空間について実微分が可能であって…」というようなこととなり、これは「リーマン多様体」になるし、フィッシャー情報行列はリーマン計量テンソルのこととなる
      • リーマン多様体では、相互に近い点同士では、距離がうまく扱えるので確率分布間の距離もうまく扱える。この距離はさきほどのフィッシャー情報行列〜リーマン計量テンソル〜で定義できるが、それはまた、確率分布間の違いの定義(の一つである)Kullback-Leibler divergenceであることも示せる
      • 確率分布集合が曲線(という多様体)になっているとき
        • こうすると、あまたある確率分布のうち、その曲線の定義に従う確率分布の亜集合が定まり、また、曲線上を移動することを考えると、この亜集合には順序が入っている
        • 一般に、曲線を考えるとき、曲線をパラメタ表現して、そのうえで、接ベクトルと、接ベクトルのパラメタ微分とを考慮することがある
        • 確率分布の亜集合としての曲線についてもそのように考える(接ベクトルがとれて微分できるのは上述したようにリーマン多様体の条件を満たす場合)
        • 確率分布の亜集合である曲線が複数あるとき、それらはある点で交叉するかもしれない。その交叉の特徴として「直交」するかどうかは、大事であろうと思われるが、その定義を内積=0とすると(内積がとれるのもリーマン多様体の条件を満たしているから)、「曲線としての直交」=「2曲線が表している分布〜スコア〜の無関係性」という関係にあることがわかる
    • 二重に平らな多様体 e-flat & m-flat
      • 確率密度関数の中に、p(x,¥bf{¥theta})=exp(¥sum¥theta_i k_i(x) - ¥phi(¥bf{¥theta}))という形に書ける一群がある。指数関数族と呼ばれ、¥bf{¥theta}の与え方によって、見慣れた確率分布の多くがこれに属することがわかる→こちら