ryamadaの遺伝学・遺伝統計学メモ このページをアンテナに追加 RSSフィード

数学・コンピュータ関連の姉妹ブログ『ryamadaのコンピュータ・数学メモ』
京都大学大学院医学研究科ゲノム医学センター統計遺伝学分野のWiki
講義・スライド
医学生物学と数学とプログラミングの三重学習を狙う学習ツール
駆け足で読む○○シリーズ
ぱらぱらめくるシリーズ
カシオの計算機
オンライン整数列大辞典

2011-08-26 ぱらぱらめくる『Algebraic Geometry and Statistical Learning Theo

[][][][][]ぱらぱらめくる『Algebraic Geometry and Statistical Learning Theory』

  • イントロを日本語で(こちら(初めてのベイズ学習))
  • その講義資料版『学習モデルとその数理』(こちら)
  • 学習=統計的推測
    • 情報源からたくさんのサンプルが得られたときに、情報源について推測すること
      • サンプル、データ、学習例
  • 情報源の確率密度分布が学習・統計的推測の目標
    • 情報源の確率密度分布は、事前確率密度分布に確率モデルを掛けたもの
    • 確率モデルは事前確率密度分布に作用して、情報源の確率密度分布をもたらす「関数」
  • 事後確率密度関数
    • サンプルを観察する事前確率に対応する尤度が計算できる
    • 事後確率密度関数はこの尤度の分布に比例する
    • 確率密度関数にするためには、正規化定数が必要で、この正規化定数を周辺尤度とか証拠(エビデンス)と呼ぶ。分配関数とも呼ばれる
  • 情報源の真の分布と予測分布
    • サンプルを観察した下での事後確率密度で確率モデルを均すと、次の観察はこうなるだろうという分布が得られる。これを予測分布という
    • 予測分布は情報源の真の分布と似ているだろう、と推測する
  • 正規化定数・周辺尤度・証拠・分配関数とその対数
    • 分野によって、対数周辺尤度と呼ばれたり、Beyes description length、と呼ばれたり、確率的複雑さと呼ばれたり、自由エネルギーと呼ばれたりする
      • 「平衡」からのずれとエントロピー…
  • ベイズ推測は「確率モデル」と「事前分布」のペアをモデルとする推測
    • 双有理不変な推測法(2つのもののペアを推測するにあたって、いろいろなペアを取ることができるとする。そのときにペアの取り方によらずに(不変な)量があるときに、双有理不変量と言う→こちら)
    • どうせなら、解析しやすいペアにしてしまえ、と「ブローアップ」する、「トーリック改変」する
    • 推測なので、誤差がある。誤差を小さくすることと、自由エネルギーを小さくすることは強い関係にある(が等価ではない)
    • ベイズ推測は、サンプル数がすくなかったり、フィッシャー情報行列の固有値に0がある場合など(これが、singularと言うこと???)に強みを発揮する。また、階層構造モデル・隠れ変数モデルでの推測にもメリットがある。ここで言う「強み」「メリット」は、「漸近性のよさ」を持つ、ということ(たぶん)
    • ペア推定で、どれを選んだらよいか決まらないとき…周辺尤度・証拠の値を基準にすることがあり、そのやり方に手法名がついている(経験ベイズ法、タイプ2最尤法)
  • 『確率的複雑さの最小化』と『平均汎化誤差の最小化』は両立しない〜『データから最も確からしいモデルと事前分布のペア』は『平均汎化誤差を最小にすると期待されるモデルと事前分布のペア』と一致しない〜『知識の発見』と『最良の予測』とは両立しない
  • ここでこの不一致について「情報科学者」は納得し、「物理学者」は納得せず、「生物学・環境学・経済学者」はその中間か、との記載がある…
    • それは、扱っている対象に対する認識の違いなのか、対象によらない、世界観の違いなのか…
    • 分布は「きれいじゃないのが当然」と思うか「きれいなのが当然」と思うかの違いか。この「きれい」に「ゆらぎ」が入るのか入らないのか、「浮動〜ドリフト(の結果)」は入るのか入らないのか…
  • 実現可能・実現不可能