ryamadaの遺伝学・遺伝統計学メモ このページをアンテナに追加 RSSフィード

数学・コンピュータ関連の姉妹ブログ『ryamadaのコンピュータ・数学メモ』
京都大学大学院医学研究科ゲノム医学センター統計遺伝学分野のWiki
講義・スライド
医学生物学と数学とプログラミングの三重学習を狙う学習ツール
駆け足で読む○○シリーズ
ぱらぱらめくるシリーズ
カシオの計算機
オンライン整数列大辞典

2011-08-26 ぱらぱらめくる『Algebraic Geometry and Statistical Learning Theo

[][][][][]ぱらぱらめくる『Algebraic Geometry and Statistical Learning Theory』

  • イントロを日本語で(こちら(初めてのベイズ学習))
  • その講義資料版『学習モデルとその数理』(こちら)
  • 学習=統計的推測
    • 情報源からたくさんのサンプルが得られたときに、情報源について推測すること
      • サンプル、データ、学習例
  • 情報源の確率密度分布が学習・統計的推測の目標
    • 情報源の確率密度分布は、事前確率密度分布に確率モデルを掛けたもの
    • 確率モデルは事前確率密度分布に作用して、情報源の確率密度分布をもたらす「関数」
  • 事後確率密度関数
    • サンプルを観察する事前確率に対応する尤度が計算できる
    • 事後確率密度関数はこの尤度の分布に比例する
    • 確率密度関数にするためには、正規化定数が必要で、この正規化定数を周辺尤度とか証拠(エビデンス)と呼ぶ。分配関数とも呼ばれる
  • 情報源の真の分布と予測分布
    • サンプルを観察した下での事後確率密度で確率モデルを均すと、次の観察はこうなるだろうという分布が得られる。これを予測分布という
    • 予測分布は情報源の真の分布と似ているだろう、と推測する
  • 正規化定数・周辺尤度・証拠・分配関数とその対数
    • 分野によって、対数周辺尤度と呼ばれたり、Beyes description length、と呼ばれたり、確率的複雑さと呼ばれたり、自由エネルギーと呼ばれたりする
      • 「平衡」からのずれとエントロピー…
  • ベイズ推測は「確率モデル」と「事前分布」のペアをモデルとする推測
    • 双有理不変な推測法(2つのもののペアを推測するにあたって、いろいろなペアを取ることができるとする。そのときにペアの取り方によらずに(不変な)量があるときに、双有理不変量と言う→こちら)
    • どうせなら、解析しやすいペアにしてしまえ、と「ブローアップ」する、「トーリック改変」する
    • 推測なので、誤差がある。誤差を小さくすることと、自由エネルギーを小さくすることは強い関係にある(が等価ではない)
    • ベイズ推測は、サンプル数がすくなかったり、フィッシャー情報行列の固有値に0がある場合など(これが、singularと言うこと???)に強みを発揮する。また、階層構造モデル・隠れ変数モデルでの推測にもメリットがある。ここで言う「強み」「メリット」は、「漸近性のよさ」を持つ、ということ(たぶん)
    • ペア推定で、どれを選んだらよいか決まらないとき…周辺尤度・証拠の値を基準にすることがあり、そのやり方に手法名がついている(経験ベイズ法、タイプ2最尤法)
  • 『確率的複雑さの最小化』と『平均汎化誤差の最小化』は両立しない〜『データから最も確からしいモデルと事前分布のペア』は『平均汎化誤差を最小にすると期待されるモデルと事前分布のペア』と一致しない〜『知識の発見』と『最良の予測』とは両立しない
  • ここでこの不一致について「情報科学者」は納得し、「物理学者」は納得せず、「生物学・環境学・経済学者」はその中間か、との記載がある…
    • それは、扱っている対象に対する認識の違いなのか、対象によらない、世界観の違いなのか…
    • 分布は「きれいじゃないのが当然」と思うか「きれいなのが当然」と思うかの違いか。この「きれい」に「ゆらぎ」が入るのか入らないのか、「浮動〜ドリフト(の結果)」は入るのか入らないのか…
  • 実現可能・実現不可能

2011-08-24 ぱらぱらめくる『Lectures on Algebraic Statistics』

[][][][]ぱらぱらめくる『Lectures on Algebrainc Statistics』

Lectures on Algebraic Statistics (Oberwolfach Seminars)

Lectures on Algebraic Statistics (Oberwolfach Seminars)

  • 第1章 マルコフ基底(参考1)(参考2)
    • 分割表の仮説検定
    • 階層化モデル(因子の組み合わせの階層化)とマルコフ基底
      • 極小基底:(高次の)分割表を一歩一歩動くための差を表す行列(周辺度数が0でセルの値が0,1,-1...?)
    • Integer Lattice の基底
  • 第2章 尤度推定
    • 離散モデル・正規分布モデル
    • 陰的モデルの尤度関数
    • 尤度比検定
  • 第3章 条件付き独立(リンク)
    • 条件付き独立モデル
    • グラフモデル
    • グラフモデルのパラメタ化
  • 第4章 隠れた変数(Wiki)
    • "Secant variety"(Wiki)
  • 第5章 ベイズ積分(Wiki)
    • 情報量基準と漸近性
    • 離散モデルにおける正確な積分

2011-08-23 ぱらぱらめくる『計算統計入門・代数生物学』

[][][][]ぱらぱらめくる『計算統計入門・代数生物学』

  • 第0章「計算統計入門」と「代数生物学」
    • 両者とも、コンピュータ処理能力の飛躍的な発達によって可能となった技術への数学
      • 大量データの収集と解析
      • 大容量メモリが可能とする「代数」的取扱い対象の拡大
        • Mathematicaでやると、項数がものすごく多くなるような処理だけれど、気にせずにメモリを使い倒して、実行しよう…という感じ
  • 計算統計入門
    • 第1章 ビュッフォンの麺
      • 幅が一定の板張りの床に針を多数回、落として¥piの値を推定する(ビュッフォンの針(Wiki))
      • 多数回のランダムな実験によって、「計量」すること
      • 計量は1次元・2次元・3次元…の体積
    • 第2章 次元の呪い(とその回避)
      • n^d:d乗は指数関数的増大→手におえない
      • 回避できるとよい(d^2とか)
      • 動的計画法(Wiki):問題を小さく分割して、結果として次元の呪いを回避する
      • モンテカルロ法(Wiki)で回避する:不等式を次元の増大ごとに重ねていくと、不等式が許している「真と上限(下限)との差」が大きくなり、次元に呪われる。モンテカルロで、誤差を次元数の分、足し合わせると、「最大の誤差」になる確率は非常に小さいので、そのような「真と限の差」が大きい場合は「ほとんどない」ものとして、「よくある差」に着目することができる
    • 第3章 独立な高次元サンプリング
      • 単体の均一サンプリング
      • 高次元正規分布は「外側」に観察されること
    • 第4章 マルコフ従属なサンプリング
      • マルコフ連鎖(Wiki)と推移確率行列
      • 分布に沿ったサンプリング
      • メトロポリス-ヘイスティング(Wiki)
      • ギッブス(Wiki)
      • マルコフ連鎖モンテカルロ(Wiki)
    • 第5章 大域感度分析
      • 関数の表す分布(ばらつき)の解析にANOVA(分散の和を保った分解をすることと、その分解のばらけさせ方のパターンによる解析)
    • 第6章 文献案内
  • 代数生物学
    • 代数的
      • 多項式は式のままで
      • ¥sqrt{2}1.414...とせず、¥sqrt{2}のままで
      • 計算機の大規模化が代数的取扱い範囲を拡張
    • 第7章 多細胞系の形式言語による理解と記号計算による関係式の導出
      • 形式言語(Wiki)((文字列)の形式的操作)
      • 発生・進化:少ないルールで(着実な?)多様性
      • L-system(こちら)
      • 限量記号消去法(述語論理操作)(Wiki)(こちら)
      • 確率的Lシステム
    • 第2章 記号計算によるパーキンソン病診断
      • コンパートメントモデル(こちら)
      • 外力消去:モデルにおいて、現れてほしくないパラメタが出ないような形に変形すること
      • 畳み込んで消去…することで無理なフィッティングがなされたり
      • 常微分方程式系とそのラプラス変換(Wiki)
        • 非線形はラプラス変換に乗らないけれど、「局所解析」では、線形近似してラプラス変換(こちら)
      • ラプラス変換した後のラプラス空間
      • さらに、多項式系に限局して、解くべく、グレブナー基底(Wiki)(多変数多項式の簡約化が一意に行える多項式の集合)を求める

2011-08-20 代数統計学・代数生物学

[][][][]代数統計学 algebraic statistics

  • 代数統計学という分野があるそうだ
  • こちらで次のように書かれている
  • 「近年の統計学の発展はめざましい. その原動力は計算機の性能の大幅かつ急速な進歩である. それによって統計学の方法は一新され, 適用範囲も広がった. 一方, 大量の計算が必要なため, かっては実用的でないとされていた方法が復活し, 大幅に適用範囲を広げたたこともある。…代数を使った統計の分野は「代数統計」とか「計算代数統計」 と呼ばれている. 代数の分野では, 群論(有限群, 線形群, 表現), 代数幾何 (多項式環), 可換環論 (対称式, 不変式), 組合せ論 (Young 図形, 数え上げ, 母関数, 有限幾何, グラフ, 結合的概型) といったものが使えそうである. 今この分野は第二期の爆発的発展の直前にあるように感じる (第一期はグレブナー基底の登場).」
  • Algebraic statisticsのWiki
  • その他の資料1資料2
  • こちらでやっている、2(多)次元の簡単でないパターン認識は、このあたりの方法を使うのが良いのではないかと思う
Lectures on Algebraic Statistics (Oberwolfach Seminars)

Lectures on Algebraic Statistics (Oberwolfach Seminars)