ryamadaの遺伝学・遺伝統計学メモ このページをアンテナに追加 RSSフィード

数学・コンピュータ関連の姉妹ブログ『ryamadaのコンピュータ・数学メモ』
京都大学大学院医学研究科ゲノム医学センター統計遺伝学分野のWiki
講義・スライド
医学生物学と数学とプログラミングの三重学習を狙う学習ツール
駆け足で読む○○シリーズ
ぱらぱらめくるシリーズ
カシオの計算機
オンライン整数列大辞典

2007-12-04 一から始める遺伝子多型-形質関連解析

[][][][]6' 遺伝子多型分割表データの関連検定の見方 SNPケースコントロール関連検定に見る、いろいろな検定

2007-12-03 一から始める遺伝子多型-形質関連解析

[][][][]7 CNPケースコントロール関連検定手法をSNPケースコントロール関連検定手法から拡張する

  • SNPは3ジェノタイプ、CNPはNg=3以上のジェノタイプがある
  • SNPの検定手法ごとに対応する手法を右に示す
    • ジェノタイプを順序なしカテゴリとする
      • (1)2x3分割表のカイ自乗検定・・・対応検定2xNg分割表カイ自乗検定
      • (2)その正確確率検定・・・その正確確率検定(計算量が多く非現実的)
    • 特定モデル
      • Additive model相当・・・コピー数和について1ずつ重みを加えるモデル
        • 傾向性検定
          • (3)Cockran-Armitage・・・なし
          • (4)Trend カイ自乗検定・・・SNPに同じ
        • (5)アリルの2x2表カイ自乗検定・・・アリルの2xNa表カイ自乗検定
        • (6)アリルの2x2表正確確率検定・・・その正確確率検定(計算量が多く非現実的)
        • (7)Mann-Whitney・・・SNPに同じ
        • (8)線形回帰・・・SNPに同じ
      • 優性モデル相当・・・コピー数の多寡の閾値に応じて、多様になる
        • コピー数和が閾値以下とそれより大の2群に分ける
        • (9)2x2表作り直しカイ自乗検定・・・SNPに同じ
        • (10)2x2表作り直し正確確率検定・・・可能(ただし、正確確率の計算方法は不適切)
        • (11){1,1,0}重み付けの傾向性カイ自乗検定・・・{1,1,...,1,0,0,...0}のように重み付ける。SNPに同じ
      • 劣性モデル相当・・・優性モデルで述べた拡張法に含まれる
        • (12)2x2表作り直しカイ自乗検定
        • (13)2x2表作り直し正確確率検定
        • (14){1,0,0}重み付けの傾向性カイ自乗検定
    • サンプル2x6分割表
49	42	9	12	5	4	
45	41	14	11	3	6	
    • 結果
---ジェノタイプを順序なしカテゴリとする
(1)		2x6 Table ChiSqTestP(df=5)
(2)	-----------------
---Additive model相当
(3)	-----------------	Cockran-Armitage Trend P
(4)	0.6603449799708931	TrendChiSqP
(5)	-----------------	2x2 Table of allele ChiSqTestP(df=1)
(6)	-----------------	2x2 Table of allele ExactP
(7)	0.5475621670659176	Mann-Whiteney
(8)	0.6619374063504799	Linear Regression
---優性・劣性モデル相当
(9)	0.6335392359321141	1	More than 0コピー vs. Others	
	0.5338275983821452	1	More than 1コピー vs. Others	
	0.8868654597888093	1	More than 2コピー vs. Others	
	0.985398587937991	1	More than 3コピー vs. Others	
	0.5096336907791201	1	More than 4コピー vs. Others	

2007-12-02 一から始める遺伝子多型-形質関連解析

[][][][]5 遺伝子多型分割表データの関連検定の見方 総論

  • ひとつの分割表から関連についての情報はさまざまなとりかたがある
    • 『どんな関連』について調べたいかによる『いろいろ』
    • あるひとつの『どんな関連』についても複数の検定結果が得られる、という意味でも『いろいろ』
  • フェノタイプ数Np、ジェノタイプ数Ngの分割表データが得られたとする。
  • フェノタイプとジェノタイプとが無関係(独立)であるか、そうでないかについては、いくつかの見方がある。
  • その見方は、フェノタイプとジェノタイプとに関係があるとしたときに、どのような関係を積極的に検出したいか、という意図に直結するので、それぞれの見方の特徴を理解することが適切であり、それぞれの見方に対応する検定手法を用いることが適当である。

[][][][]6 遺伝子多型分割表データの関連検定の見方 SNPケースコントロール関連検定に見る、いろいろな検定

  • SNPは3ジェノタイプ
    • この3ジェノタイプは、それぞれがどんなリスクを持っているか、知れたものではない、という意味では、相互に順序できない3カテゴリともみなせる
    • この3ジェノタイプは、2アリルのうちの片方に着目すると、0本、1本、2本という明らかな順序があるので、順序つきカテゴリとみなすことも、自然である
  • ケース・コントロールは2フェノタイプ
  • 2カテゴリは、それに順序があるとみなしても、こちらかあちらか、という判断しかできないので、ある軸について順序があるものとみなせるので、必ず、順序有りカテゴリである
  • 『どんな関連』かによる『いろいろ』
    • 3ジェノタイプカテゴリのどれにどれくらいリスクがあったとしても、それを信じよう、というような関連の見方
      • 特定の関連の見方に対する『いろいろ』な関連検定手法には、次のような分け方がある
        • 漸近近似検定(算術的に計算できる統計量を計算し、その統計量を既知の確率密度分布に照らしてp値とする方法)と、それに対応する正確確率検定のペアが、ほぼ必ず存在し、それが『いろいろ』な手法として数を増やす
          • 漸近近似検定は、計算が簡単だが、サンプル数がすくなくなると、誤差が無視できなくなる
          • 正確確率検定は、計算は面倒だが、サンプル数がすくなくても、正確である
        • 同じ見方に、複数の漸近近似統計量が知られている場合も、手法の数が増える。Additive modelにおける、Trend カイ自乗統計量と、Cockran-Armitage統計量とがそれである。この2つはどちらも自由度1のカイ自乗分布で評価されるもので、互いに似通った値となるが、わずかに算出式が異なる。この違いは、たいてい無視しえるレベルである。これを無視したくない向きには、正確確率検定を持ちいればよい。この2つの正確確率検定は、まったく同一のそれとなっているからである。
      • ジェノタイプモデル
    • 片方のアリルの所有本数に比例してリスクが発生するという関連の見方
      • Additive modele
    • 優性遺伝形式でリスクが発生するだろうという関連の見方
      • 優性モデル
    • 劣性遺伝形式でリスクが発生するだろうという関連の見方
      • 劣性モデル
  • 1つの見方に存在する複数の検定手法
    • ジェノタイプモデルの場合
      • 2x3分割表カイ自乗検定(自由度2)
      • 2x3分割表正確確率検定
    • Additive model
      • 3ジェノタイプの重み付けを{0,1,2}とする傾向性カイ自乗検定(自由度1)
      • Cockran-Armitage傾向性検定(自由度1)
      • 染色体本数として2x2分割表を作成しなおして、カイ自乗検定(自由度1)・・・本当は不適切な手法
      • 作成しなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • 優性モデル
      • 3ジェノタイプを優性モデルに照らして2群に分け、2x3分割表を2x2分割表に作成しなおした上で行うカイ自乗検定(自由度1)・・・分割表の作り直しなので、不適当に感じられるが、適切な手法
      • 3ジェノタイプの重み付けを{1,1,0}として実施する傾向性カイ自乗検定(自由度1)。2x2ジェノタイプ分割表を作り直して実施するカイ自乗検定とまったく同じ
      • 作りなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • 劣性モデル
      • 3ジェノタイプを劣性モデルに照らして2群に分け、2x3分割表を2x2分割表に作成しなおした上で行うカイ自乗検定(自由度1)・・・分割表の作り直しなので、不適当に感じられるが、適切な手法
      • 3ジェノタイプの重み付けを{1,0,0}として実施する傾向性カイ自乗検定(自由度1)。2x2ジェノタイプ分割表を作り直して実施するカイ自乗検定とまったく同じ
      • 作りなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • その他の手法
      • SNPの解析では、上記の手法が主に見られるが、CNPの解析ではその他の手法がメジャーなペイパーにも登場する。SNPは2アリル3ジェノタイプ型のCNPともみなせるので、参考のために、それらの手法についてもここで言及する。
        • CNPでは、ジェノタイプのコピー数和で、サンプルに順位をつけ、順位和検定を行うことがある。Mann-Whitney検定である。これは、ケースとコントロールの2群に差がないならば、ケースの順位とコントロールの順位はランダムであるはずである、という考え方に基づく。同順位が非常に多い点が不適切度を上げることは確かだが、考え方として間違ってはいない。
        • CNPでは、コピー数和の多寡に基づいて、適当に2群に分けて、2x2分割表検定をすることもある。これは、SNPの場合には、優性・劣性モデルで2x2分割表検定をすることに相当する。
      • また、フェノタイプが量的な場合に用いる手法も、ケース・コントロールの形質を0,1という量であるとみなすことで適用可能であるので、それらの手法についてもここで言及する。
        • 線形回帰検定。フェノタイプがジェノタイプ(特定アリルの保有本数)の線形関数であるいうモデルをあてはめて、帰無仮説に照らしてp値化するもの
        • その他、ロジスティック回帰もあるが、ここでは省略(計算が、一段階面倒くさくなるため)。
  • ツールの結果を見る
    • 見方でもう一度分類しなおす
      • ジェノタイプを順序なしカテゴリとする
        • (1)2x3分割表のカイ自乗検定
        • (2)その正確確率検定
      • 特定モデル
        • Additive model相当
          • 傾向性検定
            • (3)Cockran-Armitage
            • (4)Trend カイ自乗検定
          • (5)アリルの2x2表カイ自乗検定
          • (6)アリルの2x2表正確確率検定
          • (7)Mann-Whitney
          • (8)線形回帰
        • 優性モデル相当
          • (9)2x2表作り直しカイ自乗検定
          • (10)2x2表作り直し正確確率検定
          • (11){1,1,0}重み付けの傾向性カイ自乗検定
        • 劣性モデル相当
          • (12)2x2表作り直しカイ自乗検定
          • (13)2x2表作り直し正確確率検定
          • (14){1,0,0}重み付けの傾向性カイ自乗検定
      • 見方が同じ手法のP値は似通っている、また、まったくの同一手法でありながら、異なる呼び名のものは、同一の値であることも見て取れる

0.5569044977710992 2x3 Table ExactP

    • サンプル2x3分割表
49	42	9	
45	41	14	
    • 結果
---ジェノタイプを順序なしカテゴリとする
(1)	0.5301428713204794	2x3 Table ChiSqTestP(df=2)
(2)	0.5569044977710992	2x3 Table ExactP
---Additive model相当
(3)	0.34875306900807446	Cockran-Armitage Trend P
(4)	0.34754490657479753	TrendChiSqP
(5)	0.33569583486055254	2x2 Table of allele ChiSqTestP(df=1)
(6)	0.3921877553862013	2x2 Table of allele ExactP
(7)	0.404569198365313	Mann-Whiteney
(8)	0.3500426506596672	Linear Regression
---優性モデル相当
(9)	0.26775748628257956	Dominant model ChiSqP
(10)	0.3756881440915198	2x2 Table of Dominant model ExactP
(11)	0.26775748628257967	{1,1,0}TrendP
---劣性モデル相当
(12)	0.5709136609062897	Reccesive model ChiSqP
(13)	0.6709271228577122	2x2 Table of Reccesive model ExactP
(14)	0.5709136609062893	{1,0,0}TrendP

###書きかけ

  • 分割表の見方〜ジェノタイプ・フェノタイプの重み付け
    • 2カテゴリのとき、それは、必ず順序が想定される=ケース・コントロール関連検定は、どの手法を用いるにせよ、必ず、ケース・コントロールには0か1かという順序が取り込まれて解析される
    • 常染色体多型のジェノタイプは、SNPを含むすべての多型でジェノタイプ数が必ず3以上なので、順序を想定するか否かの判断を必ずする必要がある
    • カテゴリの順序の想定の有無による、解析の分類
ジェノタイプ->順序なしカテゴリ順序ありカテゴリ
フェノタイプ
ケース・コントロールHeterogeneity検定傾向性の検定,Mann-Whitney
3カテゴリ以上、順序なしHeterogeneity検定Kruskal-Wallis
3カテゴリ以上、順序ありKruskal-WallisJockheere-Terpstra

[][][][]6 Heterogeneity test

  • すべてをばらばらに見る独立性検定
  • ジェノタイプに順序を想定することなく、フェノタイプにも順序を想定しない場合に行う検定
  • SNPの場合のヘテロのジェノタイプの疾患リスクがホモのジェノタイプのいずれよりもリスクが高い場合も、ヘテロのリスクがホモのリスクの間である場合も区別せずに、淡々と、ジェノタイプとフェノタイプの間の分布の偏りがあるかないかを検定する。CNPの場合は、あるコピー数和の多寡とリスクの多寡の順序が一致する必要なく、淡々と、ジェノタイプとフェノタイプの間の分布の偏りがあるかないかを検定する
  • 検定手法
    • 漸近近似検定法
      • カイ自乗検定
        • 自由度は(ジェノタイプ数-1)x(フェノタイプ数-1)
    • 正確確率検定
      • 正確確率検定は、分割表の自由度が大きくなると計算量が大きくなり、非現実的。サンプル数が大きい場合は、自由度2くらいまでが現実的
    • 分割表の期待値
      • ジェノタイプ数がNg、フェノタイプ数がNpだとすると、NgxNpの観測人数が得られる。これをNgxNpのサイズの表にする。第iジェノタイプ第jフェノタイプの人数をobsijとする
      • 今、ジェノタイプ別に全フェノタイプの人数を合わせ、また、フェノタイプ別に全ジェノタイプの人数を合わせた人数を周辺度数と言う。第iジェノタイプの人数をgi、第jフェノタイプの人数をpj、総人数をNとする
      • フェノタイプとジェノタイプが独立だとすると、第iジェノタイプで第jフェノタイプである人数は、gi,pj,Nとから¥frac{gi ¥times pj}{N}と期待される。これが、無関連という仮説のもとでの期待値である。
      • ¥chi^2=¥sum_{all cells} ¥frac{(obs-exp)^2}{exp}
    • 正確確率
      • 観測テーブルの正確生起確率はProb(obs)=¥frac{¥Pi gi! ¥times ¥Pi pj!}{N!¥Pi obsij!}
      • 観測テーブルの周辺度数から得られうるすべての分割表について、正確生起確率を計算し、観測テーブルのそれ以下のテーブルのそれの和をとる
  • ツールの出力
    • SNPケース・コントロール検定の場合
      • 第4,5行目に出力される
0.39758221083709255	2x3 Table ExactP
0.39512507274550895	2x3 Table ChiSqTestP(df=2)
      • また、第66行目にもカイ自乗検定の結果がカイ自乗統計量とともに出力される
1.8571058486775773	0.3951250727714267	2	ChiSqGenotype	
    • SNPの場合で、フェノタイプが3以上の場合
      • 第20行目以上以降に、"HeteroChi"として出力される
HeteroChi	p
1.9447559573578592	0.3781826577335774
    • CNPの場合
      • フェノタイプ数、ジェノタイプ数によって表示行は異なるが、第30−50行目あたりに、assoc Statistics p として現れる一連の出力の中で、以下のように表示される
6.108925662190422	0.2957638364360593	5	ChiSqGenotype	

[][][][]7 傾向性の検定

  • 傾向性の検定とは、カテゴリに順序をつけて、それに重み付けをし、その付与した重み付けの具合と一致しているかどうかと、すべてのカテゴリが平等であるかどうかと比較して、検定するものである
  • フェノタイプ数が2の場合
    • SNPケース・コントロール関連解析における傾向性の検定で理解する
      • 分割表は2x3である
      • ジェノタイプは3種類ある
        • 2アリルの片方について、0本、1本、2本を持つ、3ジェノタイプと考える
        • 3ジェノタイプが平等である、というとき、このジェノタイプに{a,a,a}という重みをつける
        • 今、3ジェノタイプに{a,a+b,a+2b}という重み付けをする
          • これは、着目しているアリルをもつ本数に比例した重みである
          • 着目アリルの本数に比例したリスクがあるのではないか、というモデルについて、平等モデルに対して検定をする場合には、このような重みのモデルを用いる
        • 今、3ジェノタイプに{a,a+b,a+b}という重み付けをする
          • これは、着目しているアリルを1本持つ場合と2本持つ場合とで、同じリスクを持つというモデルである(アディティブモデル)
          • これは、優性モデルである
        • 今、{a,a,a+b}という重み付けをする
          • これは、劣性モデルである
        • その他、任意の重み付けも可能である
      • 自由度
        • 2x3分割表は自由度2であるが、2x3表の傾向性の検定は自由度1である
        • 重み付けは{a,b,c}のようにできるが、この重み付けは{0,x,1}という重み付けでxを適当にとることで代用できるので、パラメタ数はxの1個のみである。3ジェノタイプが平等であるというモデルでは、重み付けが{0,0,0}のように、パラメタ数が0個なので、自由度はパラメタ数の差である1である
        • したがって、いわゆる{0,1,2}={0,0.5,1}の傾向性の検定も優性モデルの検定も劣性モデルの検定も自由度は1である
    • 検定
      • アディティブモデル
        • 2つの漸近近似統計手法が知られる
          • Cockran-Armitageの傾向性検定
          • Trend カイ自乗検定
          • いずれも自由度1のカイ自乗分布にてp値化する
          • 両者はわずかに異なり、どちらを用いても実質的に変わらない
      • 優性モデル・劣性モデル
        • 2つの漸近近似統計手法が知られる
          • アディティブモデルで用いるTrendカイ自乗統計量を、重み付け{0,1,1},{0,0,1}にて計算し、自由度1のカイ自乗分布にてp値化する
          • 優性・劣性モデルに照らして、2x2分割表を作成し、2x2表のカイ自乗統計量を計算し、自由度1のカイ自乗分布にてp値化する
          • 両者はまったく同じである
    • ジェノタイプ数が3以上の場合
      • ジェノタイプ数が増えても、考え方は同じ
      • CNPジェノタイプに、そのコピー数の和によって順序を与え、それをあるコピー数和を基準に2分するのは、重み付けを{0,0,..,0,1,1,..,1}とするモデルである
      • コピー数和そのものを重みにするモデルとすれば
        • ディプロタイプ的ジェノタイプの場合の重み付けは{2Cm,2Cm+1,2Cm+2,...,Cm+CM,2Cm,2Cm+1,2Cm+2,...,Cm+CM+1,.....,2CM}
        • コピー数和的ジェノタイプの場合の重み付けは{2Cm,2Cm+1,2Cm+2,...,2CM}
      • 自由度は1

2007-12-01 一から始める遺伝子多型-形質関連解析

[][][][]X ツールの使い方

  • ツールへのリンク
  • 入出力フィールドは7個
  • 実行ボタンは5個
  • 入力フィールド6個
    • カテゴリカルデータの分割表に関する入力(3フィールド)
      • No.genotypes:入力データの多型のジェノタイプ数
      • No.phenotypes:入力データのフェノタイプがカテゴリ型の場合、その数
      • No.alleletypes:入力データの多型のアリル数
        • 例:SNPケースコントロール解析
          • No.genotypes=3,No.phenotypes=2,No.alleletypes=2
        • 例:SNP3カテゴリ解析(低度・中度・高度)
          • No.genotypes=3,No.phenotypes=3,No.alleletypes=2
        • 例:CNPケースコントロール解析、CNPのアリル数が3でディプロタイプ的ジェノタイプのとき
          • No.genotypes=6,No.phenotypes=2,No.alleletypes=3
        • 例:CNPケースコントロール解析、CNPのアリル数が4でコピー数和的ジェノタイプのとき
          • No.genotypes=7,No.phenotypes=2,No.alleletypes=4
    • 入力データのフォーマットに関する入力(2フィールド)
      • Count data or Raw data: 1=count, 0=raw:分割表データを入力するときは1、個人別に1行1人でフェノタイプとジェノタイプを入力するときは0
      • No. records for raw data:個人別データフォーマットのときに、レコード数(人数)を数値入力する
    • データ入力フィールド(1フィールド)
      • 2つある大きなテキストフィールドのうち、上段
      • 分割表情報の入力
        • 1形質1行
        • 1ジェノタイプ1列
        • タブ区切り
        • 全行、末尾値のあとにもタブを置く
        • 最終行の末尾値のあとにもタブを置き、改行する
        • ジェノタイプの順序
          • ディプロタイプ的ジェノタイプの場合
            • 最少コピー数ホモを0番、最少コピー数と最少コピー数+1のヘテロを1番、最少コピー数と最少コピー数+2のヘテロを2番、というように、2アリルのうちのコピー数の小さい方をA、コピー数が大きい方をBとしたとき、AiBi は辞書的順序とする
          • コピー数和的ジェノタイプの場合
            • コピー数和が最少のジェノタイプを0として、コピー数が1増えるごとに列順をひとつ上げる
10	20	30	
24	45	58	
      • 個人別情報の入力
        • 量的フェノタイプの場合には、この入力方式のみを受け付ける
        • 1人1行
        • 2列:タブ区切り
          • 第1列:形質
          • 第2列:ジェノタイプ
          • 形質がカテゴリカルの場合は、0,1,...のように0から始めて、1刻みとすること。カテゴリに順序があるときは、その順序とすること。順序なきカテゴリの場合も、適当に0,1,...とつけること。
          • ジェノタイプも、0,1,...のように0から始めて、1刻みとすること。その値は、分割表型入力のときの列順序どおりとすること
        • 各行の末尾にもタブを置いてから改行する
        • 最終行も同様に、タブを置いてから改行する
0	0	
0	0	
1	1	
0	2	
1	0	
0	1	
1	1	
2	2	
2	0	
2	1	
2	2	
0	2	
  • 実行ボタン5個
    • SNP:SNPのデータのときにこれを押す
    • CNP_diplotype:CNPデータでディプロタイプ的ジェノタイプのときこれを押す
    • CNP_copy number type:CNPデータでコピー数的ジェノタイプのときこれを押す
    • Haplotype:ハプロタイプ別のデータの場合にこれを押す
    • Clear:データ入力フィールドをクリアするときにこれを押す
  • 出力フィールド
    • 最下段のフィールド
    • データタイプごとに出力形式はまちまち
    • 出力項目ごとに改行することを原則とする

2007-11-30 一から始める遺伝子多型-形質関連解析

[][][][]0 はじめに

  • 多型ジェノタイプ・形質間関連を解析する手法を了解するための覚書
  • 学部生レベルからスタート・・・??
  • 最後は、この記事の内容を了解して、この計算機(ベータ版・動作未確認・出力値の正しさも未検証)の出力を理解するところまでを目指す

[][][][]1 遺伝子多型・アリル・ジェノタイプ・フェノタイプ(形質)

  • 遺伝子多型
    • DNA配列は、同一種内で異なる部分がある。それを多型という。集団中での割合を定義に持ち込むこともある
    • 一塩基多型(SNP:Single Nucleotide Polymorphism)
      • DNA配列のある塩基が異なるような多型。たいていの場合、A,T,G,Cの4種類のうち、2種類のどちらかである
    • コピーナンバー多型(CNP:Copy Number Polymorphism)
      • ある配列がタンデムに繰り返され、その繰り返し回数が染色体によって異なるタイプの多型。長さが1000塩基対(1kb)を越えるものを、このように呼ぶ
    • その他の多型
      • タイプ別分類
        • 置換型
        • リピート型
        • 挿入欠失型
        • 逆位
        • 転座型
      • SNPは置換型、CNPはリピート型
      • SNPは一塩基、CNPは1kb以上
      • その他の多型は、さまざまな長さ、さまざまなタイプでいろいろなものが知られている。
  • アリル
    • 対立遺伝子
    • 多型のタイプの別のこと
    • SNPで言えば、AかTかのSNPのとき、Aはひとつのアリル、Tはもうひとつのアリル
    • CNPで言えば、リピート回数が1回であることがひとつのアリル、2回であることは別のアリル、3回の場合もあれば、それも別のアリル
    • アリルの種類数といえば、上の例で言えば、SNPは2つ、CNPは(この例では)3つ。biallelic, diallelicな多型と言えば、アリル種類数が2つの多型、triallelic といえば、アリル種類数が3つの多型
  • ハプロタイプ
    • 複数の多型のアリルの組合せをハプロタイプという
    • 通常、同一の染色体上に乗っているアリルの組合せからなり、そのハプロタイプは、多型間に交叉が起きなければ、ハプロタイプとして伝達される。
      • 多型間に偶数回の交叉がおきたときも、ハプロタイプは変わらずに伝達される。
      • 多型間に奇数回の交叉がおきたときは、ハプロタイプは変化して伝達される(2多型のどちらもヘテロで持っていた場合)。
  • ジェノタイプ
    • 遺伝型
    • 遺伝子多型のアリルの所有の具合で定まる型。ヒト常染色体の場合は、1対の染色体のそれぞれのアリルの複合として決まる。
    • ホモ・ヘテロ
      • 常染色体多型の2つのアリルが同一のとき、ホモ、異なるときヘテロという。
      • SNPの場合は、AAのホモ、ATのヘテロ、TTのホモなどとなる
      • CNPの場合は、コピー数1個と1個のホモ、1個と3個のヘテロなどとなる
    • 2つのアリルを区別しないジェノタイプ
      • CNPの場合などでは、実験の制約などから、1対の染色体のそれぞれのアリルを決められず、2つを合わせたコピー数のみが観測できることもある。このときは、1対の染色体のコピー数の和がジェノタイプとなる。1個と1個のホモのときは、コピー数ジェノタイプは2個、1個と3個のヘテロのときは、コピー数ジェノタイプは4個、2個と2個のホモのときも、コピー数ジェノタイプは4個
  • フェノタイプ
    • 形質
    • ジェノタイプがDNA配列の違いを観測することによって決まったの対して、それ以外の個体の特徴をフェノタイプという。観測できる特徴、定義できる事柄はなんでもフェノタイプである。
    • フェノタイプは、次のように分類する。解析の手法の選択に直結する分類である。
      • 0/1型
        • 2値型
        • ある特徴に合致するかしないか、○か×か、0か1か、というように観測できる特徴
        • ケース・コントロールなど
      • 1,2,3,…型
        • 順序カテゴリ型
        • 3つ以上に分類でき、その分類にはなにかしら順序があるもの
        • 軽度・中等度・重度など
      • A,B,C、…型
        • 非順序カテゴリ型
        • 3つ以上に分類でき、その分類には特に順序がないもの
        • 経口投与・経皮投与・経鼻投与・経静投与 など
      • 量的形質
        • さまざまな値をとるような形質
        • 身長、温度、抗体価、など

[][][][]2 ジェノタイプとフェノタイプとの関係と遺伝

  • 遺伝
    • 遺伝するとは、複数の『個体』の間に存在する『血のつながり』が『個体』の『フェノタイプ』に『影響する』こと
    • 簡単に言うと、遺伝子が伝達することと、形質が伝達すること
  • 血のつながり
    • 2つの関係
    • 1つは、『個体』が作る、家系という関係
    • もう1つは、『個体』が持つ、『染色体』の伝達関係(Recombination Graph)
  • 個体のジェノタイプと染色体のアリルの関係
    • 染色体のアリルは、常染色体の場合、2つのアリルが1つのジェノタイプを作る
      • したがってディプロタイプ自体は、伝達関係にないが、密接な関係にある
  • 個体の属性と染色体の属性
    • 個体の属性
      • ジェノタイプ
      • フェノタイプ
    • 染色体の属性
      • アリル
  • ジェノタイプとフェノタイプに関連があるとは
    • ジェノタイプは多様
    • フェノタイプは多様
    • ジェノタイプとフェノタイプの分布・動きの様子に偏りがある
  • 関連の見極め方
    • ジェノタイプとフェノタイプの分布・動きの様子の偏りを見極めるには、
      • 『どこの分布』か、『どこの動き』かを定め
      • その『偏りのない状態』と比較することで初めて可能になる
    • ジェノタイプとフェノタイプの『どこの分布』
      • ジェノタイプとフェノタイプの『個人という器』という場所での同居具合
        • ジェノタイプ・フェノタイプ間偏り解析
          • ケース・コントロール関連解析
    • ジェノタイプとフェノタイプの『どこの動き』
      • ジェノタイプとフェノタイプは、『染色体の伝達』という出来事という動きを持つ。この出来事という動きにあたって、同じ船に乗っているかどうかの具合
        • アリル・フェノタイプ同乗偏り解析
          • アリル伝達とフェノタイプ伝達間の偏り解析
          • Transmission Disequilibrium Test(TDT)
          • 連鎖解析
    • 解析統計手法
      • 偏りのない状態を定義し
      • 観測データの偏り具合の定量法(統計量)を定め
      • 統計量を確率密度分布等、確率的考え方で評定する

[][][][]3 SNP CNPのアリル・ディプロタイプ・ジェノタイプ・ハプロタイプ

  • アリル、アリル数(SNPのアリル数 NSa、CNPのアリル数NCa)
    • SNPのアリル
      • SNPのアリルはA,T,G,Cの4塩基のうちのどれかひとつをとる、とり方であるので、最大アリル数は4。
      • アリル数2であることが普通。実験データとしては、アリル数2のSNPのディプロタイプ タイピング手法が主流であるので、アリル数2であるものとして考える。
      • NSa=2
    • CNPのアリル
      • CNPのアリルは、単位配列のコピー数。コピー数は0回から不定回。最少コピー数は0、最多コピー数は不定。
      • 最少コピー数がCm,最多コピー数がCMであるとき、アリル数の最大値は、CM-Cm+1。今、Cm以上、CM以下のコピー数のうち、集団に存在しないコピー数アリルがあったとしても、そのコピー数アリルの存在を仮定し、その集団内頻度が0であると考えることにすると、CNPのアリル数は、常に、CM-Cm+1と定めることができる。
      • NCa=CM-Cm+1
    • ハプロタイプのアリル
    • SNP
      • Ns個のSNPが作るハプロタイプのアリル数はNSa^{Ns}=2^{Ns}
    • CNP
      • Nc個のCNPが作るハプロタイプのアリル数はNCa^{Nc}=(CM-Cm+1)^{Nc}
    • SNPとCNPとの組合せ
      • Ns個のSNPとNc個のCNPが作るハプロタイプのアリル数はNSa^{Ns}¥times NCa^{Nc}
  • ジェノタイプ、ジェノタイプ数
    • 2種類のジェノタイプ
      • カテゴリとしての性格による分類
        • 順序なきカテゴリとしてのジェノタイプ
        • 順序ありカテゴリとしてのジェノタイプ
      • 2つの染色体アリルを区別するか否かによる分類
        • ディプロタイプ的ジェノタイプ
        • ディプロタイプ的でないジェノタイプ
        • 由来親(父親・母親)を区別するジェノタイプ(通常は使わない。実験観測も難しいので以降の記述では無視する)
    • ディプロタイプ的ジェノタイプのタイプ数(Ngd)
      • アリル数Na(NSaまたはNCa)から、2つを選択する仕方は、ホモの取りかたはNa、ヘテロのとり方は¥frac{Na(Na-1)}{2}。それらを併せて、Ngd=Na+¥frac{Na(Na-1)}{2}=¥frac{Na(Na+1)}{2}
    • ディプロタイプ的でないジェノタイプ数(Ngc)
      • CNPの場合は、2アリルのコピー数の和とする。SNPの場合は、2アリルの片方のアレルのコピー数の和とする。SNPのアリルは、Cm=0,CM=1とみなせる。
      • 最少のコピー数和は2¥times Cm、最多のコピー数和は2¥times CM。とりうるすべてのコピー数和ジェノタイプの種類数はNgc=2¥times CM - 2¥times Cm +1 =2¥times(CM-Cm)+1 = 2¥times Na-1
    • ディプロタイプ的ジェノタイプとコピー数和ジェノタイプとの関係
      • ディプロタイプ的ジェノタイプが観測されれば、コピー数和ジェノタイプは確定的に定まる
      • コピー数和ジェノタイプが観測されたとき、ディプロタイプ的ジェノタイプは、推測される(2アリル型であることが分かっていれば、確定的に推測される)
      • ディプロタイプ的ジェノタイプ数はコピー数和ジェノタイプ数と同じかより多い
    • カテゴリの順序
      • Ngd、Ngcはカテゴリ数
      • Ngdは順序なし
      • Ngcはコピー数という順序がある
    • SNPの場合、2アリルCNPの場合の特徴
      • Ngd=Ngc→常に順序ありカテゴリとして扱いうる
    • 複合ジェノタイプ、そのジェノタイプ数
      • 複数の多型のジェノタイプの組合せ
        • 多型の数をNs(SNPの場合)、Nc(CNPの場合とする)と、
          • Ngd(SNP)^{Ns}=Ngc(SNP)^{Ns}=3^{Ns}
          • ¥Pi_{i=1}^{Nc} Ngd(CNP_i)もしくは¥Pi_{i=1}^{Nc} Ngc(CNP_i)
  • アリル数、ディプロタイプ的ジェノタイプ数、コピー数和的ジェノタイプ数の関係
アレル数ディプロタイプ的ジェノタイプ数コピー数和的ジェノタイプ数
1 1 1
2 3 3
3 6 5
4 10 7
5 15 9
6 21 11
7 28 13
8 36 15
9 45 17
10 55 19
11 66 21

計算用エクセルはこちら(掲載予定)

[][][][]4 ジェノタイプデータ(のみ)から考えること〜Hardy-Weinberg平衡検定

  • Hardy-Weinberg平衡(HWE:Hardy Weinberg Equilibrium)
    • ある集団において、メイティングがランダムであるとき、ディプロタイプが持つ、アリルの組合せは、集団のアリル頻度によってのみ決まると考えられる。ジェノタイプの頻度分布とアリルの頻度分布との関係が、このようになっていることをHardy-Weinberg平衡と呼ぶ。
  • ジェノタイプ・フェノタイプ関連解析においては、Hardy-Weinberg平衡にある集団からのランダムなサンプルにおいて解析していることを前提とすると都合がよいことが多いので、観測ジェノタイプデータがHardy-Weinberg平衡にあるか、その仮定が不適切かを検定する。
  • Hardy-Weinberg平衡検定
    • 検定の対象は大きく分けて2つ
      • サンプルが採られた母集団がHWEにあるか(母集団のHWEを疑っている)
        • 帰無仮説が棄却された場合には、ジェノタイプ・フェノタイプ関連検定の結果について、母集団のHWEからのずれ(Hardy-Weinberg不平衡)の影響を考慮する必要があることを示す
      • サンプルが、HWEにある母集団からのランダムサンプルと言えるか(母集団にHWEを仮定している)
        • 帰無仮説が棄却された場合には、サンプリングバイアスがあることを意味し、ジェノタイプ・フェノタイプ関連検定の実施自体が無効である可能性を示唆する
      • なお、この区別は通常、意識して分けられることはなく、また、検定処理自体はどちらも同じである
  • 比較するもの
    • 観測ジェノタイプ頻度分布と、HWE仮説が成立しているときに期待されるジェノタイプ頻度分布
      • HWE仮説が成立しているときに期待されるジェノタイプ分布は、アリル頻度分布から計算される
  • 比較に必要な頻度分布は観測されるか観測データから推定する
    • サンプルのジェノタイプ頻度分布は観測されるので既知である
      • (あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のジェノタイプ頻度分布は、サンプルのデータから推定する
      • 推定頻度は(あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のアリル頻度分布は、サンプルのデータから推定する
      • ディプロタイプ的ジェノタイプのときには、観測アリル本数を数え上げることができる
        • ホモ個体はそのアリルを2本、ヘテロ個体はそれぞれのアリルを1本ずつ持っている
        • 観測サンプルにおける、アリル頻度(あるアリルの観測本数)÷(総観測本数)を母集団のアリル頻度の推定値とする
      • コピー和タイプジェノタイプのときは、観測アリル本数を数え上げることができない。
        • EMアルゴリズムにてアリル頻度の最尤推定値を推定して代用することは、一方法である。
  • 検定の実際
    • 2種類の検定法が用いられる。
      • カイ自乗検定
      • 正確確率検定
    • HWEのカイ自乗検定
      • ジェノタイプ数の観測数と、推定アリル頻度からHWEを満足するときのジェノタイプ別観測数の期待値を算出する。1xジェノタイプ数の観測数の表と同じサイズの期待度数表とから、カイ自乗値を算出する
        • 各ジェノタイプの(観測度数-期待度数)^2/期待度数を全ジェノタイプについて足し合わせる
        • この値を、自由度 (ジェノタイプ数−アリル数)で評価する
          • SNPのとき(アリル数が2のとき)、ディプロタイプ的ジェノタイプ数は3であり、自由度は1
          • アリル数Naのとき、ディプロタイプ的ジェノタイプ数は、¥frac{Na(Na+1)}{2}であるから、自由度は¥frac{Na(Na+1)}{2}-Na=¥frac{Na(Na-1)}{2}
          • アリル数Naのとき、コピー数和的ジェノタイプ数は、2¥times Na-1であるから、自由度は2¥times Na-1-Na=Na-1
    • HWEの正確確率検定
      • 観測ジェノタイプデータから、観測アリル本数を算出する。ディプロタイプ的ジェノタイプを観測すると、アリル本数は確定的に算出される。この染色体を、観測人数が2本ずつ持つことで観測可能なジェノタイプ別観測人数の確率を計算する。観測データの場合の確率と以下の確率を持つジェノタイプ別観測人数の確率を足し合わせたものが、正確確率である
    • 例1
      • SNPにて、ケース・コントロールの3ジェノタイプが49,42,9;25,50,25と観測されたとする。
      • この計算機ページから、計算機を立ち上げてみる
      • 上段3入力領域は、ジェノタイプの数、フェノタイプの数、アリルの数を入力する。SNPのケース・コントロール解析であるから、3,2,2である
      • 次の段。データは分割表(カウントデータ)であるから、カウントデータを示す、1を入れる。次の入力域は、個人別ジェノタイプを人数分、入力するときのものであるので、ここでは関係ない。
      • 次に大きなテキストフィールドのうち、上段が、カウントデータを入力する領域である
        • 1フェノタイプ:1行、1ジェノタイプ:1列とし、各列の値はタブで区切る。行末の値のあとにもタブを入れる。
          • 49\t42\t9\t\n25\t50\t25\t\n である
      • SNPデータなので、ボタン『SNP』を押す。
      • 一番下の大きなテキストフィールドに結果が出る
        • HWE検定の結果は、第15行から第20行である。
        • ケースとコントロール、その和の3通りについて、2つの検定手法(カイ自乗検定、正確確率検定)の結果が表示される。
0.9999999999999987	Case HWE test ChiSqP
1.0	Control HWE ChiSqP
0.5556897902852633	Case+Control HWE ChiSqP
1.0	Case HWE ExactP
1.0	Control HWE ExactP
0.5574982766552625	Case+Control HWE ExactP
        • または、第52行目から、カイ自乗検定の結果が示される。自由度1であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
1.0303489374315257E-30	0.9999999999999992	1	Case
0.0	1.0	1	Control
0.3472222222222213	0.5556897902852633	1	Case+Control
        • サンプルのアリル頻度は第44行目から示され
Allele Frequency
0.7	0.3	
0.5	0.5	
0.6	0.4
    • 例2
      • アリル数3のCNPについてケース・コントロールのディプロタイプ的カウントデータが得られたとする。アリル数3のとき、ディプロタイプ的ジェノタイプ数は6であり、フェノタイプ数は2であるから、最上段には、6 2 3 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60 がケース、11,21,31,41,51,61がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_diplotype」を押す
      • 結果が、最下段のフィールドに表示される
      • 第17行目から、3アリルの頻度が表示される
Allele Frequency
0.16666666666666666	0.35714285714285715	0.47619047619047616	
0.1712962962962963	0.35648148148148145	0.4722222222222222	
0.16901408450704225	0.3568075117370892	0.47417840375586856	
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
20.47619047619048	1.352240411929273E-4	3	Case
21.569057472212954	8.018363395057015E-5	3	Control
42.04610110469545	3.922758118335423E-9	3	Case+Control
    • 例3
      • アリル数4のCNPについてケース・コントロールのコピー数和的カウントデータが得られたとする。アリル数3のとき、コピー数和的ジェノタイプ数は7であり、フェノタイプ数は2であるから、最上段には、7 2 4 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60,70 がケース、11,21,31,41,51,61,71がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_copy number type」を押す
      • 結果が、最下段のフィールドに表示される
      • 第19行目から、EMアルゴリズムで推定された、4アレルの頻度が表示される
Inferred Copy Number Allele Frequency with EM algorithm from Copy Number Type Genotype
0.16174473864063396	0.15277591341958108	0.20921395723893596	0.476265390700849	
0.16615116380833578	0.15271133429138925	0.2083189619434336	0.4728185399568413	
0.16398078346439338	0.15273417526479013	0.20876213858341247	0.47452290268740394	
      • 第28行目から、推定アリル頻度からHWE仮定で算出したジェノタイプ観測度数に対して求めたカイ自乗値とそれを自由度3で評価したP値が示される。自由度も3と表示される(2007/12/01現在、プログラムのバグで自由度が-1と表示されている!)
HWE is tested based on EM-inferred allele frequency.
HWE Pool Chi	P	df
12.920637578135537	0.004811412626169687	3	Case
13.905443417302665	0.003036726969469994	3	Control
26.824078378816864	6.40909894478181E-6	3	Case+Control
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
      • アリル別観測本数は、推定以外では求められないので、それに該当する行は0で表示されている。