Hatena::ブログ(Diary)

aggren0xの日記

2016-08-10

翻訳ミス

16:28

ぼーっとNature genetics電子版眺めていたら、日本語翻訳ミス見つけた。

http://www.nature.com/ng/journal/v47/n10/fp/ng.3390_ja.html

「伸長とBMI:バリアントのインピュテーション(補完)を用いた遺伝分散の推定により、ヒトの身長とBMIについてこれまでに欠けていたわずかな遺伝率を明らかにする」

このタイトル翻訳ミスは、完全に論文の論調を間違えて捉えているので重大なように思う。ま、そもそも身長を「伸長」という変換ミスを放置プレーしてるレベルだけれど。誰も見てないだけかな。うちの分野では重要な論文ですけど。

原題はGenetic variance estimation with imputed variants finds negligible missing heritability for human height and body mass indexである。確かに訳しづらいけど、論文読んだ上で解釈すると「ヒト身長とBMIについての変異インピューテーションを用いた遺伝分散推定により、「見つからない遺伝率」なんてほとんどないことがわかった」とでも言う感じか。だいぶ印象違うでしょう。。。

そもそもmissing heritabilityを固有名詞として扱っていないので、この分野を全く知らず翻訳してることはわかる。

この論文は、

  • ヒトゲノム30億塩基中50万程度のマーカーである「SNP」を用いたGWASは身長などの量的形質や疾患発症を一部しか説明できない
  • その大きさは、双生児研究による「遺伝率」よりもかなり小さかったので、SNPによっては埋められない遺伝率の分を「見つからない遺伝率Missing heritability」と称した
  • そこで次世代シーケンサーなどで30億全部シークエンスすれば、「見つからない遺伝率」が埋まるのではないかという主張があった
  • しかし本研究によれば、SNP + インピューテーションをやれば、双生児研究による「遺伝率」はほとんど埋まりそうであり、SNPによっては埋められない「見つからない遺伝率」の大きさはnegligibleである
  • だからSNPを続けよう。次世代シーケンサーは金のムダ*1

と言いたいわけ。

Nature AsiaにはGWAS系のチェック要員がいないのかな。

*1:超注意:分野によります。身長・BMIだとか多因子性疾患ではムダ、ということ

2016-05-18

学業達成度に影響する遺伝因子

16:53

Genome-wide association study identifies 74 loci associated with educational attainment : Nature : Nature Research

(supplementary informationが134ページもある)

  • 30万人について930万箇所の遺伝的変異をスクリーニング
  • 74か所の遺伝配列が学業達成度に統計的に関連していた
  • 11万人の独立したデータで確認、72か所において一致する関連を確認した。
  • 既存データベースで、胎児脳組織において遺伝子発現を調節していると考えられる部位(DHS)に有意に多く存在(enrichment)していた
  • 頭蓋内容量(≠頭の大きさ)と教育年数との遺伝的相関を発見した(P=1.2e-6)
  • ほかにも4つの形質(正の相関:認知機能躁うつ病、負の相関:アルツハイマー病、神経症傾向)との有意遺伝的相関を認めた。
  • 身長(正)や統合失調症(正)との遺伝的相関も有意であったが小さかった。
  • 独立したサンプルにおいて、発見した遺伝的変異により教育年数の予測を試み、それと実際の教育年数との相関をみたところ、R2=0.032くらいだった(P=1.18e-39)

この解析のフェノタイプは「教育を受けた年数」。日本でやるなら、中卒は9、高卒は12、大卒以上は16~という年数。留年したら長くなるんじゃないの?とも思うがそういう細かいことは気にしないのが大規模ゲノムワイド解析。欧州系集団のみを対象としている。

DHSというのはDNaseI Hypersensitivity Siteの略。それぞれの細胞内において核ゲノムクロマチン構造を取り、ゲノムDNAはヒストンというタンパク質のまわりにグルグル巻きにされているので外からそのDNA配列にアクセスできないが、一部はヒストンにまかれていないところがある。そういうところには転写因子複合体などというタンパク質の塊がくっついて、遺伝子の発現を調整する。DHSは実験的にそういう箇所を同定する。そして、そういった場所は細胞によって違う。すると、今回教育年数に関連するとされた遺伝的変異が、胎児脳組織のDHSにたくさんあった。すなわち、胎児脳組織においてこれら遺伝的変異が機能を発揮しているだろう(ほかの組織・・・例えば筋肉などでは、遺伝的変異があってもヒストンにグルグル巻きされているので機能を発揮していないだろう)。胎児脳において遺伝的変異により遺伝子調節に違いが生じることが、最終的に教育を受ける年数に影響する・・・と、まあ「そうですね」というような解析結果である。そのほか本論文では一般的に中枢神経系組織に影響しているだろうという解析もいくつかしている。

遺伝的相関」と書くとなにやら一般名詞のようにも見えるが、最近のゲノム解析で使っているなら普通GCTAとかLDSCとかの特定のソフトウェアの結果を指し、今回はLDSCによるもの。これの意味についてはいろいろな理解をする人がいるとは思うが、おそらく一致して理解可能なのは、「これら多因子遺伝性の形質は様々な遺伝子パスウェイにおけるいろいろな遺伝配列の違いが影響している。遺伝的相関は、二つの形質がそういった遺伝子パスウェイを共有している割合を示している」ということ。そもそもわざわざ遺伝統計学者が「遺伝的相関」という言葉を使っているのだから、因果関係ではありませんよと注釈していることに等しい。

とはいえ、頭蓋内容量と教育年数が遺伝子パスウェイを共有していれば、その機能を起こす場所つまり脳であることが一致しているから、ある程度因果関係を示しているようにも思われる。一方躁うつ病においては、教育年数が長くなると躁うつ病をきたしやすいという交絡因子を反映している可能性もある。

統計学的因果推論をしたいというときにはMendelian randomizationをするということに(今のところ)なっている。

2016-03-21

HPVワクチン副作用(仮)とHLA遺伝型との遺伝的関連についてのメモ

05:14

HPVワクチン副作用の話。

以前から話題になってはいたみたいなので(http://togetter.com/li/906273)す。このtogetterには「HLA-DPB1*0501が92%(11人)だった」、とあるので、この時点で調べたのは12人くらいだったのかな。

それから最近これが出て

http://mainichi.jp/articles/20160317/k00/00m/040/109000c

  • 研究班は信州大と鹿児島大で、ワクチン接種後に学習障害や過剰な睡眠などの脳機能障害が出た10代の少女らの血液を採り、遺伝子「HLA−DPB1」の型を調べた。
  • その結果、「0501」の型の患者が信州大で14人中10人(71%)、鹿児島大で19人中16人(84%)を占めた。
  • 「0501」は一般の日本人の集団では4割程度とされ

とある。

「7~8割」と減っているのだけれど、サンプルサイズが増えたら割合が低下したようで、これ自体は全く問題のないこと。ただ12人とかのレベルで発表していたのがおかしい。そして今後もこの数字は変化していくだろう。

これについて、当該新聞記事は

と書いているが、なぜ「が、」で終わらせるのか理解できない。この結果について、まっとうな研究者ならこの小西先生の指摘以外の結論を導き出しようがない。


ところでこの新聞記事、私本当にわからないことがあるのです。

メンデル遺伝法則を出すまでもなく、ヒトゲノムは2倍体で、常染色体についてそれぞれ2本の染色体を持つ。この時、上記新聞記事で

「0501」の型の患者が信州大で14人中10人(71%)、鹿児島大で19人中16人(84%)を占めた。

とあるのだが、ヒトは「0501/0501」または「0501/その他」または「その他/その他」、というふうに、二本の染色体のそれぞれに存在するアレルの組み合わせとして「遺伝子型」を持つと言う風に高校の生物学で・・・我々の頃は習ったけどね、この記者さんが教育を受けたころは習わなかったかもしれませんが・・・。でも優性とか劣性とか習ったよね?まあ、そういうわけなので、『「0501」の型の患者』なる表現をすることはできないのだが、人数ベースで語る場合「0501キャリア」を指すことはある。すなわち、ここでいう

  • 「0501」の型の患者

というのは、私の解説のうち「0501/0501」と、「0501/その他」を合わせた数なのだろうと思う。

それに対して、記事中にある

  • 「0501」は一般の日本人の集団では4割程度とされ

は、アレル頻度のことでしょう。つまり、n人の日本人がいた時、そのすべての染色体本数2n本のうちの、HLA-DPB1*0501が乗っている染色体の本数。「アレル頻度」と明言していないのになぜそうだと思うかというと、例えばhttp://www.nature.com/ng/journal/v47/n7/extref/ng.3310-S1.pdf のSupplementary Table 1.にも(かなり下の方)38.9%とあるし。これは900人程度を調べている。

ちなみにここを見ると分かる通り、HLA-DPB1*0501というのは日本人HLA-DPB1アレルのうち最大頻度のものなんですね。最も多くの人が持っているアレルだということです。それがHPVワクチン副作用リスクなんでしょうかね?

で、0501アレル頻度38.9%だとすると、ハーディ・ワインベルク法則に基づき「0501/その他」が47.5%、「0501/0501」が15.1%くらいになるので、これを合わせると62.6%。

だから、「信州大71%」「鹿児島大84%」と比較すべきはこの「62.6%」であるはずだと思います。だいぶ受ける印象が違うと思いますが。そして12人レベルでは92%だったところ、33人レベルで78.8%(両大学合算)まで低下して、だいぶ一般集団頻度である62.6%に近づいているところですが、今胸を張ってこの結果を発表できるのはすごいなあ。研究者ならちょっとドキドキしますよね。当初のチャンピオン気味のデータが否定方向に傾いているなあと思う時期のデータだと感じるので。

「そうは言っても、最初に92%もの頻度を観察したのだからなんらかの真実を反映しているのではないか」、と思われる方は、まずHLA-##だけでも最低6種類あり、そのうちHLA-DPにもAとBがあって(まあDPAは多型性低いけど)、さらにDPB1*##に数十種類あって、さらにそのそれぞれにDPB1*05##の2桁が付いていることを思い出そう。小サンプルの結果から、なんか良さそうなものを探し出すには事欠かない状況なのです。そしてそういうものは大体、数を増やせば安定してくる。頻度主義的*1統計学の言葉で言えば、ただでさえ検出力が全く足りてない上に、多重検定の問題がのしかかっています。今後の進展次第で科学的に有意義な結果になることを否定するわけではありませんけれど。

最後に、HLAアレル頻度には地域差が観察されます。他のゲノム領域とは独立した地域差を示すので特徴的であることが知られています。多分地域のローカルな感染症の歴史を反映しているのでしょう。すなわち、信州大、鹿児島大でHLAを調べたなら、それと地理的マッチする(もちろん他に年齢性別もマッチしている)コントロールのHLAをちゃんと調べないと、単に日本人一般集団と比較しても、本当はダメです。代替案として、ゲノムワイドSNPを調べて遺伝地理情報の補正を行うというのはある。しかしそれだけのためにねぇ。

毎日新聞記者も、もうちょっとこの記事出す前に意見を聞くべき先生がいるだろう。NYTとかはこういう時にちゃんと適切な人に意見を求めて、科学的に変な記事にならないようにしているように感じるのですが。もちろんコメントを寄せていただいている京大の先生はきちんとしたことをおっしゃっているが、他にも何人もの利害関係のなさそうな人(例えば医者ではない遺伝学者)に聞いてみんな同じようなことを言うことを発見するはずだ。

*1:最近p値を濫用するのは・・・的な話が話題になっているので一応書いてみた

2015-11-15

Le Mondeなう

00:21

http://www.lemonde.fr/les-decodeurs/article/2015/11/14/attaques-de-paris-ce-que-l-on-sait-ce-que-l-on-ignore-encore_4810154_4355770.html

11/15 16:03 mis à jour

  1. 確認されたこと
    1. 少なくとも7人のテロリストが関与
      1. 3人のカミカゼが21:20、21:30、21:53にスタード・ド・フランス周囲で自爆
      2. もう一人のカミカゼは21:40にレストランComptoir Voltareで自爆
      3. 3人のテロリストは、Bataclanにポロで乗り付け80人以上を殺した後、死亡した。2人は自爆し、もう一人は警察に射殺された。
    2. 少なくとも129人が殺された。また、その他に352人が負傷し、そのうち99人が重体。
    3. 3つのチームが関与し協調的に行動している。3番目のチームは逃走しているかも。
    4. 2台の車が関与。一つは黒のセアトで、Montreuilで見つかり、残りは黒のPoloで、ベルギーで登録されたもの。
    5. Bataclanのテロリストの中にはフランス人がいる。
  2. まだはっきりしないこと
    1. テロリストの中にシリア難民がいる?
    2. 誰が10区の事件を起こしたのか(21:25のバーLe CarillonとレストランLe Petit Cambodge、21:32のカフェBonne Bière、21:36のCharonne通り)?いずれにおいても、黒のセアト・レオンが見られている。第3チームである可能性がある。
    3. カミカゼはスタード・ド・フランス内で自爆しようとしたのか?
    4. どれくらいの規模のテロリストなのか?
    5. 11/5にドイツバイエルンで逮捕された男は関係ある?
  3. 間違っている情報
    1. Yvelinesでの戦闘。
    2. Bataclanで4人の警察官が殺されたとの情報。
    3. レ・アール、ベルヴィル、トロカデロ、ヴァンサンヌでの事件。
    4. ストラスブールでのRAID
    5. カレーでの放火との関連。