Hatena::ブログ(Diary)

tonetsの日記

2017-12-14

タンパク質間相互作用予測の話

19:05

f:id:tonets:20171213191307p:image:w640

この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の14日目の記事です。

連載3日目は、化合物を選ぶバーチャルスクリーニングから少し離れて、タンパク質間相互作用という生命現象を予測する話をします。


タンパク質間相互作用と創薬

タンパク質間相互作用、Protein-Protein Interaction、略してPPIとよく呼ばれます。狭義にはタンパク質同士が結合して複合体を形成すること、広義にはタンパク質同士がなんらかの影響を及ぼし合っていることを指します。創薬としては、PPIするタンパク質同士をPPIさせなくするような薬=PPI阻害薬を開発できないかと、ここ10年以上[要出典]、試行錯誤がされています。

話題の抗体医薬品であるオプジーボニボルマブ)も、PD-L1とPD-1というタンパク質同士のPPIを阻害するので、PPI阻害薬と呼ぶことができます。が、一般抗体医薬のことをわざわざPPI阻害薬と呼ぶことはほとんどありません[要出典]抗体医薬が狙うのは細胞膜上に刺さっている膜タンパク質オプジーボであればでT細胞PD-1)であり、この膜タンパク質に覆いかぶさってはたらきを阻害します。しかし、2000年代から注目されている[要出典]PPI阻害薬の創薬は、細胞の中のPPIを標的として、細胞膜を通過できる低分子などで薬を作ろうというものですので、抗体医薬の創薬とは少し毛色が異なってきます。

なお、抗体医薬については中外製薬ウェブサイトがわかりやすいです。(たとえばこちら https://chugai-pharm.info/bio/antibody/antibodyp14.html

狭義のPPIタンパク質の複合体には、いろいろな形が存在します。構造ベース創薬をやるなら複合体構造の形を知りたくなりますが、すでにたくさんの複合体構造が解かれてProtein Data Bankに登録されています。以下はその一例です。(Scott DE, et al. Nat Rev Drug Discov 15: 533, 2016 より引用)

f:id:tonets:20171213181734p:image:w500

この中で、たとえばインターロイキン2 (IL-2) については低分子の阻害剤の設計がいくつか論文等でも報告されています。(Scott DE, et al. Nat Rev Drug Discov 15: 533, 2016 より、一部改変)

f:id:tonets:20171213181735p:image:w500

細胞膜上のタンパク質抗体医薬によって数多く狙われていますが、細胞の中のタンパク質にはまだまだ手付かずのものも多いです。PPI阻害薬は、創薬過程にたくさんの課題はありますが、新奇の標的が狙えるとして注目されているのです。


タンパク質間相互作用を予測する

タンパク質間相互作用の予測は、化合物の世界のバーチャルスクリーニング様相がよく似ています。すでにPPIの相方が分かっているタンパク質同士を機械学習にぶち込んで未知のPPIを予測する機械学習ベースの方法と、ドッキングなどの方法で立体構造から相方を探す構造ベースの方法が存在します。

機械学習ベースの方法は、創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) 13日目の記事として紹介した薬剤標的相互作用予測 (http://d.hatena.ne.jp/tonets/20171213/1513094866) の方法がほぼそのまま使えます。つまり、タンパク質Aとタンパク質Bのペア (A, B) をなんらかの方法で特徴ベクトルにし、Y2Hなどの実験によって得られた相互作用の有る無しを {+1, -1} としてラベル付けし、SVMや無敵のディープラーニング[要出典]に突っ込んであげればよいのです。

実際に2006〜2007年ごろから機械学習によるPPI予測が試みられて、おそらく現在までに50報くらいは論文があると思います。昔は"-1"のラベル、「相互作用しないよ」というラベル情報がほとんどなく、相互作用するペアの相方をランダムに入れ替えたものを便宜的に使っていたりしましたが、最近では「相互作用しない」という情報を集めたデータベースなんかもでてきています(http://mips.helmholtz-muenchen.de/proj/ppi/negatome/)。

構造ベースの方法は、タンパク質同士の複合体構造を予測し、そのときのエネルギースコアの値を使って相互作用するかしないかを判定します。タンパク質同士の複合体を予測すると言った論文もこれまた山ほどあります(ざっと数百報の規模)。実は計算機による複合体予測の歴史はずっと古く、はじまりは1972年と言われています。以下の図は、私が調べた中で世界初だと思う複合体予測(BPTIとα-chymotrypsin)の論文 (Blow DM, et al. J Mol Biol 69, 137-144, 1972) の図です。

f:id:tonets:20171213181736p:image:w300

今ではたくさんのフリーソフトウェアサーバーが出てきて、とても気軽に複合体構造が予測できるようになりました。例えばClusPro (http://cluspro.bu.edu/) は、タンパク質複合体構造予測コンペのCAPRIでとても優秀な成績を収めているサーバーで、よく使われています。Glideで有名なSchrödinger社がPIPERという名前で販売しているものと中身はほぼ同じです。

1つのタンパク質ペアに着目して複合体構造を予測したり、数ペア程度のタンパク質PPI有る無しを知りたいという場合には、ClusProを使うのが良いかもしれません。しかし、例えば調べたいタンパク質のペアが1,000とか10,000とか、百万通りとかある場合には、なかなか構造ベースの方法では計算が大変で追いつきません。


MEGADOCK

そんな要望に応える形で我々が開発したのがMEGADOCK (http://www.bi.cs.titech.ac.jp/megadock/) です。MEGADOCKは、ClusProほどの精度は無いものの、速くたくさんのタンパク質ペアのドッキングが計算ができる唯一のソフトウェアです。流行りのGPU計算やスパコンでの計算にも対応しており、たとえば1台に4基のGPUが刺さったワークステーションでもGPUをすべて使って計算することができます。

しかし、ご家庭にスパコンはありません。自分の知りたいタンパク質ペアがどういう予測結果になるのか、かんたんには計算ができない場合もあるでしょう。そんなときのために、MEGADOCKの計算を予めやっておいたデータベースも作っています (MEGADOCK-Web: http://www.bi.cs.titech.ac.jp/megadock-web/)。論文open access誌のBMC Bioinformaticsという論文誌に2018年にpublishされることが決まっておりますので、興味のある人はpublishされたら読んでみてください。中身としては、ヒトのタンパク質鎖約7500個の全対全、 (¥mbox{}_{7500}C_2 + 7500 ¥simeq 28{,}000{,}000)ペアのPPI予測結果と複合体モデル構造が閲覧できるようになっており、JavaとPlay Frameworkを用いて構築されています。

f:id:tonets:20171213181737p:image:w500


まとめ

最後は脱線気味でしたが、新しいPPI標的を探して、PPI阻害薬を設計していくのは、創薬としてはかなり壮大な旅です。そんな旅を支えるツールとして、様々なソフトウェアが開発され、利用されていますので、興味がわきましたら是非調べてみてくださいね。

2017-12-13

薬剤標的相互作用予測の話

01:07

f:id:tonets:20171213190848p:image:w640

この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の13日目の記事です。

昨日に引き続き、化合物を選び出すバーチャルスクリーニングのお話です。

バーチャルスクリーニングにはいろんなアプローチがあり、毎日のように新しい手法アルゴリズム論文が出版されています。

薬剤標的相互作用予測は、バーチャルスクリーニングの中の1ジャンル名です。英語で、Drug-Target Interaction (DTI) Predictionとか、Compound-Protein Interaction (CPI) Predictionとか言われます。Chemogenomics-based Virtual Screening (CGBVS) と言う人もいます。本稿ではDTI予測と言うことにします。

結構定義が難しいのですが、DTI予測は、「複数の化合物と複数のタンパク質の情報があるとして、それらの間の相互作用(活性の有る無しなど)を予測する」問題と言うことができます。リポジショニング(既知標的以外の標的を探す)を直接的に計算機で予測する方法としても知られます。

方法

ざっくりとした方法を示します。化合物が d_1, d_2, ..., d_nタンパク質 t_1, t_2, ..., t_mとあったとして、それらがフィンガープリントでベクトル化されているとします。

(フィンガープリントについては6日目の記事を参照ください →化合物をベクトルにして比較しプロットする - Qiita https://qiita.com/Mochimasa/items/f1b60246ece7da46f6a9

すでに相互作用の有る無しが分かっている化合物-タンパク質のペア  (d, t) と、その間の相互作用の情報 y=¥{+1, -1¥} をとってきて、機械学習にぶち込みます。機械学習にぶち込むときに化合物-タンパク質のペア  (d, t) の特徴ベクトルが必要になりますが、だいたい dtをそのまま繋げたものや、 d ¥otimes tというテンソル積(=ここでは単に行列 d t^{¥top} の全要素 (d_1t_1, d_1t_2, ...) を縦に並べたベクトル)などが使われます(カーネル法に突っ込んだときに良い性質が得られるのでカーネル法が使われることが多い)。また、yを並べた相互作用行列Yを非負値行列因子分解などを使って2つの行列  U Vに分解し、Uの行ベクトルVの列ベクトルを特徴として用いる場合もあります。最近はこちらの行列分解アプローチが流行りです。

歴史

はじまりは2008年だと思います。Yamanishiら (https://academic.oup.com/bioinformatics/article/24/13/i232/231871) とJacob&Vert (https://academic.oup.com/bioinformatics/article/24/19/2149/247731) がこの問題に取り組みました。このとき、Yamanishiらが、Enzyme, GPCR, Nuclear Receptor, Ion Channelに分けた4つのDTI情報と、特徴ベクトルをまとめたデータセットを公開しました (http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/)。これがきっかけとなり、このデータセットをベンチマークとして様々な機械学習の方法が開発され、一気にレッドオーシャン化します。最近ではNRLMF (http://dx.plos.org/10.1371/journal.pcbi.1004760) と呼ばれる行列分解による方法が最高精度だと思っていますが、これを書いている間にも新しい方法が出ていたので、もはやよく分かりません。手法に関するマトモなレビュー論文が存在しないので、頑張ってサーベイすればレビュー論文が1本書けます(私はやりたくないですが)。化合物とタンパク質の2部グラフのリンク予測と見立てて、その筋の人たち(グラフマイニングとかの人)も多く参入しています。

まとめ

ちょっと雑な記事でしたが、こんな方法があるんだなあと知ってもらえれば幸いです。(図を追記予定)

2017-12-12

エスプレッソ(Spresso)の話

12:21

f:id:tonets:20171212104400p:image:w300

この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の12日目の記事です。

Spressoという計算ツールの紹介です。論文はこちら。

Yanagisawa K, Komine S, Suzuki SD, Ohue M, Ishida T, Akiyama Y. Spresso: An ultrafast compound pre-screening method based on compound decomposition, Bioinformatics, 33(23): 3836-3843, 2017.

https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btx178

オープンアクセスです)

ツールURLはこちら : http://www.bi.cs.titech.ac.jp/spresso/


はじめに

創薬の初期段階に、計算で有望な化合物を選び出すという過程(=バーチャルスクリーニング)があります。

バーチャルスクリーニングにはいろんなアプローチがあり、毎日のように新しい手法アルゴリズム論文が出版されています。

Spressoも、そんなバーチャルスクリーニングのためのツールの1つです。


Spressoが前提とするのは、

の3点です。いわゆる「構造ベースのバーチャルスクリーニング(structure-based virtual screening, SBVS)」をやります。何も無いところから新しい化合物を生み出す最近流行りのde novo設計はできませんが、たくさんの(数千万個の)候補化合物の中から、構造ベースで、高速に、有望な化合物を選ぶことができます。


しくみ

Spressoのしくみを説明します。

  1. まず化合物を、フラグメントにブツ切りにします。
  2. 次に、ブツ切りにしたフラグメントとタンパク質を、ドッキングツールでドッキングします。ドッキングツールはGlideでもGoldでもAutoDockでもmyPresto/sievgeneでもなんでも良いですが、Spressoが現行でサポートしているのはGlideのみです。
  3. 最後に、フラグメントのドッキングスコア(GlideScoreなど)を使って、ある数式に基いて元の化合物の有望度を計算します。

以上です。図にするとこんな感じです。

f:id:tonets:20171212104401p:image:w500


なぜフラグメント?

色々と疑問が出てくると思いますが、まずは「わざわざフラグメントにブツ切りにする」ことのメリットから説明しましょう。

f:id:tonets:20171212112240p:image:w360

世の中に化合物はたくさんあるのですが、単純にすべてをドッキングしようとすると結構大変です。たとえばZINCと呼ばれる有名な化合物ライブラリには、化合物がだいたい2千万個とかあります。ドッキング自体は1化合物あたり1秒くらいで終わりますが、2千万個の化合物だと5500時間=230日ぐらいかかる計算です。もちろん、230台の計算機があれば1日で、460台の計算機があれば半日で、920台あればたった6時間で終わりますが、なかなか大変です。しかし、化合物を構成するフラグメントの種類は、化合物に比べるとそんなに多くないのです。

f:id:tonets:20171212112242p:image:w500

たとえばこの例では、28,629,602化合物が263,319種類のフラグメントだけで構成されていることがわかりました。要するに、フラグメントのなんらかの計算結果を使って化合物を評価するならば、263,319種類のフラグメントの計算だけをやっておき、あとは計算結果を再利用すればよいということになります。


フラグメントから化合物にどうやって戻す?

さて、次の疑問は「どうやってフラグメントに切ったものから化合物に戻すのか?」ですかね。

Spressoでは、フラグメントから化合物の形に戻すことをしません。なので、有望な化合物を選ぶだけでなく、結合構造を知りたい人はSpressoは(ほぼ)使えません。

フラグメントのドッキングスコアから化合物の評価をするには、たとえばフラグメントのドッキングスコアを単純に足したり、最良値をとったり、平均値をとったりすれば良いことになります。色々試した結果、3乗一般化総和{GS_3}フラグメントスコアを3乗した値をすべて足して3乗根を取る)が一番良かったのでそれを使っています。

{GS_3 = ¥sqrt¥[3¥]{¥sum_f (s_f)^3}}

ここで、fフラグメントを、s_fフラグメントのドッキングスコアを表します。¥sum_fはある化合物に着目したときに構成されているフラグメントのすべてについて総和を取る操作を表します。


Spressoの性能

最後に、肝心の結果についてです。

まず計算速度ですが、ZINCの28,629,602個の化合物をGlide HTVSモード(速いモード)でドッキングした場合、およびSpresso中でGlide SPモード(普通モード)を使った場合のSpresso、Spresso中でGlide HTVSモードを使った場合のSpressoを比較したグラフが下の図です。

f:id:tonets:20171212115825p:image:w500

ドッキングの回数が減るので当たり前なのですが、SpressoはGlide HTVSに比べて100倍前後速いです。

次に精度です。精度はDUD-Eというバーチャルスクリーニング用のデータセットから102セットをすべて使いました。少しややこしいのですが、Glide HTVSで全体のx¥%スクリーニングしてからその後にGlide SPで上位1%を取った場合、Spresso(SP利用)で全体のx¥%スクリーニングしてからその後にGlide SPで上位1%を取った場合、Spresso(HTVS利用)で全体のx¥%スクリーニングしてからその後にGlide SPで上位1%を取った場合、のEnrichment Factor (EF1%) を調べました。これはSpressoやGlide HTVSが、プレスクリーニングツールとして利用されることを想定しているためです。

f:id:tonets:20171212115826p:image:w500

これを見ると、SpressoはHTVSの半分くらいの精度であると言えます。x¥%の数字が10%くらいになると、HTVSに近づいていきますが、その後のGlide SPモードによるスクリーニングに時間がかかってしまうので、お手軽さは減ってしまいます。


まとめ

Spressoは、精度はGlide HTVSの5〜8割くらい、速度はGlide HTVSの100〜200倍くらい、と覚えて貰えれば良いと思います。構造ベースの大規模スクリーニングがお手軽に、ご家庭でできるレベルになってくれれば、という思いが名前に込められています。

謝辞:この記事の図のほとんどは @yanagi3150 https://twitter.com/yanagi3150 によるものです。


小咄

  • 本成果はGIW2016という査読付き国際会議で最初に発表されました。発表当初はESPRESSOと名乗っていましたが、同じ名前のツールが存在していたため、名前が変わりました。
  • GIW2016に提出した論文原稿は、査読の結果採択されました。その後、論文誌推薦としてBioinformatics誌に推薦され、Bioinformatics誌の査読を受け直しました。major revisionでかなり大変なリバイズをしましたが、@yanagi3150 の頑張りで無事acceptに漕ぎ着けられました。
  • 実は2017年3月30日に論文が公開されていましたが、Bioinformatics誌のGIW2016 Special Issueに載せる予定の論文が揃うのに時間がかかり、結局正式なpublishは2017年12月1日となりました。GIW2016があったのが2016年10月なので、1年越しの刊行です。

2017-12-05

IQが1のD進

02:35

この記事はIQが1 Advent Calendar 2017 (http://adventar.org/calendars/2377) の13日目の記事です。


D進=大学院博士後期課程への進学について書きます。

だいたい理工系(特に情報系)を想定してます。医歯薬系・文系はよく知りません。


・D=博士後期課程ってなに?

▶︎修士課程の後にさらに3年間ほどあるやつです。


・大学の後の修士の後にまだ何すんの?

▶︎研究をしたり、専門分野の教育を受けます。世界の最先端の研究を行い、まだ誰も知らない未知の発見を学術誌の論文博士論文=博論=D論という形で世界中の人々に教えてあげることを目指します。


・どうしたらD進できるの?

▶︎願書を出して入試を受けてください


・どうしたら卒業(修了)できるの?

▶︎博士後期課程は、学位=博士=Dを取得することが目的です。Dが取れたら修了です。Dが取れないけど講義の単位だけ揃えて課程を辞めることを単位取得満期退学とか言います。戦略的にこのルートを選ぶ人もいますが、割愛します。


・どうしたらDが取れるの?

▶︎いくつかの敵を倒すとDが取れます。


・敵とはなんですか?

▶︎大学・学科(部局)等で決まりはバラバラですが、ほとんどの学科では学術雑誌に論文を1本以上掲載する必要があります。どんな雑誌でも良いわけではなく、査読があり、英文誌であることが大前提です。ただし、国際会議のプロシーディングでも良い場合もありますし、レター論文という3〜4ページくらいの短い論文は認められないこともあります。3本くらい求められる学科もあるようです。


・査読とはなんですか?

▶︎誰かがあなたの論文を読んで、おかしいところがないか確認します。


・ほかに敵はいますか?

▶︎審査があります。卒論発表の長い版とでも思ってください。一般的に行われるD論発表会=公聴会=ディフェンスだと、だいたい60〜90分だと思います。


・(ストレートで)26,7歳にもなって学生は…

▶︎周りは就職してしまって焦るかもしれませんが、Dで実力をつけてから就職するのもありだと思いますよ。


・いやいや、Dからじゃ就職できないよ

▶︎そんなことはありません。多くの企業がD卒生の採用を行っています。


・でもお金無いし

▶︎学振という制度や、RA等の制度が充実してきています。修士から就職した人と比べるとそこまでは稼げませんが、大学に通って研究してお金がそれなりに貰えます。


生涯年収減るじゃん

▶︎修士に行かずに学部で就職した人と修士課程を比べたら学部で就職した方がおそらく上なので、それはそう、としか言えないですが、逆転の可能性もあると思いますよ。


・大学の先生にはなれるの?

▶︎企業の就活と同じく実力と運で左右されるので難しいですが、頑張ればなれると思います(個人の感想です)。


・どんな人がD進に向いてるの?

▶︎研究が好きなら是非。世界の人々の知にあなたの新しい発見を刻みましょう。


・D取ったら研究職しかないの?

▶︎そんなことないです。開発や営業やってる人だっています。研究に広く関係するものとして、ジャーナリストや作家、役人、出版社などに行った方でD持ちの方も多くいます。政治家にもDいますね。


・でも大変そう

▶︎たしかに大変かもしれませんが、Dを取ったという経験はあらゆることへの自信に繋がります。貴重な20代を、と思うかもしれませんが、貴重な20代に投資した、という考え方もできると思います。


・その他

(AC担当日まで、twitterで質問が来たら随時ここに記載します)


+ + 以下追記 + +


・Dで研究室を変える/研究テーマを変える場合に覚悟しておくべきことは?

▶︎論文をどう出していくか、指導教員とよくよく相談しましょう。M→Dと続けてきた学生は、修士時代の研究をそのままDの間に論文にし、Dの論文カウントに加えたりすることができますが、Dで研究テーマが変わった場合にはそれが通用しなくなります。論文が2本要るなら、少なくともD2の夏に1本投稿、D3の夏にもう1本と進めていかないと3年を超える恐れもあるでしょう。


・あと、修士の時に書いたプロシーディングってDで業績カウント出来たりするんですか!?

▶︎カウントできる場合があります。修士+博士後期の5年間で博士課程という考え方があるためです。ただし、扱いは大学・部局によりますので、指導教員にご相談を。


学振取れない場合の収入源をどうするか

▶︎学振が取れれば月20万のお給料が貰えますが、競争率も高いので、取れなかった場合の話になります。

似たような助成をしている財団等に申請する、理研JRA産総研RAといった制度に申請するなど、いくつか手はあります。また、大学でTA/RAとして学生を雇用して給料を出すということもやっていると思います。大学RAの場合、原資は指導教員の研究費だと思うので、そこも指導教員と相談してみてください。


・D進する人って大体半年くらい留学してるイメージがありますが、一般的?

▶︎半々くらいかなと思います。私は留学をしたことがないので、羨ましくも思いますが、必ずしも留学経験がないといけないわけではないです。ただし、経歴(就活等)としては留学はプラスに働くことの方が圧倒的に多いです。


・結婚しなくてDに耐えられるでしょうか

▶︎猫を飼いましょう🐱


・課程博士社会人博士と論文博士の違い(取得難易度や価値の違いなど)

▶︎論博の方が難易度は圧倒的に上です。確かなことは言えないですが、多くの部局で論文数で倍くらいの要件があると思います。


・課程博士社会人博士論文博士において,D論における研究の一貫性/大テーマとはどれくらいの広さが求められるor認められるのでしょうか?

▶︎基本的に課程博士や社会人博士の関係なく、D論は1つのテーマとして完結していないといけません。一貫したストーリーが描けることもDの要素だと思います。


・社D時に修士と同じ方向性のテーマでD論を書く場合,修士のときの査読付きジャーナル論文などは使えるのでしょうか,という点について人により意見が異なることがあるようですが指導教官の意見が支配的とみるのがよろしいでしょうか?

▶︎指導教員+副査の先生方、要するにD論審査員の意向がほぼ全てです。部局での慣例もあるかもしれません。事前に指導教員に聞いておくと良いです。


・一貫性の定義とそれの評価は同分野の現物の博士論文が参考になるのでしょうか?

▶︎例えばテキトウな例ですが、自然言語と音声情報とで機械学習適用したD論とかあるかもしれないです。手法開発という側面でサーベイしてストーリー付けしてるとか、なんらかの一貫性があるかと思います。多くの大学はウェブD論を公開しています(数年前にウェブ公開が義務付けられました)。


・恋人・配偶者が存在しないとして,そういう人を作ろうとするつまり恋愛をするというのは,逆に(特に男性は)キケンと伺ったことがありますが,どうでしょうか?

▶︎個人の感想の域を超えないのですが、恋人のために感情が揺れ動くことは研究の上でも良い効果があるかもしれません。もちろん、恋愛なんかにうつつを抜かしている暇があれば研究しろ、という意見もあるかもしれないですが、プライベートはプライベートで切り分けて考えられる方が、今後の人生に良い方向にはたらくと思います。

2015-12-23

バーチャルスクリーニングで使う構造の賢い選び方?

22:50

この記事は今年読んだ一番好きな論文 Advent Calendar 2015の23日目の記事です.


今日紹介するのは,Journal of Chemical Information and Modelingという論文誌に掲載されたAn Inexpensive Method for Selecting Receptor Structures for Virtual Screeningという論文です.日本語で言うと,「バーチャルスクリーニングで使うタンパク質の構造を割と軽めの計算で選ぶ方法」というものです.

Huang Z, Wong CF. J Chem Inf Model. (in press), doi:10.1021/acs.jcim.5b00299

Publication Date (Web): December 14, 2015

http://pubs.acs.org/doi/10.1021/acs.jcim.5b00299

先日アクセプトされたばかりでまだ著者原稿版しか載っていませんが,僕らがやっている研究に近いというか,なんで思い付いてさっさと投稿しなかったんだというツッコミを自分に入れながら読んでいました.


1 バーチャルスクリーニングとは?

バーチャルスクリーニング (virtual screening) とは創薬分野で主に使われる単語で,計算機で薬の候補になりそうな化合物を選別 (screening) することを指します.薬の候補になりそうかどうかは,あるターゲットのタンパク質に対して活性が有るか無いか,という指標で図られます.この活性の有無を予測して選別することが目的です.

f:id:tonets:20151223180241p:image:w640


バーチャルスクリーニングには大きく2つの方法があり,化合物の形と既に分かっている活性の情報(教師情報)から未知の化合物に対する活性を予測するligand-based drug design (LBDD) と,ターゲットとなるタンパク質の立体構造情報を使ってドッキングシミュレーションなどの物理化学的な計算を用いるstructure-based drug design (SBDD) があります.それぞれ一長一短ありますが,今回紹介する論文は後者のSBDDのお話です.

f:id:tonets:20151223180242p:image:w640


2 この論文はどういう問題を扱ってるの?

SBDDでは,ターゲットとするタンパク質の立体構造がとっても重要です.立体構造を決めた人はProtein Data Bank (PDB) というデータベースに登録していくのですが,同じタンパク質でもいろんな立体構造があるので,それらは個別にそれぞれ登録されています.構造屋さんはリゾチームが大好きなので,例えばリゾチームを見てみると700個くらい立体構造がPDBに登録されています(参考:http://d.hatena.ne.jp/tonets/20120730/1343655777).

そのため,「あるタンパク質Xを阻害する化合物を探したい!」と言っても,タンパク質Xの構造データはたくさんあるので,そのうちどれを使ってSBDDすればいいのか分かりません.化合物がはまりそうなポケットに何か既にはまっているもの(ホロ体といいます)だと,そうでないもの(アポ体)よりも良さそうですが,一概には言えません.どの構造がバーチャルスクリーニングに適しているかを選ばなければなりません.

f:id:tonets:20151223180243p:image:w500

上の図はイメージ図ですが,実際の構造もちょっとずつ違っています.CDK2タンパク質を例に見てみましょう.

f:id:tonets:20151223180244p:image:w640

ほとんど同じと思う人も多いかと思いますが,ちょっとずつ違っています.


3 1番単純な方法

さて,構造の選び方ですが,1番シンプルな方法はこんな感じです.

タンパク質Aについて既に活性がある化合物(active)と,活性がない化合物(inactive)または活性が多分ない化合物(decoy)を集めてきて,実際にタンパク質Aの構造A1, A2, ...とドッキングさせて「activeの評価が高く,inactive/decoyの評価が低くなる」ようなタンパク質の構造を選べば良い.

図にするとこんな感じです.化合物がスコアの良い順に並んでいると思って下さい.

f:id:tonets:20151223180245p:image:w640

図中にでているRIE,AUROC,AUAC,BEDROC,EFはどれもランキングの良さを表す指標で,上位にactiveが来れば来るほど大きな値になります.詳細はhttp://d.hatena.ne.jp/tonets/20140604/1401856579とか見て下さい.

いろいろ指標を出しましたが,まぁ人の目で見ても「構造B」が良さそうというのが分かりますね.


4 1番単純な方法の問題点

この方法は1番単純でかつ確実な方法なのですが,計算が大変という問題もあります.図ではactiveが2個でinactive (decoy) が5個ですが,実際にはactiveが数十個,inactive (decoy) は数千個というレベルで計算させることが多いです.単純に数が多いので大変,ということですね.


5 この論文が提案したこと

この論文では,「activeとinactiveを全部ドッキングするのは大変だから,activeだけの結果からなんとか判断しよう」としました.5つの指標を提案していて,そのうちScreening Performance Indexと名付けた5番目の指標が1番良かったと言っています.SPIの式をそのまま引用します.

{¥mbox{SPI}=k/l}

{¥mbox{where } k=¥sum_{i=1}^n x_i,}

{x_i = 1 ¥mbox{ if } E_i ¥leq ¥frac{1}{N}¥sum_{i=1}^N E_i,¥mbox{  } x_i = 0 ¥mbox{ otherwise}.}

{l}はactiveの数,{n}はドッキングがちゃんとできたactiveの数ですがほとんど{l}と同じです.{N}{n}を全ての候補の構造で足し合わせたもので,構造が{p}個あって{l}個のactive化合物が全てドッキングできたとすると{N=pl}となります.


式で見るとちょっと複雑そうですが,要するにactiveだけドッキングした結果の全体平均スコアよりも高いスコアになったactiveをたくさん得た構造が勝ち,ということです.図にするとこんな感じです.

f:id:tonets:20151223180246p:image:w640

この図では,平均が-8.7で,構造Aは長方形の化合物だけ,構造Bは2つとも平均より良いスコアなので,構造Bの方がSBDDに適していると言うことができます.


6 SPI (Screening Performance Index) を使った結果

さて,本当にこのSPIという値でバーチャルスクリーニングに適した構造を選ぶことができるのでしょうか.詳細は割愛しますが,この論文では8種類のタンパク質に対して,それぞれ10〜30個くらいの構造を用意して,activeだけを使ってSPI値で選んだ構造が,実際にactiveとinactiveの両方を使って計算したBEDROC/RIE/AUAC/1%EF/10%EFとどのくらい相関するかを示しています.結果的にはSPIとBEDROCが平均して0.87ほどの相関係数を持つことが示されました.つまり,activeだけで選んだ構造は,実際にactiveとinactiveの両方で検証しても識別能が高かったということになります.

興味深いのは,結合部位の体積やタンパク質構造の解像度,アポ体/ホロ体の区別とはあまり関係がなさそうだったということです.このあたりは特徴付けが難しいのですが,構造の特徴そのものから識別能が分かるようになると,activeとのドッキングすら要らなくなるので,More Inexpensiveな方法で構造を選ぶことができるようになります.この論文の将来展望といったところでしょうか.

7 あとがき

細かい方法論の論文を紹介してしまいましたが,意外に誰もやっていなかった話(もしくはみんな暗黙のうちにやっていたかもしれない方法)をうまく論文化したなぁという印象です.ちなみにこのJournal of Chemical Information and Modelingという論文誌は,JACSで有名なACSが刊行する雑誌で,ケモインフォマティクスを中心に,分子シミュレーションバイオインフォマティクスの方法論も数多く載せています.バーチャルスクリーニングとか言い出す人はまず読んでいる雑誌なので,もしこういった分野に興味がありましたら論文を眺めてみると良いかもしれません.