Hatena::ブログ(Diary)

counterfactualの日記

2012-05-29

個体差とRCT

21:54

個体差が大きいと、RCTで評価できないというような、奇怪な主張をしている方々がいる。たぶん、この人たちは介入の無作為化の意味を理解していない。また、二重盲検法がRCTの最重要ポイントだと思っている人けっこういて、これはちょっと違う。肝は介入の無作為化である。

たとえば、あるクリニックにやってきた、インフルエンザと診断された人たちを無作為に2つの集団にわけ、両方ともタミフルで治療したとしよう。すると、無作為に振り分けているため、それぞれの集団におけるインフルエンザが治るまでの日数の平均値の期待値は、両集団で等しくなる(集団を振り分けなかった場合の平均値の期待値に等しい)。

f:id:counterfactual:20120529215042p:image

個体のレスポンスの差がとても大きいと、平均値の期待値が等しくならない、などということはない。そもそも、無作為化の最大の動機は、個体差がどれだけあろうが、集団を無作為に分けたなら、平均値の期待値が等しい複数の集団が構成できることにある(帰無仮説成立の保証)。一般的には、無作為化によって平均的に条件(交絡因子とか)が均一な複数の集団を作ることができる、と説明されるが、そのココロは同じである。代替医療屋さんが好きな、自己治癒力や自然治癒力なども、集団を無作為に分けることで、平均的に均一な複数の集団を作ることができる。

別の説明(本質は同じ)を試みると、無作為化によって個体差を確率変数と化すことができ、集団間の個体差の分布を平均的に同じにし、集団間の個体差の差を確率的に扱えるようにすることができる。たとえば、インフルエンザが治るまでの期間は、個人の「自己治癒力」によって異なり、また、その時々の生活環境の影響も受ける。細かく見ていけば、体温計の誤差や、治ったとする判断の誤差などがさらに加わってくるが、体温計や判断基準が集団間で同じになるように調整されていれば、これらの誤差は、期待値0のランダム誤差とみなすことができる。よって、無作為に2つの集団にわけて、タミフルで治療してインフルエンザが治るまでの期間を観測することは、無限個の重さの異なる物体(石ころなど)が入っている仮想的な箱から物体を取り出し、無作為に2つの集団に分けたのち、その重さを同じ測定器で測る、という場合と同じ確率モデルで扱うことができる。物体ごとの重さの差が個人差に相当するが、無作為化されているため、それは集団平均の差の期待値が0であるような確率変数となる。

もし、治癒までの日数の代わりに、一定期間における治癒率を観測するならば、それは、様々に歪んだ無限個のコインが入った仮想的な箱からコインを取り出し、それを無作為に2つの集団に分け、それぞれのコインをとって一回だけでたらめに投げて、表が出たか、裏が出たかを観測する、という確率モデルで記述できる。


さて、無作為に2つに分けた集団の一方の群をタミフルで治療し、もう一方の群をプラセボで治療したとしよう。もし、インフルエンザが治るまでの日数の平均値の期待値が異なったならば、それは、治療法の違いが原因か、または、治療法を知っていることによる、患者または医師の認知バイアスが原因である。もし、そのようなバイアスが生じないようにデザインされていれば、治療法の違いが原因である。タミフル群の期待値が小さい(早い)ならば、タミフルプラセボよりインフルエンザを早く治す、つまり効く、という結論が導かれる。

残念ながら、期待値を求めることはできないので、統計的仮説検定で期待値が異なるかどうかの判断をする。あくまで判断なので、誤ることを許容しているし、期待値が異なると判断できなかったことは、期待値が等しいことを意味しない。

個体差があるからRCTは不向きという主張を、この枠組みで言いかえると、統合医療プラセボ医療より効くが、集団の平均値の期待値の差に反映されないということはあるのか? となるだろうか。

個体にまで話を戻すので、各集団のサイズを3として考える(つまり3人ね)。もし、両群ともに、プラセボで治療したなら、まず、

群1のプラセボ効果平均値

(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

群2のプラセボ効果平均値

(患者Dのプラセボ効果+患者Eのプラセボ効果+患者Fのプラセボ効果)/3

として、無作為化されていれば

群1のプラセボ効果平均値の期待値=群2のプラセボ効果平均値の期待値

が成立する、そこで、群1をプラセボではなく、統合医療で治療したとすると、

群1の統合医療効果の平均値

(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

となる、この期待値が、プラセボで治療した群2の効果の平均値の期待値と等しいということは、つまり

(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

の期待値が

(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

の期待値と等しいことを意味する(実際には一方しか観測できないが)。

もしこうなるのというのなら、「統合医療プラセボ医療より効く」の定義から尋ねなければならなくなる(それって、ランダム誤差じゃね?という突っ込みが待っているが)

統合医療が効く人は一部なので、平均すると効果が見出しにくい、というならば話はわかる。たとえばCさんしか効果が出ないとすると、

患者Aの統合医療効果=患者Aのプラセボ効果

患者Bの統合医療効果=患者Bのプラセボ効果

患者Cの統合医療効果=患者Cのプラセボ効果

となって、平均値をとると、プラセボ医療との差はα/3と「薄まる」。しかし、Cさんだけ効果が高めに出るので、個体差のバラツキは、プラセボ医療に比して大きくなるだろう。もし、平均はあまり変わらないが、統合医療群の効果は、プラセボ医療群よりも右(効果の高いほう)にも分布しているならば、Cさんのような人の存在が示唆される。一部の人だけが効くような場合は、混合分布となるが、統合医療側が、効く患者を特定するのに役に立つような診断ができるのであれば、その診断の情報からデータを探索的に解析して、分布の右にある、統合医療が奏功している患者の特徴をつかむことが可能だ。

集団平均で評価することの古くからの批判は

患者Aの統合医療効果=患者Aのプラセボ効果

患者Bの統合医療効果=患者Bのプラセボ効果

患者Cの統合医療効果=患者Cのプラセボ効果

患者Aの標準医療効果=患者Aのプラセボ効果

患者Bの標準医療効果=患者Bのプラセボ効果

患者Cの標準医療効果=患者Cのプラセボ効果

というような場合、平均で評価したなら、標準医療が勝つが、Aさんのようなケースが切り捨てられる、というものだと理解している。これは、新治療と既存治療の比較において、でもさあ、みたいに蒸し返される批判であるのだが、肝心のAさんを特定する方法はない。ただ、測定不可能なAさんの特徴がαを生み出すのではなく、生活習慣や家族歴(遺伝子とかも)、性別や年齢、疾患のサブタイプといった、測定可能な特徴がαを生み出すのであれば、統計解析の工夫でAさんを拾い上げることができる。

西洋医学での一例をあげると、抗がん剤のアリムタが非小細胞肺癌の治療において興味深い情報を提供している。アリムタは、最初に悪性胸膜中皮腫アスベストによるがんの典型)で延命効果が期待できる唯一の抗がん剤として登場し、その後非小細胞肺癌の適応も追加された。個人的には、チョウの鱗粉から発見された物質が由来ということで、とても興味のある抗がん剤である。

さて、添付文書

http://www.haiganchiryo.info/image/alimta2009.6.pdf

によれば、海外で実施された効果を裏付ける臨床試験

アリムタ単独 v.s. ドキタキセル単独

アリムタ+シスプラチン v.s. ゲムシタビン+シスプラチン

の2つのRCTであり、2つ目の試験では生存期間がほぼ同等(いわゆる非劣性)であることが統計的に示されている。つまり、全体では差はない。しかしながら、組織型別の解析では、扁平上皮癌以外ではアリムタのほうが効くが、扁平上皮癌では既存薬のほうが効くことが強く示唆され、インタビューフォーム

http://www.info.pmda.go.jp/go/interview/1/530471_4229401D1020_1_01F_1F

には

「非小細胞肺癌を対象とした外国第III相試験1) 2) において、組織型によって試験群と対照群とで生存期間に差異が認められる傾向があり、扁平上皮癌では他の組織型に比して本薬の効果が減少することが示されている2) 61)。本剤を使用する際は、組織型ごと及び化学療法既治療例での臨床試験成績を十分理解した上で、治療の選択を行うこと。」

と記載されている。さらに調べてみると、

“Prognostic and predictive factors in a randomized phaseIII trial comparing cisplatin–pemetrexed versus cisplatin–gemcitabine in advanced non-small-cell lung Cancer”

http://annonc.oxfordjournals.org/content/21/3/556.full.pdf

という論文が見つかり、非常に詳細な”predictive factors”の解析が実施されている。

実は、かつて、こういう解析は、うまくいかなかった試験(全体では対照薬と差が出なかった)に対して、事後的にさかんに実施されていた。目的は、効果を主張できる部分集団を発見することだが、探索的な解析で得られた知見では、第一種の過誤が制御できないため、現在、そのような解析で効果を主張することは、規制側が受け入れていない(はずである)。アリムタの場合は、対照治療との非劣性が証明されており、その上での使い分けの情報を提供しているのである。なお、アリムタは、添付文書にあるように、副作用軽減のために葉酸及びビタミンB12の投与が必須であるが、それによって、既存の(細胞毒性のある)抗がん剤に比べて、かなり副作用が少なくなっており、それを根拠に海外で早期承認されたと記憶している(承認の主要な根拠になったのは、先に示した一つ目の試験のはずだが、非劣性は証明されていない・・・このあたり、詳しく調べていないので間違っているかもしれないが)。

統合医療側の主張の中に、西洋医学では全体の平均だけでしか評価できない、というのを見かけるが、それは誤った理解であり、もし、一部だが確かに効く患者が存在するならば、その患者の特徴をつかむことは可能である。

最後に、実はRCTには限界がある。というのは、無作為化されている集団達の出所は、母集団から無作為抽出された標本ではないからだ。集団の出所は、研究に参加している医療施設の患者達であり、全患者から無作為に選ばれるわけではない。つまり、RCTの結果を全患者に一般化するのには、待ったがかかるのだ。

もし、複数のRCTで一貫した結果が得られたならば、集団の偏りを超えて、効果の差が一般化できる強い根拠になる。

以上(長くなっちまった)

2012-03-27

おまけ

21:21

人口寄与危険割合は、リスク比と曝露割合を用いて

曝露割合*(リスク比-1)/(1+曝露割合*(リスク比-1))

と表すことができるので、現在の喫煙率を用いて、肺がんの人口寄与危険割合を算定してみよう。男性喫煙率は36.8%という値が拾えるので、リスク比を4とすると、

(0.368*3)/(1+0.368*3)=0.524

となる。男性肺がん患者の喫煙率は、非肺がん患者の喫煙率を36.8%で代用すると

(Pe1/(1-Pe1))/( 0.368/0.632)=4

から

Pe1=0.7

が得られる

2012-03-26 集団寄与危険割合

たとえば、ある病気の原因の候補の介入を無作為化して、二つの集団を用意できたなら、同一の期間観察したとき、その病気になる人の割合の期待値は、原因候補が原因でなければ(変な言い方だけど)互いに等しい。もし、確かに原因候補が原因であれば(変な言い方だけど)、原因候補を与えた集団での病気になる割合の期待値が、原因候補を与えなかった集団における期待値を上回り、その差分は、その原因を与えたために病気になった人の割合の期待値になる。式で書くと

原因なし群の病気の人の割合の期待値 :P0

原因あり群の病気の人の割合の期待値 :P1=R+P0

となり、Rが原因を与えたために病気になった人の割合の期待値になる。Rが0であれば因果関係は無く、Rが正の値であれば、原因候補は原因である(すごく変な言い方だけど)。もし、Rが負の値になれば、逆に原因候補に予防効果があることになる。

原因あり群の病気の人の数の期待値(表現がくどいですが)は、原因あり群の大きさをN1として、

N1*P1=N1*(R+P0)

と書くことができる。N1*P0は、原因が与えられなくても病気になった人の数の期待値、N1*Rは、与えられた原因のせいで病気になった人の数の期待値である。

両集団全体で病気になった人数の期待値は、

N0*P0+N1*(R+P0)=(N0+N1)*P0+N1*R

となる。N0は原因なし群の大きさである。N1*Rは与えられた原因のせいで病気なった人数の期待値であるから、病気になった人のうち、その原因のせいで病気なった人の割合の期待値は、

N1*R /((N0+N1)*P0+N1*R)

となる。

さて、このセンスで、疫学では、人口(訳と概念がこんがらがるが、「集団」とか、「母集団」でもOK)寄与危険割合という指標があり、これは、全人口(いわゆる日本人全体)における全罹患者のうちに、曝露が原因で罹患した人が占める割合の推定値として用いられる。

算出方法は

((全人口の罹患率)-(非曝露群の罹患率))/(全人口の罹患率)

であるが、これを順番に追っていくと

まず全人口のうち、曝露されている人々の数をN1、曝露されていない人々の人数をN0とすると、全人口の罹患率(の期待値)は、

((N0+N1)*P0+N1*R)/(N0+N1)=P0+N1*R/(N0+N1)

となる。非曝露群の罹患率(の期待値)はP0だから、(全人口の罹患率)-(非曝露群の罹患率)の期待は、

N1*R/(N0+N1)

となる。これを全人口の罹患率(の期待値)で割ると

(N1*R/(N0+N1))/ ((N0+N1)*P0+N1*R)/(N0+N1)= N1*R/((N0+N1)*P0+N1*R)

となって、全人口における全罹患者のうちで、曝露が原因で罹患した人が占める割合の(期待値)になる。これが0を超えるということは、曝露によって罹患率が高くなる、つまり、曝露と罹患の間には因果関係があると考える根拠になる。喫煙率などの曝露の割合との関係は、分母と分子を全人口(N0+N1)で割ってみるとわかりやすい

(N1/(N0+N1))*R/(P0+(N1/(N0+N1))*R)=曝露割合*R/(P0+曝露割合*R)

この分母分子をさらにP0で割ると

曝露割合*(R/P0)/(1+曝露割合*R/P0)

となる。喫煙と肺がんの場合、喫煙によって、3−4倍肺がんにかかりやすく(日本人の場合)なるとされるが、これは、

P1/P0=(P0+R)/P0=1+R/P0

が3-4ということである。仮に4とすると、人口寄与危険割合は

喫煙率*3/(1+喫煙率*3)

となり、たとえば喫煙率が70%であれば、この値は

0.7*3/(1+0.7*3)=0.68

となる。

つまり、人口寄与危険割合は、リスク比と曝露割合を用いて

曝露割合*(リスク比-1)/(1+曝露割合*(リスク比-1))

と表すことができる

当たり前のことだが、もし喫煙が肺がんの原因であれば、肺がんの患者の集団と、そうでない集団を比較したら、もちろん肺がん患者集団では、喫煙歴がある人の割合が多くなる。喫煙歴有無のオッズ、つまり曝露割合のオッズ、の比は、まれな疾患の場合、統計のマジックで、リスク比の近似値になる。これを用いると、肺がん患者集団で、喫煙歴がある人の割合はどれくらいになるかの見当がつけられる。ぞれぞれの集団における喫煙歴のオッズ

肺がん患者集団 :喫煙歴あり率 Pe1 オッズPe1/(1-Pe1)

そうじゃない集団:喫煙歴あり率 Pe0 オッズPe0/(1-Pe0)

だから、オッズ比は

(Pe1/(1-Pe1))/( Pe0/(1-Pe0))

である。Pe0のデータは手元にないので、これを全集団の喫煙率で代用して、0.7とすると

(Pe1/(1-Pe1))/( 0.7/0.3)

となる。リスク比を4とすると、

(Pe1/(1-Pe1))/( 0.7/0.3)=4

から、

Pe1=0.93

が得られる。

なお、肺がんと喫煙で注意すべき点は、よく言われるタイムラグに加えて、喫煙率が曝露の程度を正しく表さないということだ。喫煙量と喫煙期間によって肺がんのリスクは増加するため、たとえば、喫煙率が半分になっても、半分になった喫煙者の喫煙量が増加していたら、喫煙者の肺がんリスクの増加によって、全体では肺がんになる割合は増加するかもしれない。極端な例を示すと、「喫煙率100%、ただし全員月一本」から、「喫煙率10%、それらの者ども日々100本以上」を比較したら、後者のほうが、全体での肺がんになる人の割合は高いだろう。

全人口をみた場合、喫煙者といってもさまざまな曝露量の人々が混在しおり、喫煙率で肺がんの消長を記述できるような単純なことにはならない。喫煙によって、肺がんのリスクが3-4倍になるというのは、非常にざっくりとした平均値である。

2012-03-18

原因は結果より先にある

12:21

前回の補足になるが、因果関係の判断で最も重要なことは、原因は結果より前に生じるため、原因の消長と、結果の消長は同時に観察されず、時間的にずれるということだ。

たとえば、原発事故で懸念されている低線量被曝の影響は、10年、20年先に出てくると言われている。もし、今回の事故によってがんが増加するしても、それは数十年先の事になる。しかし、その頃には、事故による放射線のレベルはとても下がっているだろう。もし、原因は結果より先に生じていることを知らない人がいたら、「放射線は減っているのに、がんが増えている。低線量被曝が、がんの原因ならば、がんは減っていくはずだ、おかしい」、と言うかもしれない。こんなことにならないよう、原因は結果より前に起こっていることをしっかり覚えておこう。

2012-03-13

因果関係と無作為化とホメと丸ワク

23:50

因果関係というのは、直接観測できるものではなく、物事を理解するための概念であるため、どのような因果関係が興味の対象なのかについてコンセンサスがないと、話がかみ合わない。

たとえば、人が死ぬ原因は生まれたことだとか、生きているから病気なるのだとか、悟り顔で言われたところで、病気を治したいと願っている人とってはうっとうしいだけだし、リンゴが落ちるのは万有引力が原因だと言われても、実を落とすことが、リンゴにとって子孫を増やす上で有利なのか、実が落ちるような能動的な作用がリンゴの中で生じているのか、等に興味を持っている人にとっては、これっぽっちも有益ではない。

また、因果関係は、物事を理解するための概念であるがゆえに、しばしば因果関係の判断を誤る。

因果関係の判断で陥りやすいのは、何といっても前後即因果の誤謬だろう。前後関係は因果関係ではなく、前後関係だけからは因果関係の有無は判断できないのだが、珍しい体験をすると、前後関係だけで因果関係を判断してしまいやすい。

たとえば、長い間医者にかかっているのに、ちっともよくならなかった病気が、ホメオパシーで治療したらよくなった、という体験をしたり、そのような体験を見たり聞いたりすると、ホメオパシー治療が効いて病気が改善したのだと思ってしまう。

その体験は事実かもしれないが、その体験は、ホメオパシーが効いたという証拠にはならないし、ホメオパシー治療をするまでの様子と、ホメオパシー治療してから改善するまでの様子をどれだけ詳細に観察したところで、その観察はホメオパシーが効いたことを証明する力を持たない。ホメオパシーが効いたというためには、もし、ホメオパシーで治療しなかったら、その時病気は改善しなかったということが示されなければならない。なぜなら、ホメオパシーで治療しなくても、その時病気が同じように改善したなら、ホメオパシーが効いたと判断するのは不合理だからだ。

体験談は根拠にならないとよく言われるが、その理由は、体験談とは、ただの前後関係に過ぎず、前後関係だけでは、もしそれをしなかったら同じ結果にならなかったのか?という、因果関係の判断に必須の問いに答えることができないためだ。

(これの変法として、もし、プラセボだったら同様の結果にならなかったのか? という問いが代替医療全般に投げかけられている。もし、プラセボでも同様の結果が出せるなら、その人にとって、その代替医療プラセボ医療を超える価値はない。)

 因果関係を証明するためには、原因候補を与えた場合と、与えない場合の両方で、結果を観察しなければならない。ホメオパシーで治療したら病気が改善し、かつ、ホメオパシーで治療しなくても、その時病気は同じように改善したなら、ホメオパシーと病気の改善には因果関係はない。問題は、個人のレベルではこの二つが観察できないことである。そこで、「瓜二つの」集団に対して、原因候補を与えた場合と、与えない場合の結果(治癒率など)を観察し、異なった結果が得られたならば因果関係があるとする。ここでさらに問題になるのは、「瓜二つの」集団を用意することは不可能であることだ。そこで介入(原因候補を与えるか与えないか)の無作為化によって、因果関係が無いなら結果の期待値が等しくなるようにして、因果関係の有無を統計学的な判断にゆだねるというのが科学的に最も妥当な手続きとされている(二重盲検が最も重要だとする意見をたまにみかけるが、最も重要なのは介入の無作為化である。また、無作為抽出と介入の無作為化を混同している説明もたまにみるが、全然違うので念のため)。

30年?ほど前騒がれた丸山ワクチンでは、この介入の無作為化がおろそかにされていた(以下のリンクの津谷氏の説明参照のこと)。

http://www.npojip.org/jip_semina/semina_no1/pdf/308-312.pdf

 

介入が無作為化されていないならば、統計的に有意な結果となっても、それは因果関係の証拠にはならない。因果関係が無いなら結果の期待値が等しくなる、という前提が崩れているからだ。とはいえ、30年以上前、無作為化の意義が、臨床医や製薬企業に理解されていたとは言いがたく、誰も教えてくれなかった状態には同情する。

現在、無作為化比較試験のためのインフラは十分整っているので、丸山ワクチンの効果を信じる研究者の発奮を期待する。