「調査観察データの統計科学」3.1章 傾向スコアの数式メモ(後半)


前回に続いて、「調査観察データの統計科学」の 3.1章の後半を読む。
バランシングスコア b(x) を定義し、b(x) がバランシングスコアであることと、ある関数 g があって p(z=1|\boldsymbol{x})=g(b(\boldsymbol{x})) が成り立つことが同値である(特に十分である)ことを示した(p60)。


続いて本では、b(x) がバランシングスコアであり、かつ 2.5章の「強く無視できる割り当て」条件、つまり (y1,y0)⊥z|x が成立している時、(y1,y0)⊥z|b(x) が成り立つと言っている(p61)。
命題として書くと、


\boldsymbol{x}\bot z\;|\;b(\boldsymbol{x}) かつ (y_1,y_0)\bot z\;|\;\boldsymbol{x} ならば (y_1,y_0)\bot z\;|\;b(\boldsymbol{x})


となる。
これは、共変量 x を条件付けると割り当て z と潜在的結果変数 (y1,y0) が独立であるという「強く無視できる割り当て」条件について、バランシングスコアのもとでは「b(x) を条件付けると」に置き換えることができるということである。
共変量 x は一般に多次元であるのに対して、バランシングスコアはスカラーなので、「b(x) を縛ると」という条件は「 x を縛ると」よりもかなり緩いものになってくれていて、これがバランシングスコア(引いては傾向スコア)の嬉しさにつながる重要な性質だったりする。


さて本では、p61 の一番上の積分(期待値)を用いた複雑な式でこの命題を示そうとしている。式(3.2)と同様の計算ではあるのだが、こちらもそちらも「 x で期待値を取っているのに x が残る」という一見間違っているようにみえる式変形になっている。
実は一度 g(b(x)) に置き換えてから戻しているのだが、そのステップが省略されてしまっている。
式(3.2) の方は積分は必須なので避けられないが、p61 の方の命題は確率の乗法定理だけで示せる。丁寧にやるとちょっと数式長くなるんで、社内勉強会のスライドから抜粋。



長いが、一個一個は簡単な変形なので大丈夫だろう。
数式だけだとピンと来ないかもしれないけど、この関係式はグラフィカルモデルを描いたら明らかだったりする。



このグラフィカルモデルで、強く無視できる割り当ては (y1,y0) から z への矢印を切り、バランシングスコアは x から z への矢印を切る。すると、PRML 8章で言うところの tail-to-tail となり、b(x) で縛れば (y1,y0) と z は条件付き独立。一目瞭然。
というかこの絵を描いて、「なーんだ。じゃあ乗法定理だけで示せるはず〜」と上の証明を見つけた。


さて、こういう嬉しい性質のあるバランシングスコアの実例が「傾向スコア」である。


e_i:=p(z_i=1|\boldsymbol{x}_i) を第 i 対象者の「傾向スコア」と言う。
特に \boldsymbol{e}=(e_i) を単に「傾向スコア」と呼ぶ。


傾向スコア ei に対し、b(xi):=ei はバランシングスコアである。実際、関数 g を g(b(x)):=b(x) と置けば、g(b(\boldsymbol{x}_i))=e_i=p(z_i=1|\boldsymbol{x}_i) であり、前半で証明した「十分性」により b(x) がバランシングスコアであることがわかる。
実は、ここまで「嬉しい性質を持つバランシングスコア」なるものが存在するとは一言も言っていなかった。傾向スコアはバランシングスコアを構成することでその存在も証明したわけだ。他にもあるのだろうが、とりあえず知らない。

傾向スコア e_i:=p(z_i=1|\boldsymbol{x}_i) の真値はどう見ても分かりそうにないので、x_i と z_i から推定する必要がある。推定にはプロビット回帰やロジスティック回帰が使われることが多いということで、ロジスティック回帰の場合の説明が続く。
ロジスティック回帰のところは一般的な話なので大丈夫かな。強いて言えば exp の中に定数項が無いのがちょっと心配なくらいか。必要なら x_i がバイアス用の定数成分を持つことにすればいいんだろう。


というわけで、懸念があるとすれば「そもそもロジスティック回帰でいいの?」という部分だろう。
でも大丈夫。3.5章で、ロジスティック回帰モデルが傾向スコアの正しいモデルでない場合にロバストな推論を行うには、という話が出てくる。
えーとじゃあ「ロジスティック回帰モデルが傾向スコアの正しいモデルである」ってどういう状態? それがわかんなかったら、「正しくないからロバストな推定したい!」とすら思えないよね……。
というわけで、一番簡単な「ロジスティック回帰モデルが正しいモデルである例」でも見ておこう。


共変量 x は処置群 z=1 と対照群 z=0 とできっと異なる分布をしているはず(同じ分布なら無作為抽出と同等だから、めんどくさいことする意味ない!)。できるだけ単純にするため、x は一次元にしてしまい、処置群も対照群も同じ正規分布で、ただ平均がずれてるだけということにする。

  • p(x|z=1) = N(1,1)
  • p(x|z=0) = N(-1,1)


このとき、傾向スコア p(z=1|x) は


p(z=1|x)=\frac{p(x|z=1)p(z=1)}{p(x|z=1)p(z=1)+p(x|z=0)p(z=0)}


p(z=1) と p(z=0) がいるなあ。これも単純に p(z=1) = p(z=0) = 1/2 ってことにしよう。すると、


p(z=1|x)=\frac{p(x|z=1)}{p(x|z=1)+p(x|z=0)}=\frac{\exp(-(x-1)^2/2)}{\exp(-(x-1)^2/2)+\exp(-(x+1)^2/2)}
=\frac{1}{1+\exp(-(x+1)^2/2+(x-1)^2/2)}=\frac{1}{1+\exp(-2x)}


とロジスティック関数が登場。というわけでこの単純な例では、ちゃんとロジスティック回帰が真のモデルだとわかる。
一般的には、ロジスティック回帰は線形分類器であり、したがって完全に線形分離可能とまでは言わないものの、そこそこ分離できてないと当てはまり度はどんどん下がっていく。例えば上の簡単な例でも、p(x|z=1) = N(1,100) のように片方が大きい分散を持つだけで線形分離ではなくなる。
そうなってくると3.5章で説明されるような「二重にロバストな推定量」などが必要になってくるのだろう。