「確率変数」の正体は米田埋め込み - 檜山正幸のキマイラ飼育記 (はてなBlog)

確率変数（random variable, stochastic variable）という言葉の意味が分からない！と何度か書いています。

結局分からないままでした。「慣れ」の問題かも？と思ったこともあります。

2015-05-28 「慣れれば分かる」問題

慣れることも出来ませんでした。

最近、「これなら納得できるかな」という解釈に出会いました。

[追記 date="翌日"]最後に分かりやすいマトメを付けました。[/追記]

内容：

「確率変数」はなぜ分からないのか
アレックス・シンプソンのアイディア
「確率変数」の2つの用法
確率空間と圏Prob
測度論的確率変数
曖昧な確率変数
前層と米田埋め込み
米田埋め込みとしての確率変数
[追記 date="翌日"]記法を中心としたマトメ

補足もあります。

「確率変数」の変種：測度に縛られない確率変数

「確率変数」はなぜ分からないのか

「確率変数とは、ランダムな値を取る変数」とか、“定義”として出されますが、これじゃ何のことだかサッパリ分からない！ 意味がハッキリした定義として「確率空間からの可測写像」というのがあります。しかし、実際の用法として「確率変数」を常に「可測写像」として使っているとは思えないのです。

誤解されないように言っておくと：「確率変数」という言葉を使う前に「確率空間」を定義すべし、とか、そんなことを主張する気はサラサラありません。確率空間の厳密な定義がなくて「確率変数」を使ってもいいのですが、その使用状況において背後の確率空間を想定可能かというと、どうも無理なのです。暗黙にさえ、背後の確率空間なんて想定してない気がします。

例えば、「普通の変数」を「確率変数」に変更することがあります。変数xが実数直線R上を走る変数だとして、これを「確率変数にします」とかやるわけです。同じ文字xを確率変数にそのまま使う場合もあれば、親切な著者は区別して大文字Xにしたりします。「普通の変数x → 確率変数X」という変更は、実際のところいったい何をしているのでしょう？

「普通の変数x → 確率変数X」の変更の際に、確率空間 A = (Ω_A, Σ_A, μ_A) を持ち出して、X:Ω_A→R （可測写像）という解釈なら納得もできるのですが、確率空間など（暗黙の想定にさえ）一切登場しません。変数が走る変域はRだけで、「R上の普通の変数x」が「R上の確率変数X」に突如変身するのです。変身した後のXとは、どこから来た何者なんでしょうか？（追記した最後の節に、種明かしがあります。）

アレックス・シンプソンのアイディア

アレックス・シンプソン（Alex Simpson: Edinburgh, Ljubljana）のこの動画をたまたま見つけました。

実は、動画をちゃんと見てるわけじゃありません。検索で引っかかった"Probability sheaves"というタイトルを見て「あっ」と思いました。タイトルだけでシンプソンのアイディアはだいたい予想が付きました。英語は聞き取れないし、確率論のテクニカルな内容は理解できないので、とりあえず動画の何箇所かで板書を眺めて、予想が見当ハズレでもないだろうと確認(?)しただけです。

という次第で、シンプソンの考えを僕が誤解している可能性もありますが、「確率変数を層（sheaf）とみなす」という基本アイディアは外してないと思います。ここでは、層とみなすのは面倒なので、「確率変数＝前層（presheaf）」として、シンプソンのアイディアを紹介します。

「確率変数」の2つの用法

まず、「確率変数」という言葉の用法（使い方／使われ方）を2つに分類します。1つは測度論的用法で、「確率変数＝確率空間からの可測写像」という定義に基づく用法です。測度論的な定義では解釈が困難で、代替の解釈もない場合を「曖昧な用法」と呼ぶことにします。

測度論的用法は意味が明らかだし、その意味に基づいて言葉を使っているなら曖昧性もありません。つまり、特に問題はないということです。この世の用法が測度論的用法であるか、背後に測度論的用法があると想定できるなら僕もフラストレーションを感じないでしょう。しかし、いきなり「R上の変数を確率変数に変更する」ことがあったりするので、モヤモヤ・イライラするのです。

以下では、シンプソンのアイディアに基づき「曖昧な用法」に解釈を与え、測度論的用法と曖昧な用法の関係にも言及します。

確率空間と圏Prob

確率空間を、A = (Ω_A, Σ_A, μ_A) のように書くことにします。

Ω_Aは集合、Aの台集合（underlying set）と呼ぶ。
Σ_Aは、Ω_A上のσ集合代数（可算加法族）。
μ_Aは、(Ω_A, Σ_A)上の実数値測度で、μ_A(Ω_A) = 1

Ω_Aは標本空間（sample space）と呼ぶことが多いと思いますが、可測写像の値の空間（余域）のほうを標本空間と呼ぶ人もいるので、単に台集合と呼んでおきます。

実用上は、Ω_Aが単なる集合では不便で、タチの良い位相空間（ポーランド空間とか）を使うようです。その場合、Σ_Aは位相から作られたボレルσ集合代数にします。可測写像だけでなく連続写像なども考えることができるので、使える道具が増えるわけです。しかし、今ここでは位相構造は考えないことにします。

確率空間 A = (Ω_A, Σ_A, μ_A) があると、(Ω_A, Σ_A)は可測空間なので、確率空間の概念には可測空間の概念が含まれています。そのため、確率空間A, Bに対して、可測写像 f:Ω_A→Ω_B を定義できます。Aの確率測度μ_Aに対して、可測写像fによる前送り測度 f_*(μ_A) を次のように定義できます。

S∈Σ_B に対して、 (f_*(μ_A))(S) := μ_A(f^-1(S))

可測写像 f:Ω_A→Ω_B が、f_*(μ_A) = μ_B のとき確率を保存する写像と言います。

確率空間を対象として、確率を保存する写像を射とする圏を定義できます。この圏をProbと書きます。ただし、確率を保存する写像が測度0の集合でしか違いがないなら同一視します。圏ProbのホムセットProb(A, B)は、確率を保存する（可測）写像の集まりではなくて、「測度0の集合を除いて一致する」という同値関係で割った集合（商集合）です。したがって、圏Probの射は、可測写像の同値類です。（より詳しくは「合同を持つ圏と測度空間の圏」を参照。）

測度論的確率変数

圏Probを使って、「確率変数」という言葉の測度論的用法を整理しておきましょう。

Aが確率空間で、V = (Ω_V, Σ_V) を可測空間とします。V側にはとりあえず測度が載っていません。Ω_Aからの可測写像 X:Ω_A→Ω_V を測度論的確率変数と呼びましょう。

Xが測度論的確率変数のとき、確率空間A上の確率測度μ_AをXで前送りしたX_*(μ_A)は、可測空間(Ω_V, Σ_V)上の確率測度になります。そこで、μ_V := X_*(μ_A) として、(Ω_V, Σ_V, μ_V)を作ると、これは確率空間になります。この確率空間を同じ文字Vを使って V = (Ω_V, Σ_V, μ_V) と書きます。

可測写像Xを、あらためて確率空間のあいだの写像 X:A→V とみなすと、測度論的確率変数Xは、圏Probの射とみなせます。正確に言えば、Xの同値類[X]をProb(A, V)内で特定することになります。この操作により、測度論的確率変数は、圏Probの射と同一視可能です。

以上述べたことから、「確率変数」の測度論的用法に関しては、「確率変数とは、圏Probの射である」という意味付けができました。

「確率変数は分布を持つ」といった言い方も、X:Ω_A→Ω_V により誘導されたV側の確率測度 μ_V = X_*(μ_A) のことを「Xの分布」と呼ぶなら解釈可能です。確率測度μ_Vが確率密度gで定義されるなら、測度μ_Vと密度gを意図的に混同した上で、「Xの分布がg」「Xは分布gを持つ」とかも、まーなんとか解釈可能です。

曖昧な確率変数

さて、問題は「確率変数」の曖昧な用法です。背後の確率空間や可測写像は何も想定せずに「確率変数X」という言葉を使うとき、どう解釈するか？です。

Xの定義域である確率空間が仮定も想定もされない場合でも、Xの“値の空間”は想定しています。例えば、実数直線Rとか、ユークリッド空間Rⁿの部分領域とかが値の空間とされます。値の空間がVである確率変数をRandVar(V)と書くことにします。ただし、今は記号を定めただけで、RandVar(V)が何であるかは不明です。RandVar(V)は、「Vを値とする確率変数」を記号的に書いただけです。

曖昧に「確率変数」と言うときでも、値の空間V上の分布（＝確率測度）を云々することから、Vは確率測度を備えた確率空間と考えていいでしょう。つまり、RandVar(V)のVは確率空間です。となると、RandVar(-)は、引数に確率空間を取って意味を持つような何か、と思えます。

ここで、測度論的確率変数を思い出すと、測度論的確率変数Xには、定義域である確率空間が指定されていました。X:A→V ですね。ところが、曖昧な確率変数Xでは定義域である確率空間が指定されていません。この食い違いを吸収するために、次のように考えることにします。

曖昧な確率変数Xにおいて、定義域である確率空間や具体的な可測写像が指定されないのは、何も考えないのではなくて、何が来てもいいような準備・構えだけをしているのだ。

つまり、特定の確率空間Aが与えられれば、Aからの測度論的確率変数（＝確率を保存する可測写像）を考える準備はあるのです。記号Xは、実は確率空間で埋めるプレースホルダーを持っていて、Aが与えられると測度論的確率変数X_Aが定まる（と考える）のです。

測度論的確率変数X_Aが走る領域は、Aを定義域としてVを値の空間とする確率保存可測写像の全体です。つまり、圏ProbのホムセットProb(A, V)です。この事実は、次のように書けます。

X_A∈Prob(A, V)

あるいは、変数X_Aの型はProb(A, V)だ、ということを型理論の記法で書けば、

X_A:Prob(A, V)

確率空間Aを未定のプレースホルダー（無名変数）に戻すと、

X_-:Prob(-, V)

となります。ハイフンがプレースホルダーです。

X_-やProb(-, V)がプレースホルダーを持っているとなると、RandVar(V)もプレースホルダーを持っていると考えるべきでしょう。RandVar(V)(-) で、二番目の括弧がプレースホルダー部分です。ここに具体的な確率空間Aが入ると、RandVar(V)(A) = (RandVar(V))(A) となり、「Vを値とする（曖昧な）確率変数」が、定義域であるAにより具体化されることになります。

こうなると、RandVar(V)(-)はProb(-, V)の別表記に過ぎないことになります。

RandVar(V) = RandVar(V)(-) = Prob(-, V)

前層と米田埋め込み

前節の最後に出てきたProb(-, V)は、圏Probの米田埋め込み（Yoneda embedding）です。このことを理解するために、前層と米田埋め込みを簡単にまとめておきます。

Cが圏のとき、Cの反対圏C^opから集合圏Setへの関手の圏[C^op, Set]を、Cの前層（presheaf）の圏と呼び、PSh(C)と書きます。PSh(C)の対象が前層です。つまり、前層とはC^op→Setの関手に過ぎません。

PSh(C) = [C^op, Set] は、CからSetへの反変関手（と自然変換）の圏と言っても同じです。共変関手の圏[C, Set]を考えてもいいのですが、歴史的事情と反変関手が出現することが多いことから、反変関手のほうを主に扱います。共変関手の圏[C, Set]は余前層（copresheaf）の圏と呼ぶようです。

Z∈|C| に対して、C(-, Z) は前層になります -- これは、H(-) := C(-, Z) と置いて、HがCからSetへの反変関手になればいいのですが、それは次のようにして分かります。

X∈|C| に対して、H(X) = C(X, Z)。C(X, Z)は集合なので、Hは |C|→|Set| の対応を定める。
f:X→Y in C に対して H(f):H(Y)→H(X) を決めればよいが、u∈H(Y) （H(Y) = C(Y, Z)）に対して、(H(f))(u) := f;u とする。(f;u):X→Z in C なので、(f;u)∈H(X) （H(X) = C(X, Z)）。
H(f;g) = H(g);H(f), H(id_X) = id_H(X) は定義に従い確認できる。

X∈|C| に対するξのX成分 ξ_X:C(X, Z)→C(X, W) in Set は、u∈C(X, Z) に対して、ξ_X(u) := u;f と定義する。
ξの自然性は、定義に従い確認できる。

さらに、C(- f;g) = C(-, f);C(-, g) と C(-, id_Z) = ι_{C(-, Z)} が分かります。ここで、最初の等式右辺の「;」は自然変換の縦結合、ι_Fは関手Fに対する恒等自然変換です。

以上をまとめると、(xはCの対象または射 |→ C(-, x)) という対応は、CからPSh(C)への関手となります。圏Cを与えるごとに (x |→ C(-, x)):C→PSh(C) が決まるので、(x |→ C(-, x)):C→PSh(C) をCの米田埋め込みと呼び、y_Cと書きます。

米田埋め込み y_C:C→PSh(C) が実際に圏の埋め込みとなることは、米田の補題から言えます。

米田埋め込みとしての確率変数

曖昧な用法としての「確率変数」とは、確率空間と確率保存可測写像の圏Probに対する米田埋め込みだと解釈してみましょう。つまり、

RandVar := y_Prob : Prob→PSh(Prob)

そうすると、「確率変数」の不明さ／曖昧さ／分かりにくさがある程度説明が付きます。

曖昧な用法の「確率変数」が分かりにくく、マトモな説明がないのは、それが非常に高階な存在物だから。
曖昧な用法の「確率変数」でも、値の空間は明示するのは、米田埋め込み y_Prob(-) の引数（ハイフンの所）が“値の空間”を要求するから； RandVar(V) = y_Prob(V) = Prob(-, V)
曖昧な用法の「確率変数」では、定義域である確率空間が明示されないのは、RandVar(V) = RandVar(V)(-) = Prob(-, V) の引数（ハイフンの所）の具体化（束縛）を遅らせてもいいから。

「Xは、Vを値とする確率変数である」という言明の背後には次のような暗黙の前提が含まれていることになります。

値の空間Vは、単なる集合や位相空間ではなくて、確率空間である。Vの確率測度μ_Vを「Xの分布」と呼ぶ。
もし、特定の確率空間 A = (Ω_A, Σ_A, μ_A) が指定されれば、圏Probのホムセット RandVar(V)(A) = Prob(A, V) として、測度論的確率変数（＝確率保存可測写像）の集合が確定する。だが、Aを最初から指定する必要はない。
変数記号Xには、プレースホルダー（パラメーターが入る場所）があり、X_-という形をしている。プレースホルダー（ハイフン）に特定の確率空間Aが入ると、X_Aは RandVar(V)(A) = Prob(A, V) 上を走る変数と解釈できる。
f:V→W が圏Probの射（確率保存可測写像）のとき、f(X)は、任意のAに対する (X_A;f):A→W の意味であり、fをRandVar(V)からRandVar(W)への自然変換とみなしている。
つまり、「確率変数の関数」とは、確率保存可測写像から誘導される「関手（前層）のあいだの自然変換」である。

確率・統計の最初のほうに出てくる概念である「確率変数」に対して、なんで米田埋め込みを持ち出さなくてはならないのだ？と疑問を感じるかもしれませんが、その答は簡単です。それ以外にマトモな定義・解釈が（今のところ）ないからです。

[追記 date="翌日"]記法を中心としたマトメ

冒頭の「普通の変数x → 確率変数X」という変更を、記法（書き方）を順次変えながら説明します。最終的に測度論的確率変数に行き着きます。

型理論では、変数xの型（変域）がVであることを、x:V と書きます。変数xが普通の変数である（確率変数ではない）ことを強調するために、次のように書きましょう。

x:Var(V)

「xはVを変域とする変数だ」と読めます。普通の変数の変域Vには特に構造を要求しません。もちろん、構造を持っていてもかまいません（特に言及しないだけ）。

XがV上の確率変数ならば、次のように書きます。

X:RandVar(V)

「xはVを変域とする確率変数だ」となります。この記法が意味を持つためには、Vが確率空間(Ω_V, Σ_V, μ_V)でなくてはなりません。確率測度μ_V（またはその密度）を、「Xの分布」と呼びます。

XにもRandVar(V)にも、プレースホルダー（パラメーターを入れる場所）があるとして、それをハイフンで表します。

X_-:RandVar(V)(-)

プレースホルダーに入れられるモノは確率空間です。A = (Ω_A, Σ_A, μ_A) を確率空間とします（A = V でもかまいません）。Aをプレースホルダーに入れると：

X_A:RandVar(V)(A)

RandVar(V)(A) = (RandVar(V))(A) の意味は、圏ProbのホムセットProb(A, V)だったので：

X_A:Prob(A, V)

集合論的解釈をすると：

X_A∈Prob(A, V)

X_Aがホムセットに所属しているということは、X_Aは圏Probの射なので：

X_A:A→V in Prob

圏Probの射、すなわち確率保存可測写像は、測度論的に解釈した確率変数なので：

X_Aは、Aで定義されVに値を取る測度論的確率変数である。

以上のプロセスにより、V上の普通の変数xを確率変数Xに変えることは、Vの確率空間構造を特定して、任意の確率空間Aに対するV値の測度論的確率変数（を表す変数*1）X_Aを考えることだと分かりました。このプロセスを系統的に行うメカニズムが米田埋め込みです。

補足もあります。

「確率変数」の変種：測度に縛られない確率変数

*1:測度論的確率変数は可測関数ですが、X_Aはその可測関数の空間の上を走るので、正確には「確率変数を表す変数」となります。