檜山正幸のキマイラ飼育記 このページをアンテナに追加 RSSフィード Twitter

キマイラ・サイトは http://www.chimaira.org/です。
トラックバック/コメントは日付を気にせずにどうぞ。
連絡は hiyama{at}chimaira{dot}org へ。
蒸し返し歓迎!
このブログの更新は、Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama
ところで、アーカイブってけっこう便利ですよ。

2017-03-29 (水)

同時確率分布の圏

| 16:24 | 同時確率分布の圏を含むブックマーク

ベイズ確率の計算とかを見てると、どうも2つの圏が同型である事実を使っているようです。そのうちのひとつは、同時確率分布を射とする圏です。この圏はあまり言及されないようなので書いておきます。取り急ぎ定義だけを書くので唐突に感じるかも知れませんが、潜在的には使っている圏です。

内容:

  1. 確率測度と確率分布
  2. 確率空間、同時確率分布、周辺確率分布
  3. 同時確率分布を射とする圏
  4. この圏は何だ?

確率測度と確率分布

話を簡単にするために、有限集合を台とする確率空間だけを考えます。Xを有限集合として、σ集合代数は常にベキ集合Pow(X)とします。写像 μ:Pow(X)→R がX上の確率測度だとは:

  1. 任意の A∈Pow(X) に対して、0≦μ(A)≦1
  2. μ(¥emptyset) = 0
  3. A, B∈Pow(X)、A∩B = ¥emptysetならば、μ(A∪B) = μ(A) + μ(B)

有限集合しか扱わないので、可算加法性は不要です。

p(x) := μ({x}) とすると、pは次の性質を持ちます。

  1. 任意の x∈X に対して、0≦p(x)≦1
  2. Σ(x∈X | p(x)) = 1

上の条件を満たす p:X→R をX上の確率分布と呼びます。pが確率分布のとき、μ(A) := Σ(x∈A | p(x)) と定義すればμは確率測度になります。

このことから、有限集合の上では、確率測度と確率分布は1:1に対応します。

  • p(x) := μ({x}) ⇔ μ(A) := Σ(x∈A | p(x))

ここから先では、確率測度より確率分布を使います。X上の確率分布の全体をPDist(X)とします。Xがn個の要素を持つ集合なら、PDist(X) ¥stackrel{¥sim}{=} {p∈Rn | 0≦pi≦1, Σ(i = 1..n | pi) = 1} です。つまり、X上の確率分布の全体は、“(n - 1)次元の単体”と呼ばれる図形と同じ形状になります。

確率空間、同時確率分布、周辺確率分布

Xを有限集合として、X上の確率分布pをひとつ固定した組(X, p)を確率空間と呼びます。Yも有限集合として、直積集合X×Y上の確率分布を選んで固定しても、もちろん確率空間ができます。直積空間上の確率分布を伝統的に同時確率分布(joint probability distribution)と呼びます。「何と何が同時か?」とか考え込まないで、「同時確率分布=直積空間上の確率分布」と読み替えてください。

rがX×Y上の確率分布、つまり同時確率分布のとき、X上の確率分布とY上の確率分布を次のようにして作ることができます。

  • p(x) = Σ(y∈Y | r(x, y) )
  • q(y) = Σ(x∈X | r(x, y) )

pがX上の確率分布になることは、Σ(x∈X | p(x)) = Σ(x∈X | Σ(y∈Y | r(x, y))) = Σ(x∈X, y∈Y | r(x, y)) = 1 から分かります。qがY上の確率分布になることも同様に分かります。こうして作ったp, qを、rの周辺確率分布(marginal probability distribution)と呼びます。rを、pとqのカップリング(coupling)と呼ぶこともあります。

同時確率分布を射とする圏

確率空間を対象として、同時確率分布を射とする圏を定義しましょう。この圏をFinProbCoupとします。Finは台が有限集合であるから、Coupはカップリングからです。

FinProbCoupの対象は、台が有限集合Xである確率空間(X, p)です。ただし、確率分布pに関して次の条件を付けます。

  • x∈X に対して p(x) ≠ 0

(X, p), (Y, q)を確率空間とするとき、p, qを周辺確率分布とするX×Y上の同時確率分布を射だと考えます。射らしく(?)、同時確率分布をfと書きます。f:(X, p)→(Y, q) in FinProbCou だとは:

  1. fはX×Y上の確率分布である。
  2. fのX側周辺確率分布はpである。
  3. fのY側周辺確率分布はqである。

これらが圏をなすためには、射の結合と恒等射が必要です。

f:(X, p)→(Y, q), g:(Y, q)→(Z, r) のとき、fとgの結合は次のように定義します。h := f;g として:

  • h(x, z) = Σ(y∈Y | f(x, y)(1/q(y))g(y, z))

q(y) ≠ 0 なので、逆数(1/q(y))を使っても大丈夫です。hが確率分布であるためには、Σ(x∈X, z∈Z | h(x, z)) = 1 である必要がありますが、次のように計算できます。

  Σ(x∈X, z∈Z | h(x, z))
= Σ(x∈X, z∈Z | Σ(y∈Y | f(x, y)(1/q(y))g(y, z)) )
= Σ(x∈X, y∈Y, z∈Z | f(x, y)(1/q(y))g(y, z) )
= Σ(x∈X, y∈Y | f(x, y)(1/q(y))(Σ(z∈Z | g(y, z)) )
= Σ(x∈X, y∈Y | f(x, y)(1/q(y))q(y) )
= Σ(x∈X, y∈Y | f(x, y) )
= 1

hのX側周辺確率分布はpで、hのZ側周辺確率分布はrでなくてはなりません。

  Σ(z∈Z | h(x, z))
= Σ(z∈Z | Σ(y∈Y | f(x, y)(1/q(y))g(y, z)) )
= Σ(z∈Z, y∈Y | f(x, y)(1/q(y))g(y, z)) )
= Σ(y∈Y | f(x, y)(1/q(y))(Σ(z∈Z | g(y, z)) )
= Σ(y∈Y | f(x, y)(1/q(y))q(y) )
= Σ(y∈Y | f(x, y))
= p(x)

  Σ(x∈X | h(x, z))
= Σ(x∈X | Σ(y∈Y | f(x, y)(1/q(y))g(y, z)) )
= Σ(x∈X, y∈Y | f(x, y)(1/q(y))g(y, z)) )
= Σ(y∈Y | Σ(x∈X | f(x, y))(1/q(y))g(y, z) )
= Σ(y∈Y | q(y)(1/q(y))g(y, z) )
= Σ(y∈Y | g(y, z) )
= r(z)

恒等射 id(X, p):(X, p)→(X, p) は次のように定義します。j = id(X, p) として:

  • j(x, x') = p(x)δ(x, x')

δ(x, x')は、x = x' のとき1, それ以外は0です。jがpからpへの射である条件を確認します。

  Σ(x∈X, x'∈X | j(x, x'))
= Σ(x∈X, x'∈X | p(x)δ(x, x'))
= Σ(x∈X | Σ(x'∈X | p(x)δ(x, x')) )
= Σ(x∈X | p(x))
= 1

  Σ(x'∈X | j(x, x'))
= Σ(x'∈X | p(x)δ(x, x'))
= p(x)

  Σ(x∈X | j(x, x'))
= Σ(x∈X | p(x)δ(x, x'))
= p(x')

圏の結合律 (f;g);h = f;(g;h) を示します。ここで、f:(X, p)→(Y, q), g:(Y, q)→(Z, r), h:(Z, r)→(W, s) です。

  ((f;g);h)(x, w)
= Σ(z∈Z | Σ(y∈Y | f(x, y)(1/q(y))g(y, z))(1/r(z))h(z, w) )
= Σ(y∈Y, z∈Z | f(x, y)(1/q(y))g(y, z)(1/r(z))h(z, w) )

  (f;(g;h))(x, w)
= Σ(y∈Y | f(x, y)(1/q(y))Σ(z∈Z | g(y, z)(1/r(z))h(z, w)) )
= Σ(y∈Y, z∈Z | f(x, y)(1/q(y))g(y, z)(1/r(z))h(z, w) )

よって、
((f;g);h)(x, w) = (f;(g;h))(x, w)

圏の左単位律 id(X, p);f = f を示します。

  (id;f)(x, y)
= Σ(x'∈X | p(x)δ(x, x')(1/p(x'))f(x', y) )
= p(x)(1/p(x))f(x, y)
= f(x', y)

右単位律も同様です。

この圏は何だ?

FinProbCoupはいったいどこから出てきたんだ? と思うかもしれませんが、ベイズ確率の計算では使っています。

有限集合上の確率分布や確率遷移写像はマルコフ行列によって表現できます。マルコフ行列の転置を作ることが、ベイズ推論で逆確率を求める計算になっています。確率分布(確率空間)とマルコフ行列の圏は、同時確率分布の圏と同型です。マルコフ行列の転置(ベイズ反転)を求めるとき、同時確率分布の圏を経由しています。同時確率分布の圏は対称性が高いので、転置(反転)が容易に行なえるのです。

トラックバック - http://d.hatena.ne.jp/m-hiyama/20170329

2017-03-28 (火)

ゴールデンウィークはどこに行こうか

| 13:44 | ゴールデンウィークはどこに行こうかを含むブックマーク

6年半ぶりの`街で見た光景:男女編’ネタ。

最近僕は、渋谷警察署近くのカフェ・ド・クリエ渋谷3丁目店でコーヒーを飲んでダラダラしていることが多いです。先日の記事「ブログコンサルとかなんとか」は、カフェ・ド・クリエで耳にした話。

一昨日・日曜日、カフェ・ド・クリエで隣の席に座った若い男女がゴールデンウィークに行く旅行の相談をしていました。最近だと旅行パンフレットとかではなくて、スマホの検索画面見ながらの相談なんですね。いくつかの候補地はあるようですが、なかなか決まらないようです。

女性:「このホテル素敵ねー」
男性:「でも高いなー」
女性:「ここはどう?」
男性:「俺、そこ行ったことあるけど、意外とたいしたことないよ」

女性の提案にどうも否定的な男性。横で聞いていて「じゃ、おまえはどこ行きたいんだよ?」とツッコミたくなる状況。そこで男性が:

男性:「俺の実家に行くってのはどうかな」

「エエーッ」と女性。隣にいた僕も「エエーッ」ですよ。かまわず男性は:

男性:「新幹線代だけはかかるけど、宿泊費はタダだぞ」
男性:「飯もタダだぞ。俺のお袋、まーまー料理うまいし」
男性:「ウチの車使えば、レンタカー借りる必要ないし、ガソリン代も親父持ち出し」

戸惑っていた彼女も:

男性:「そうしよ。俺の実家に行こう」
女性:「うっ、うん」

あー、ナルホドネーッ。

トラックバック - http://d.hatena.ne.jp/m-hiyama/20170328

2017-03-21 (火)

トラックバック - http://d.hatena.ne.jp/m-hiyama/20170321

2017-03-17 (金)

ライプニッツの微分記法とアインシュタインの総和規約を測度に使ってみる

| 11:47 | ライプニッツの微分記法とアインシュタインの総和規約を測度に使ってみるを含むブックマーク

思い付きの話で、一部イイカゲンな概念と説明が含まれます。合理化可能・正当化可能なイイカゲンさだとは思いますが、とりあえず記法だけ紹介するので、今はイイカゲンです。ライプニッツの微小な量dx, dyと、総和記号Σを省略するというアインシュタインのモノグサ規約を、測度による関数の積分に使ってみます。

測度的積分核と随伴構造」で述べた内容をもとにしています。

内容:

  1. 状況の設定
  2. 測度的積分
  3. 測度的微分形式
  4. 積分記号の省略
  5. フビニの定理
  6. 測度と関数の随伴性
  7. 変数変換の公式
  8. ラドン/ニコディム微分
  9. 記述と計算が短くなる

状況の設定

X = (ΩX, ΣX, ΛX) は測度空間とします。つまり:

  • ΩXは、台集合。
  • ΣXは、台集合ΩX上のσ集合代数。
  • ΛXは、可測空間(ΩX, ΣX)上のσ-有限測度

記号の乱用で、台集合ΩXを単にXと書くことがあります。また、下付き添字のXを省略することがあります。

ΛXはX上の標準的な測度です。標準として変な測度は避けたいので、σ-有限性の条件を付けています。R上で点の個数を勘定する測度(数え上げ測度)はσ-有限ではないので、標準測度ΛRにはなれません。単にRと書いたら、常識的な可測構造と常識的な標準測度を考えます。

可測空間(ΩX, ΣX)には、色々な条件を付けることがあります。例えば:

  • ΣXは高々可算の生成系(generating system/set)を持つ。
  • ΩX位相空間で、ΣXはΩXのボレルσ代数。
  • ΩXは有限集合で、ΣXはベキ集合の代数。
  • ΩX位相空間で、稠密な可算部分集合を持つ。
  • ΩX距離空間、または距離付け可能な空間。
  • ΩXは完備距離空間、または完備距離付け可能な空間。

ポーランド空間とのそのボレルσ代数をとると、何かと都合がいいと言われています。必要なら適当な条件は仮定することにして、このテの条件はあまり気にしないことにします。

2つの測度空間X, Yがあるとき、このあいだの準同型写像をどう決めるかも選択肢があります。

これも、用途によってどっちか(他の候補もあるかも)を選ぶ、という態度にします。準同型写像 f:X→Y が標準測度を保存すること(f*X) = ΛY)は要求しません

扱う測度空間のクラスと、そのあいだの準同型写像の概念がハッキリすれば、空間達と写像達は圏をなします。その圏をMとします。今回は、圏論的議論はしないので、表立ってMには言及せず、次のような記法を使うことにします。

  • Map(X, Y) := HomM(X, Y) = M(X, Y)
  • Func(X) := Map(X, R)
  • FMeas(X) := (X上の有限測度の全体; X上の測度μが有限測度 ⇔ μ(X) < ∞)

Func(X)とFMeas(X)には、足し算とスカラー乗法を考えます。Func(X)はベクトル空間になりますが、FMeas(X)はベクトル錘空間(「心が安らぐ「分布の空間」を定義してみる」参照)にしかなりません。この非対称性がイヤなら次にようにすればいいでしょう。

  • 符号付き測度(signed measures)を考えて、FMeas(X)もベクトル空間にする。
  • Func(X)を非負実数値関数に限定して、Func(X)もベクトル錘空間にする。

選択肢は色々ありますが、特定の選択を固定すると、写像関数測度の概念が決まります。なお、Xの標準測度ΛXはFMeas(X)に含まれなくてもいいことに注意してください。

測度的積分

測度的積分は、「測度的積分核と随伴構造」で導入した概念です。KがXからYへの測度的積分核だとは、次のことです。

  • Kは、K:X×ΣYR≧0 という写像である。
  • x∈X を固定した λB.K(x, B) : ΣY→P は、Y上の測度になる。
  • B∈ΣY を固定した λx.K(x, B) : X→R≧0 は、X上の可測関数になる。

'λ'は(非形式的)ラムダ計算のラムダです。無名のラムダ変数をハイフンで表せば、次のようにも書けます。

  • K(x, -) : ΣY→P は、Y上の測度になる。
  • K(-, B) : X→R≧0 は、X上の可測関数になる。

このハイフン(またはアンダースコア)記法は世間も僕もよく使います。

測度的積分核は、“積分”核というくらいなので、積分記号の中に入れて使うことを想定しています。例えば:

 ¥int_{x¥in X} f(x)K(x, B)dx

もっと複雑な場合をどう書くか、がこの記事の主題です。

ここでは、x∈X に対するK(x, -)を“任意の(有限)測度”にしてますが、K(x, -)を“確率測度”に制限したものをマルコフ核と呼びます。「マルコフ核」以外にも呼び名がたくさんあります。僕が見たことがあるものだけでも:

  1. stochastic map
  2. stochastic kernel
  3. stochastic relation
  4. stochastic matrix (台集合が有限のとき)
  5. probabilistic mapping
  6. probabilistic relation
  7. probabilistic matrix (台集合が有限のとき)
  8. regular conditional probability
  9. conditional probability density
  10. Markov kernel

写像の値が確率的な非決定性を持つことを表現する手段がマルコフ核(別名いっぱい)です。マルコフ核では、値が“比率の分布”ですが、測度的積分核は、値が“任意の非負量の分布”である状況を表現します。

測度的微分形式

f(x)dx のような書き方を、積分記号なしでも許したものが微分形式です。微分形式は、接ベクトル空間の線形代数を使って定式化されるのが普通です。となると、接ベクトルを考えられないような空間では微分形式も考えられないのでしょうか?

ライプニッツ時代の直感に従えば、dxは空間Xの微小な部分を表す変数です。「微小な部分」でまさに「微分」です。接ベクトルがなくても、空間Xの“微分=微小な部分”は直感的には考えることができます。微分変数dxに、関数f(x)を係数にした形式がf(x)dxです。積分操作で微小な部分/微小な量を寄せ集めれば積分値が得られます。

いま説明したような、関数係数を持つ(かも知れない)微小部分/微小量を表現する形式を測度的微分形式と呼ぶことにします。もちろん、これはマトモな定義になっていません。とりあえずは、測度的微分形式は表記法の約束だと思ってください。

μがX上の測度(必ずしも有限でなくてもよい)とするとき、測度μによる関数fの積分を次のように書きましょう。

 ¥int_{x¥in X} f(x)¥mu(dx)

積分記号の内側にあるf(x)μ(dx)は測度的微分形式とみなします。Xの微小部分dxを測度μで測った微小量がμ(dx)です。裸のdxも、Xの標準測度Λによって、dx := Λ(dx) と考えます。Λは標準なので省略してもよいという約束です。

KはXからYへの測度的積分核とします。つまり、K:X×ΣYR≧0 です。測度的積分核の定義から、K(x, -)はY上の測度になります。この測度をνxとすると、νxによるY上の積分は次のように書けます。

 ¥int_{y¥in Y} g(y)¥nu_{x}(dy)

積分記号の中に出てきたg(y)νx(dy)もY上の測度的微分形式です。νx = K(x, -) だったので、g(y)νx(dy) = g(y)K(x, -)(dy)。ここで出てきたK(x, -)(dy)をK(x, dy)と書くことにしましょう、これはY上の測度的微分形式です。この記法を使うと:

 ¥int_{y¥in Y} g(y)K(x, dy)

測度的積分核Kの第二変数を微分変数に置き換えたK(x, dy)は、Y上の測度的微分形式となり、Y上の関数の積分に使えます。

積分記号の省略

古典的なテンソル計算では、総和記号Σ(σ代数じゃないシグマ)がたくさん出てきます。「あーめんどくせーな、シグマ省略しちゃえ!」と言い出したのはアインシュタインです。例えば、ベクトル(xi)を行列(aji)で変換したベクトルが(yj)であることは、次のように書けます。

 y^j = ¥sum_{i = 1}^n a^j_i x^i

総和記号シグマを省略すると、

 y^j = a^j_i x^i

スッキリします。同じ名前(この場合はi)の添字が上下に現れたら総和を取ると約束します。慣れないと分かりにくいし、iの動く範囲の情報は落ちますが、そのあたりは習慣と想像で補えるだろう、ということです。

積分計算(測度計算)でも同じ規約を適用できないでしょうか。上下の添字は使わないので、通常の変数(例えばx)と微分変数(dx)が現れたら積分を取るとしてはどうでしょう。そうなると、f(x)dxは微分形式じゃなくて積分値になってしまいます。さすがにこれは具合が悪い

修正案として、積分される関数と積分する測度のあいだをドットで区切ることにします。f(x)dx なら、f(x)・dx = f(x)・Λ(dx) です。このドットが現れたら積分することにします。ドットは、関数と測度のスカラー積(スカラー乗法じゃないよ)の演算子記号のように考えます。

ドットを使うと、関数と測度を明白に区別できるメリットもあります。例えば、f(x)p(x)dxに対して、f(x)p(x)・dxだと、関数f(x)p(x)を標準測度dxで積分したことになり、f(x)・p(x)dxだと、関数f(x)を密度関数p(x)による測度p(x)dxで積分したことになります。g(y)・K(x, dy)は、空間Y上の関数g(y)を、測度的積分核Kが定義するY上の測度K(x, dy)で積分したことになります。

積分であることをもっと明示したいときは、[f(x)・dx]のようにブラケットで囲むことにします。ブラケットを使うと、次のメリットがあります。

  • 積分領域を明示したいときに、[X|f(x)・dx]と書ける(そう約束する)。
  • 被積分関数を省略してもいいとして、そのときは定数関数1を積分する。[μ(dx)] = [1・μ(dx)]

上記の約束を組み合わせると、[B|K(x, dy)] のような書き方ができます。この意味は:

 ¥int_{y¥in B, B ¥subseteq Y} 1 K(x, -)(dy)

先のg(y)・K(x, dy)はxをパラメータにしているので、xに関して積分すれば、(g(y)・K(x, dy))・dxですが、ブラケットを使うとより明確になります(より長くなってしまうが)。

  • [X| [Y|g(y)・K(x, dy)]・dx]

通常の記法だと:

 ¥int_{x¥in X}¥biggl(¥int_{y¥in Y} g(y) K(x, -)(dy)¥biggr)dx

フビニの定理

dx以外に、d(x, y), (dx, dy)という記号も使います。これを説明するために、フビニの定理を素材にします。フビニの定理のステートメントは次のように書けます。

 ¥int_{y¥in Y}¥biggl(¥int_{x¥in X} f(x, y)dx¥biggr)dy ¥, = ¥int_{(x, y)¥in X¥times Y} f(x, y)d(x, y)

これを、今までに説明した短縮記法で書いてみます。表記は短くなりますが、概念的にはむしろ精密化されます。

  • [f(x, y)・dx]・dy = f(x, y)・d(x, y) = f(x, y)・(dx, dy)

記号 dx, dy, d(x, y), (dx, dy) が出てきてます。これらの定義は全て違います。

  • dxは、ΛX(dx)の略記で、X上の標準測度を表す。
  • dyは、ΛY(dy)の略記で、Y上の標準測度を表す。
  • d(x, y)は、ΛX×Y(d(x, y))の略記で、X×Y上の標準測度を表す。タプル(x, y)を、X×Y上を走るひとつの変数とみなす。
  • (dx, dy)は、ΛX(dx)¥otimesΛY(dy)の略記で、テンソル積測度を表す。

フビニの定理の場合は、d(x, y) = (dx, dy) です。X×Y上の測度ΛX×Yが、もともとテンソル積測度ΛX¥otimesΛYとして定義されているからです。

測度と関数の随伴性

測度的積分核と随伴構造」で述べた随伴性を短縮記法で書くと次のようです。

  • g(y)・Kμ(dy) = gK(x)・μ(dx)

ここで、Kμ(dy) = (Kμ)(dy) = (K.μ)(dy), gK(x) = (gK)(x) = (g.K)(x) で、K.μとg.Kの定義は「測度的積分核と随伴構造」に書いてあります。その定義を短縮記法で書けば:

  • (K.μ)(B) := K(x, B)・μ(dx)
  • (g.K)(x) := g(y)・K(x, dy)

随伴性をイイカゲンだが直感には訴える計算で確認(?)すると:

  g(y)・Kμ(dy)
= g(y)・[K(x, dy)・μ(dx)]
= [g(y)・K(x, dy)]・μ(dx)
= gK(x)・μ(dx)

途中で使っている式変形の法則は、がんばれば合理化できるでしょう。

この随伴性は、測度的積分核Kが定義する2つの写像が随伴関係にあることを主張しています。Kが定義する2つの写像は:

  • K := K.(-) : FMeas(X)→FMeas(Y)
  • K := (-).K : Func(Y)→Func(X)

積分は、一種のスカラー積とみなせます。

  • [X|(-)・(-)] : Func(X)×FMeas(X)→R≧0
  • [Y|(-)・(-)] : Func(Y)×FMeas(Y)→R≧0

積分に関するKとKの随伴性は:

  • [Y|g(y)・K(μ)(dy)] = [X|K(g)(y)・μ(dy)]

もっと簡略に書けば:

  • [g・K(μ)] = [K(g)・μ]

KとKはスカラー積[(-)・(-)]に関して随伴ですね。

変数変換の公式

変数変換(change of variables)または置換積分(integration by substitution)の公式を簡略記法で書いてみます。ψ:X→Y をMap(X, Y)に属する写像(可測写像とか連続写像とか)とします。μ∈FMeas(Y), g∈Func(Y) として、

  • g(ψ(x))・μ(dx) = g(y)・(ψ*μ)(dy) (変数変換の公式)

ここで、ψ*μ = ψ*(μ) は前送り測度で、次のように定義されます。

  • *(μ))(B) := μ(ψ-1(B))

上記の変数変換の公式を、簡単な一変数の場合と比較してみます。

 ¥int_{x = a}^{b} g(¥psi(x))¥psi’(x)dx = ¥int_{y = ¥psi(a)}^{¥psi(b)} g(y)dy

ここで、区間[a, b]をX, 区間[ψ(a), ψ(b)](ψ(a) < ψ(b) だとして)をYとします。また、μ(dx) = ψ'(x)ΛX(dx) = ψ'(x)dx とすると、dy = ΛY(dy) = ψ*(μ)(dy) となるので、

 ¥int_{x¥in X} g(¥psi(x)) ¥mu(dx) = ¥int_{y¥in Y} g(y) ¥psi_{*}(¥mu)(dy)

被積分関数と測度をドットで区切ると、

 ¥int_{x¥in X} g(¥psi(x)) ¥cdot ¥mu(dx) = ¥int_{y¥in Y} g(y) ¥cdot ¥psi_{*}(¥mu)(dy)

積分記号を省略すると先の「変数変換の公式」です。

さて、Y上の関数の写像ψによる引き戻し ψ*:Func(Y)→Func(X) を次のように定義しましょう。

  • *(f))(x) := f(ψ(x))

変数変換公式のg(ψ(x))を(ψ*g)(x)に書き換えると:

  • *g)(x)・μ(dx) = g(y)・(ψ*μ)(dy)

積分を明示するブラケットを書き足せば:

  • [X|(ψ*g)(x)・μ(dx)] = [Y|g(y)・(ψ*μ)(dy)]

簡略にすると:

  • *(g)・μ] = [g・ψ*(μ)]

つまり、変数変換公式は、ψ*とψ*が随伴であることを示しています。

一般に、写像 ψ:X→Y があると、ψ~:X→FMeas(Y) を作れます。FMeas(Y)⊆SetMap(ΣY, R≧0) であることから、ψ~:X→SetMap(ΣY, R≧0) とみなしたψ~をアンカリー化して ψ:X×ΣYR≧0 が得られます。ψを具体的に書くと:

 ¥psi^{¥flat}(x, B)¥, := ¥int_{y¥in Y} ¥chi_{B}(y)¥cdot ¥delta_{¥psi(x)}(dy)

ここで、χBは集合Bの指示関数(indicating/characteristic function)で、δψ(x)は、一点ψ(x)を台とするディラック測度です。

このψは測度的積分核となり、ψに関する変数変換公式は、測度的積分核ψの随伴性と同じことです。

ラドン/ニコディム微分

X上の測度μが、標準測度ΛXに関して完全連続(μ ≪ ΛX)ならば、μのラドン/ニコディム導関数が存在します。ラドン/ニコディム微分操作をDとすると、DはFMeas(X)上で全域的には定義されませんが、部分写像としてなら D:FMeas(X)→Func(X) とみなせます。一方、p∈Func(X) に対して、pを密度関数とする測度p(x)Λ(dx)が定義できるので、p|→p(x)Λ(dx) という対応を J:Func(X)→FMeas(X) とします。DとJはおおよそ逆の操作です。

今述べた状況を短縮記法で表しましょう。通常、測度μの測度νに関するラドン/ニコディム導関数はdμ/dνと書きますが、μ/ν(dx) という割り算だけの形式にします。分母が標準測度のときは、μ/Λ(dx) = μ/dx と略記します。

上記の記法だと、μ(dx) = (μ/ν(dx))ν(dx), μ(dx) = (μ/dx)dx, f(x) = (f(x)dx)/dx のような測度的微分形式の等式が成立します。これらは、ラドン/ニコディム微分操作Dと密度関数による測度Jが互いに逆であることを、(ほぼ)分数計算の形で示しています。

記述と計算が短くなる

ライプニッツ微分記法とアインシュタインの総和規約は、記号の工夫が成功した事例です。どちらも簡潔で、分数計算(約分)に近い計算ができます。この記法を測度と積分にも導入すれば、記述と計算が短くなることが期待できます。

記法が先行していて、実体的な定義が出来てない部分もありますが、けっこう便利に使えそう。実際に使ってみるつもりです。

トラックバック - http://d.hatena.ne.jp/m-hiyama/20170317

2017-03-13 (月)

心が安らぐ「分布の空間」を定義してみる

| 10:29 | 心が安らぐ「分布の空間」を定義してみるを含むブックマーク

確率・統計の「分布」の意味と使用法」で間違いがありました。最初、「“離散分布”と“連続分布”の集合としての直和から作った自由凸空間が、測度の空間に埋め込める」と書いていたのですが、「埋め込める」はウソです。単に間違いを訂正するだけでなく、事情をもう少し詳しく書くことにします。

内容:

  1. なぜ言葉の用法にこだわるのか
  2. 土台になる空間
  3. 有限測度の空間
  4. 密度関数の空間
  5. 離散分布の空間
  6. ベクトル錘空間の直和
  7. X上の分布の空間
  8. 分布の空間の性質

なぜ言葉の用法にこだわるのか

僕にとって意味不明だったり、曖昧と感じる確率・統計の記述が存在します。それらを批判する気はありません。むしろ逆で、そのテの記述を読めるようになりたいのです。興味深い事例や面白い考え方が書いてありそうでも、暗黙の習慣や言葉の多義的使用法に阻まれて理解できないのです。

理解できるようになるには、次の2つをすればよいと思っています。

  1. 暗黙の習慣や言葉の多義的使用法を分析し、自分にとって分かりやすい表現に翻訳できるようにする。
  2. 多義的な言葉に対して適用可能なメンタルモデルを構成する。

2番目は心情的・心理的なものなので、厳密性は要求しないで、比喩・示唆のレベルでかまいません。例えば、「分布」を、質点や連続的物体の質量分布として物理的に比喩する事などです。

今回の話は、「分かりやすい表現に翻訳」と「メンタルモデル」の中間的なもので、いちおう形式的な定義はしますが、心情的・心理的な納得感が主たる目的です。

この記事内では、「分布」は「確率分布」より広い意味で使います。全空間の測度が1じゃなくても「分布」と呼ぶことにします。分布のなかで、特に全空間の測度が1なものを「確率分布」と呼ぶことにします。

土台になる空間

まず、分布が載る土台となる空間を決めます。X = (ΩX, ΣX, ΛX) は次の意味だとします。

  • ΩXは、集合。
  • ΣXは、ΩX上のσ集合代数。
  • ΛXは、可測空間(ΩX, ΣX)上のσ-有限測度

σ-有限という条件は、ΛXX) = ∞ も許すけど、ΛX(Si) < ∞ であるようなSi達(i∈I で、Iは高々可算)があって、ΩXがSi達の合併になっていることです。

よく使う実例は、ΩXが有限集合のときと、ΩX = Rn のときです。

例1:

  • ΩXは有限集合
  • ΣX = (ΩXのべき集合の集合代数)
  • ΛX = (部分集合の個数を勘定する測度)

例2:

  • ΩX = Rn
  • ΣX = (Rnの標準的位相から決まるボレルσ集合代数)
  • ΛX = (Rnの標準的測度)

Rnでは、Λ(Rn) = ∞ ですが、例えば、一辺が長さ1の方体(cube)でRnを覆えます。よってσ-有限です。

一般論を展開するには、他の条件も必要になりますが、とりあえず、上記の二種の実例を想定して話を進めます。

有限測度の空間

X = (ΩX, ΣX, ΛX) は前節で述べたような測度空間とします。(ΩX, ΣX) は可測空間なので、この可測空間上の有限測度(finite measure)の全体をFinMeasure(X)と書くことにします。μが有限測度とは、μ(ΩX) < ∞ を満たすことです。有界測度と呼んだほうがいいような気がするのですが、「有限測度」が定着してるみたい。

Xに最初から在るΛXは有限測度とは限りません(RnのΛは非有限)。Λは特別なので大文字ギリシャ文字を使いました。Λを背景測度(background measure)と呼ぶこともあるようです。一部では、大文字ラムダを使うのが慣例になっています(一部ですけど)。

FinMeasure(X)はベクトル空間ではありませんが、ベクトル空間にかなり近い構造を持ちます。

  • μ, μ'∈FinMeasure(X) のとき、μ + μ' が定義できる。
  • 全ての可測集合に0を対応させるゼロ測度がある。
  • 足し算とゼロで、可換モノイド構造を持つ。
  • 非負の実数によるスカラー乗法ができる。

法則(公理)を全部列挙はしませんが、引き算やマイナス倍以外はベクトル空間とほぼ同様です。このような構造を持った空間をベクトル錐空間vector cone space)あるいは単にベクトル錐vector cone)と呼ぶことにします。

X上の符号付き測度(signed measures)で有限なもの全体をFinSignedMeasure(X)とすると、これはベクトル空間になります。FinMeasure(X)はベクトル空間FinSignedMeasure(X)に埋め込めるので、FinMeasure(X)はベクトル空間の部分集合で足し算と非負スカラー倍で閉じたものとみなせます。

PMeasure(X) = {μ∈FinMeasure(X) | μ(ΩX) = 1} と定義します。PMeasure(X)の要素である測度を、X上の確率測度(probability measure)と呼びます。PMeasure(X)はベクトル錘空間にはなりませんが、凸結合(重心結合)で閉じているので凸空間(convex space)になっています。

Measure(X)やPMeasure(X)に、錘空間や凸空間の構造以外に、位相構造や可測構造を入れる話もありますが、今は不要なので触れません。

密度関数の空間

X上の実数値可測関数のなかで密度関数と呼べるものを特定して、その全体をDensity(X)とします。Density(X)は固定した関数空間ではなくて、用途に応じて決めればいいですが、以下の条件は満たすとします。

  • 密度関数(Density(X)の要素)は、非負値の可測関数である。
  • 密度関数をX上で標準測度ΛXにより積分すると有限の値となる。
  • Density(X)は(足し算と非負スカラー倍で)ベクトル錘空間の構造を持つ。

f∈Density(X) のとき、密度関数fに対応する測度μを次のように定義できます。SはXの可測集合として:

 ¥mu(S) ¥, := ¥int_{x¥in S} f(x)¥Lambda_X(dx)

ΛX(dx) は、X上の標準測度による積分を意味します。μはfから決まるので、μ = J(f) として、J:Density(X)→FinMeasure(X) という写像が決まります。次が成立します。

  • J(f + g) = J(f) + J(g)
  • J(0) = 0 (左辺の0はゼロ関数、右辺の0はゼロ測度)
  • sを非負実数として、J(sf) = sJ(f)

Jはベクトル錘空間のあいだの準同型写像になっています。密度関数fを使って μ = J(f) と書ける測度μは標準測度ΛXに関して絶対連続(μ ≪ ΛX)なので、Jの像はX上の絶対連続測度の集合に含まれます。

(J(f))(ΩX) = 1 のとき、fは確率密度関数(probability density function)だといいます。確率密度関数の全体PDensity(X)は、J-1(PMeasure(X))という逆像で定義できます。fが確率密度関数である条件を積分で書けば:

 ¥int_{x¥in ¥Omega_X} f(x)¥Lambda_X(dx) ¥, = ¥, 1

離散分布の空間

離散分布は、物理的比喩で言うなら、質量を持つ質点達(有限個)からなる系だとします。代数的には、集合ΩXから生成された自由ベクトル錘空間とします。この定義だと可算集合に台を持つ測度を定義できませんが、それが必要なときは別途工夫をすることにして、今は有限質点系のモデルでよしとします。

一般に、集合S上の自由ベクトル錘空間は次のように定義します。

  • Sのn個(n > 0)の要素 a1, ..., an と、n個の正実数 ξ1, ..., ξn から作った形式的1次結合 ξ1a1 + ... + ξnan をすべて考える。
  • これに、0(ゼロ)を加えた集合をCとする。
  • C内で、形式的足し算、形式的スカラー乗法を考えると、ベクトル錘構造が定まる。
  • ベクトル錘構造を備えた集合CをFreeCone(S)とする。

FreeCone(S)は、S→R≧0 という関数で、有限個(0個でもよい)の点を除いて0である関数の全体(に足し算とスカラー乗法)としても同じです。

Sを単なる集合、Wを任意のベクトル錘空間として、S→W という写像があると、FreeCone(S)→W という自由ベクトル錘空間の準同型写像に一意に拡張できます。それが「自由に生成したこと」の意味です。圏論の随伴(adjunction)として書けば:

  • Cone(FreeCone(S), W) ¥stackrel{¥sim}{=} Set(S, Forget(W))

ここで、Coneはベクトル錘空間の圏、Forgetはベクトル錘空間の構造を忘れて台集合を対応させる忘却関手です。

Xを先に定義した“土台の空間”として、J':FreeCone(ΩX)→FinMeasure(X) を次のように定義します。

  • a∈ΩX に対して、点aに台を持つディラック測度(一点測度)をδaとして、J'(a) := δa とする。
  • a|→δa をFreeCone(ΩX)にまで(一意に)拡張した写像をJ'とする。

この定義から:

  • J'(Σ(i = 1..n | ξiai)) = Σ(i = 1..n | ξiδai)

J':FreeCone(ΩX)→FinMeasure(X) はベクトル錘空間のあいだの準同型写像になっています。ディラック測度やその1次結合は(ΛXに関して)特異測度なので、J'の像はX上の特異測度の集合に含まれます。FreeCone(ΩX)とまったく同じ意味でDiscrete(X)も使うことにします。

(J'(α))(ΩX) = 1 のとき、αは確率離散分布(または離散確率密度)だといいます。確率離散分布の全体PDiscrete(X)は、J'-1(PMeasure(X))という逆像で定義できます。あるいは、Σ(i = 1..n | ξiai) に次の条件を課すと確率離散密度です。

  • Σ(i = 1..n | ξi) = 1

ベクトル錘空間の直和

ベクトル錘空間は、ベクトル空間とよく似ているので、ベクトル空間の場合と同様に直和を定義できます。同様なので簡略に記します。

VとWをベクトル錘空間として、その台集合の直積をつくります。台集合も同じ記号で表してしまえば(記号の乱用)V×Wですね。このV×Wに足し算とスカラー乗法を入れます。ゼロも特定します。ここらへん、ベクトル空間の場合と同じです。

V×Wの要素であるペア(v, w)を、v¥oplusw とか v + w とか書いて、ペアにすることを足し算のように扱います。直積としての射影 π1V,W:V×W→V, π2V,W:V×W→W と、v|→(v, 0), w|→(0, w) で定義される入射 ι1V,W:V→V×W, ι2V,W:W→V×W が定義できます。

上記のような構造を持ったV×WをV¥oplusWと書いて、VとWの直和(direct sum)と呼びます。圏論的には双積(biproduct)と呼ぶべきですが、ベクトル空間のときと同じ呼び名を使うことにします。

X上の分布の空間

さて、いよいよ分布の空間を定義します。冒頭に書いたように、これはメンタルモデルの側面が強いので、僕にとって「こういうものを『分布』と呼ぶなら心が安らぐ」という基準で定義します。

X = (ΩX, ΣX, ΛX) を土台になる空間とします。集合ΩXの要素は、根本(原子)事象とか標本とか値とかデータとか呼ばれるモノです。ΩXは単なる集合ではなくて位相空間のときが多いですが、今それには言及しません。

X上の密度関数の空間Density(X)と、離散分布の空間Discrete(X)はどちらもベクトル錘空間なので、それらの直和Density(X)¥oplusDiscrete(X)を作れます。これを、X上の分布の空間とします。[追記]ΩXが有限集合のときは、Density(X)かDiscrete(X)のどちらか一方をゼロ空間(ゼロしかない空間)だと考えます。[/追記]

  • Dist(X) := Density(X)¥oplusDiscrete(X)

J:Density(X)→FinMeasure(X), J':Discrete(X)→FinMeasur(X) というベクトル錘空間の準同型写像がありました。これらは、直和Density(X)¥oplusDiscrete(X)上に一意に拡張できます。それをJ''とするなら:

  • J''(f¥oplusγ) := J(f) + J'(γ)

J'':Density(X)¥oplusDiscrete(X)→FinMeasure(X) を改めてJと置き直すと、Dist(X) = Density(X)¥oplusDiscrete(X) は、FinMeasur(X)への埋め込み J:Dist(X)→FinMeasure(X) を持つベクトル錘空間となります。

確率測度の空間PMeasure(X)のJによる逆像J-1(PMeasure(X))が確率分布(probability distribution)の空間で、PDist(X)と書くことにします。

  • PDist(X) := J-1(PMeasure(X))

当然ながら、PDensity(X) ⊆ PDist(X), PDiscrete(X) ⊆ PDist(X) です。

分布の空間の性質

分布の空間Dist(X)は、定義のうえからはFinMeasure(X)とは別物です。これにより、「分布」と「測度」が完全に同義とは思いたくない、という欲求が満たされます。一方で、埋め込み J:Dist(X)→FinMeasure(X) があるので、Dist(X) ¥stackrel{¥sim}{=} J(Dist(X)) ⊆ FinMeasure(X) 。Dist(X)とJ(Dist(X))を同一視するなら、Dist(X) ⊆ FinMeasure(X) と考えてもいいので、「分布」って結局は「測度」のことだよ、とも言えます。

Dist(X) ⊆ FinMeasure(X) とみなせますが、Dist(X) = FinMeasure(X) である必要はありません。FinMeasure(X) には扱いにくい測度が入っているかも知れませんが、そんな変なヤツを「分布」と呼ぶ必要はありません。自分にとって扱いやすい密度関数や有限質点系を設定して、それで定義される測度だけが、分布に対応する測度なのです。

Dist(X)には、直和分解の構造 Density(X)¥oplusDiscrete(X) が備わっているので、分布が連続分布か離散分布かの区別があります。連続分布なら密度関数、離散分布なら質点系という、扱いやすい対象物です。抽象的な測度に比べて、関数や質点系は実体として把握しやすいでしょう。

土台の空間がRn(n > 1)のときは、曲線や曲面上に質量が集中した物体のような分布を考えることもあるでしょう。そのような分布の定義は、土台を単なる可測集合と考えていては無理そうです。どうすりゃいんだろう? うーん、心の安らぎもほんの束の間かも知れません。

2017-03-08 (水)

確率・統計の「分布」の意味と使用法

| 09:03 | 確率・統計の「分布」の意味と使用法を含むブックマーク

「確率変数」という言葉の意味と使用法が分からん! という話を長年(苦笑)していて、最近の記事「「確率変数」の正体は米田埋め込み」「「確率変数」の変種:測度に縛られない確率変数」で一応は納得したかな、という報告をしました。

「確率変数」の次にワケわからない言葉が「分布」です。「分布」についても、2015年の記事「「分布、測度、密度」は同じか違うか」で書いてるんですが、もう少し詳しい分析をしておきます。もし理屈っぽい話が面倒になったら飛ばして、最後の節を読んでください。

内容:

  1. 「確率分布」のオフィシャルな定義とニュアンス
  2. 連続分布と離散分布
  3. ユークリッド空間上の測度
  4. 測度と“密度/質量分布”の関係
  5. 「分布 = 連続分布 + 離散分布」の意味
  6. 何故にこうも暗黙の前提やニュアンスが多いのだろうか

「確率分布」のオフィシャルな定義とニュアンス

「確率分布」のオフィシャルな定義は「確率分布=可測空間上の確率測度」でいいと思います。しかし、ではなぜ「確率測度」と言わずに「確率分布」を使うのか? という疑問が生じます。なにかしら暗黙のニュアンスがあるのでしょう。

「確率分布」の使用法をみると、確率変数(確率空間からの可測写像)による前送り測度(像測度、誘導測度)という意味合いがあるようです(僕の印象では)。ある空間V(例えば V = R)上に「確率分布ρがある」と言うとき、V上に最初からρがあるのではなくて、A = (ΩA, ΣA, μA) からの確率変数 X:ΩA→V により ρ = X*A) と書ける、と暗黙に想定しているのでしょう。

とはいえ、仮に「もとの確率空間では確率測度」「値の空間では確率分布」としても、用語「確率変数」の使用法の慣例として、背後の確率空間Aには言及しないので、結局はV上の確率分布ρだけが単独で出現することになり、こういう「確率測度」「確率分布」の使い分けはほぼ無意味(使い分ける側の自己満足)となります。

もうひとつのニュアンスとして、「分布」は測度そのものより、密度関数/累積分布関数/質量関数を表している感じがします。もちろん、密度関数/累積分布関数/質量関数は測度を定義するので、「確率分布」を「確率密度関数により定義される確率測度」「確率累積分布関数より定義される確率測度」「確率質量関数から定義される確率測度」と再解釈すれば、「確率分布=確率測度」は維持されます。しかしそれでも、「確率分布=確率測度」としたくない理由があるからこそ「確率分布」を使っているようにも思えます。その点を次節以降で述べます。

連続分布と離散分布

統計の文脈では、「連続分布」と「離散分布」という言葉が出てきます。この2つ以外の分類を聞いたことがないので、

  • 分布 = 連続分布 + 離散分布

と、(暗黙に)仮定しているのでしょう('+'の意味は後で明確にします)。もし、確率分布と確率測度が完全に同義だとすると、

  • 確率測度 = 連続確率測度 + 離散確率測度

となりますが、上記の分類は測度論の観点からはどうもあやしい。確率分布と確率測度を同じにしないほうが安全だ、といった配慮があるのかも知れません。

分布というのは、任意の測度を表すのではなくて、都合の良い密度関数/累積分布関数/質量関数から定義される測度に限定しているように思えます。このため、「分布」という言葉は第一義的に測度を意味するのではなくて、密度関数/累積分布関数/質量関数を指すのでしょう。

上記の各文の末尾が「かも知れません」「思えます」「でしょう」なのは、明白な記述を見たことがないので、想像でしかモノを言えないからです。

ユークリッド空間上の測度

実際的応用では、確率変数(確率空間からの可測写像)が値を取る領域は一般的な集合ではなくて、Rnであることがほとんどでしょう。Rn位相空間なので、ボレルσ集合代数Borel(Rn)が付随しています。また、ユークリッド構造から標準的な測度も決まっています。Rnの標準的な測度をνnと書くことにします。以下では、位相空間としてのRn、可測空間としての Rn = (Rn, Borel(Rn))、測度空間(確率空間ではない)としての Rn = (Rn, Borel(Rn), νn) を、いずれも単にRnと書くことがあります。

A = (ΩA, ΣA, μA) が確率空間で、X:A→Rn が確率変数として、Rn上の確率測度 μ = X*A) を考えるさいに、背後の確率空間Aには言及しない/考えないのが習慣なので、確率測度は最初からRn上にあったような扱いになります。この習慣に従うと、“Rn上の確率測度”が考える対象のすべてになります。

Rn上のすべての確率測度の集合をPM(Rn)とします。前段落で述べた事情により、PM(R), PM(R2), PM(R3), ... などが考える対象のすべてです。誤解されないように注意しておくと: あくまで「背後の確率空間を考えない」という習慣に従えば、の話です。それがいいと主張する気はまったくありません。むしろ、「背後の確率空間を考えない」のは好ましくない、と僕は思っています。

確率測度より広い範囲の測度達の集合も定義しておきましょう。

  • Rn上の測度の全体を、M(Rn)とする。
  • Rn上のσ-有限な測度の全体を、σFM(Rn)とする。
  • Rn上の有限な測度(μ(Rn) <∞ となる測度μ)の全体を、FM(Rn)とする。

PM(Rn) ⊂ FM(Rn) ⊂ σFM(Rn) ⊂ M(Rn) という包含の系列があります。標準測度νnはFM(Rn)には入りませんが、σFM(Rn)に入っています。

測度と“密度/質量分布”の関係

測度と密度の関係については、ルベーグの分解定理ラドン/ニコディムの定理が教えてくれます。これらの定理は、σFM(Rn)(Rn上のσ-有限な測度の全体)に対して適用できます。

ルベーグの分解定理により、μ∈σFM(Rn) を勝手に取ったとき、Rnの標準測度νnに関して、絶対連続部分と特異部分に分解できます。もう少し詳しく言うと:μ = μAC + μsing の形に書けて、次が成立します。

  1. μAC ≪ νn
  2. μsing ⊥ νn
  3. μAC ⊥ μsing
  4. この形の分解は一意的

'≪'は絶対連続性、'⊥'は互いに特異であることを示します。

ラドン/ニコディムの定理により、μACは、ラドン/ニコディム導関数 f = dμ/dνn を密度関数に持ちます。一方のμsingは、密度関数を持ちませんが、だからといって、離散質量分布スタイルの測度になるとも限りません。カントール分布のような奇妙な例もありますから。

さて、μが確率測度ならσ-有限な測度なので、上記の議論が適用できて、密度関数を持つμACと変な部分μsingに分解できます。しかし、カントール分布のようなホントに変なヤツは考えたくありません。また、密度関数もタチのよい関数に限定したいところです。

そこで、タチの良い確率密度関数の集合(用途に応じて決める)PDensity(Rn)と、有限個または可算無限個の質点をばらまいた形の離散質量分布(総質量 = 1)の集合PDiscrete(Rn)を決めます。そして、Integ:PDensity(Rn)→PM(Rn), Sum:PDiscrete(Rn)→PM(Rn) を次のように定義します。(SはRnのボレル可測集合。)

  • (Integ(f))(S) = 被積分関数fの、標準測度νnによるS上の積分
  • (Sum(φ))(S) = S内にある質点達の総質量

[追記]以下の「分布の自由凸空間が測度の空間に埋め込まれる」は間違いでした。とりあえず「埋め込まれる」を訂正します。後で補足説明を書きます。[/追記][さらに追記]心が安らぐ「分布の空間」を定義してみる」に、詳しいことを書きました。[/さらに追記]

s + t = 1 である非負実数 s, t∈R≧0 により、凸結合(重心結合) s(Integ(f)) + t(Sum(φ)) を作ると、これは確率測度になります。この方法で、PDensity(Rn) + PDiscrete(Rn) ('+'は集合の直和)から作った自由凸空間(任意個数の形式的凸結合の全体)は、PM(Rn)内に埋め込ま写像れます。こうして、PM(Rn)の都合のよいサブセットが定義できます。このサブセット内でルベーグ分解をすると、絶対連続部分のラドン/ニコディム導関数として確率密度関数が、特異部分として離散質量分布が再現されます。

「分布 = 連続分布 + 離散分布」の意味

μとμ'が確率測度のとき、s + t = 1 である非負実数による凸結合 sμ + tμ' も確率測度になります。その意味で、PM(Rn) は凸空間(convex space)になっています。Wを任意の集合として、写像 h:W→PM(Rn) があると、hは、Wから作った自由凸空間FreeConvex(W)からの写像 h#:FreeConvex(W)→PM(Rn) に一意に拡張できます。この性質を使って、FreeConvex(PDensity(Rn) + PDiscrete(Rn))→PM(Rn) を作りました。

「確率分布」という言葉が「確率測度」と完全に同義ではないだろう、と言ったのは、「確率分布の集合」がPM(Rn)を直接は意味してないようだからです。「確率分布の集合」は、PDensity(Rn) + PDiscrete(Rn)('+'は集合の直積)、または自由凸空間FreeConvex(PDensity(Rn) + PDiscrete(Rn))を指しているのでしょう。そう考えれば、「分布 = 連続分布 + 離散分布」のイコールやプラスを合理的に説明できます。

積分と質量総和を使った埋め込み写像で、FreeConvex(PDensity(Rn) + PDiscrete(Rn)) の計算は PM(Rn) 内の計算とみなせるので、この「みなし」を通じて間接的に「確率分布=確率測度」となるのでしょう。(「でしょう」ばかりなのは、想像でしかモノを言えないから。)

何故にこうも暗黙の前提やニュアンスが多いのだろうか

確率論はともかくとして、統計は実学的傾向が強い分野です。出来るだけ早く実務上の計算能力を習得するには、測度や確率空間に触れたくはないでしょう。そうだとすると、確率変数や分布の説明はどうなるでしょうか。

  1. 確率変数の実体が何であるかには言及せず(可測空間と確率空間が必要になるので)、直感に頼った描像で曖昧なままとする。
  2. 背後にある確率空間には言及せず(確率空間が必要になるので)、値の空間であるRn(主にR)上の分布を考える。
  3. 分布を測度とは言わずに(測度空間が必要になるので)、密度関数/累積分布関数/質量関数を意味することにする。
  4. タチの良い関数の範囲で考えれば、密度関数と累積分布関数は普通の積分微分で互いに移りあうので、どちらも連続分布の表現と考える。
  5. 質量関数は、離散分布の表現と考える。
  6. 事象の確率は、確率密度関数積分または確率質量関数の総和として定義する。背後にある確率空間には言及しないので、単にRn上の微積分の話になる。
  7. 以上の枠組では、実一変数または実多変数の実数値関数と質量関数(離散分布の表現)しか出現しない。測度も確率空間も不要である。

と、こんな感じでしょう。致し方ない面もあるとは思いますが、これでは実変数実数値関数をいじっているだけです。意味(セマンティクス)は幾つかの実例と曖昧な直感でしか与えられません(それはセマンティクスとは言わないよね)。語るに語れず、実変数実数値関数では表現しきれない意味の残滓が、用語法のニュアンスや暗黙の前提としてまとわりつくのでしょう。

「じゃあ、どうしたらいいの?」に明確な答を持ち合わせていませんが、「出来るだけ早く」のコース以外に、「幾つかの実例と曖昧な直感」に頼らず、「暗黙の前提」も使わないで、概念を明示的に定義していくコースもあったほうがいいなー、とは思います。コースは無理だけど、断片的ヒントくらいはこのブログに書く(幾つかは既に書いた)つもりです。

ryoryo 2017/03/11 10:05 コルモゴロフ以前は、実数値関数で定義された確率分布を使って展開されていた確率論が、コルモゴロフ以降は確率測度を使った現代的な確率論になったということではないでしょうか?私には、古典的な確率分布の概念が、曖昧で問題があるとも思えません。ですから、これは古典的定義vs現代的定義の問題であって、曖昧な定義vs正確な定義の問題ではないと思うのですが、どうでしょう?

hasamichasamic 2017/03/12 02:01 ただ単に「確率分布ρがある」というのが困惑を生むというのは同意しますが、通常の確率論で用いられる像測度の意味での「分布」には特に問題があるとは思えません。確かに1つの確率変数を扱うのならば「分布」と「確率測度」の区別は不要だと思いますが、複数の確率変数を扱い、それらの和を考えるとき等には同じ確率空間上で定義されていることを一言で示せる「分布」という言葉は有用だと思います。

>ryoさん
横から失礼しますが、私はコルモゴロフ以前の確率論は曖昧だったのではないかと予想しています(調べればわかることだとは思いますが)。例えば無限回コイン投げというのは非常に古典的な問題だと思いますが、無限個の独立同分布の確率変数列(もしくはもっと一般に無限個の確率変数列)というのを確率空間なしで曖昧さなく定義するのは難しいのではないでしょうか。

m-hiyamam-hiyama 2017/03/12 11:26 ryoさん、
「古典的定義vs現代的定義」vs「曖昧な定義vs正確な定義」という対比の意味がよくわかりません。分類基準が直交していて、「古典的かつ曖昧」「古典的かつ正確」「現代的かつ曖昧」「現代的かつ正確」があるってことですか?


hasamicさん、
> ...「分布」と「確率測度」の区別は不要だと思いますが、... 「分布」という言葉は有用だと思います。
ですよね。「分布」という言葉は有用だし、非常に頻繁に使われています。ですから、その意味と使用法をニュアンスも含めて云々しているわけです。本文内で、「確率測度」と「分布」は同義だとは言ってないし、「分布」は使うなとも言ってません。

hasamichasamic 2017/03/12 12:50 前回のコメントにきちんと書いておらず申し訳ないのですが、私が指摘したいのはセクション「『確率分布』のオフィシャルな定義とニュアンス」内の第2,3段落の内容、特に「結局はV上の確率分布ρだけが単独で出現することになり、こういう『確率測度』『確率分布』の使い分けはほぼ無意味(使い分ける側の自己満足)となります」という部分です。この部分は「確率測度」と「分布」の区別は無意味だと述べているように見えます。
「こういう」という文言で「確率分布ρがある」とだけ述べられた状況を指しているのならば、その状況下での使い分けがほぼ無意味であるのは同意しますが、このような形で「分布」という言葉を使うことはレアではないでしょうか。大抵の場合は「このときXの分布はμとなる」とか「分布μに従う確率変数Xをとる」というような用法だと思いますし、これらの場合には前述したような有用性があると思います。つまり、使い分けがほぼ無意味となるような状況は確かにありますが、典型的には有用に用いられていると思います。そのため、像測度としての「分布」の用法として限定的なものだけを取り上げるのはmisleadingではないかと思うのですが。

m-hiyamam-hiyama 2017/03/12 13:43 hasamicさん、
文言を引用しての具体的なご指摘、感謝します。分かりやすいです。
引用された文言
本文> 結局はV上の確率分布ρだけが単独で出現することになり、こういう「確率測度」「確率分布」の使い分けはほぼ無意味(使い分ける側の自己満足)となります
は、一文のなかのパートであって、文全体は以下です。(A), (B), (C), [R] は後の引用のために挿入しました。
本文> とはいえ、
本文> (A)仮に「もとの確率空間では確率測度」「値の空間では確率分布」としても、
本文> (B)用語「確率変数」の使用法の慣例として、背後の確率空間Aには言及しないので、
本文> (C)結局はV上の確率分布ρだけが単独で出現することになり、[R]こういう「確率測度」「確率分布」の使い分けはほぼ無意味(使い分ける側の自己満足)となります。

パート(C)内の[R]の「こういう」は、パート(A)で述べたような使い分けです。「ほぼ無意味」が文末の結論ですが、この文はconditional statementで、conditionはパート(B)です。パート(B)の「使用法の慣例」が使われる状況下では、パート(C)だ、という主張です。

パート(B)の「使用法の慣例」は、統計の確率論なしの説明などでよく見られるもので、最後の節「何故にこうも暗黙の前提やニュアンスが多いのだろうか」の次の項目のことです。
本文> 2. 背後にある確率空間には言及せず(確率空間が必要になるので)、値の空間であるR^n(主にR)上の分布を考える。
この「使用法の慣例」に対する僕の意見は「ユークリッド空間上の測度」の節で触れています。
本文> 誤解されないように注意しておくと:
本文> あくまで「背後の確率空間を考えない」という習慣に従えば、の話です。
本文> それがいいと主張する気はまったくありません。むしろ、「背後の確率空間を考えない」のは好ましくない、と僕は思っています。

hasamicさん> 大抵の場合は「このときXの分布はμとなる」とか「分布μに従う確率変数Xをとる」というような用法だと思いますし、
この「大抵の場合」はconditonの(B)に当てはまらないので、(C)の「ほぼ無意味」という主張のスコープにありません。
hasamicさんの「大抵の場合」「典型的」使用例は、かなりちゃんとした説明をかなりちゃんとした人が読んでいる状況だと思えます。

hasamichasamic 2017/03/12 16:49 丁寧な返信をありがとうございます。確率空間を用いない状況下での「分布」の用法に関しての記述だということですね。納得しました。

ryoryo 2017/03/12 17:24 最後のセクションの1〜7のところで、確率変数の実体について、これを「R上の確率変数とは(累積)分布関数のことである」と定義すれば、曖昧という点はなくなると思うのです。これを古典的定義の確率論とすれば、これは測度や確率空間を隠しているわけではなくて、単にそういう定義の確率論となります。

測度や確率空間に基づく現代的な定義の確率論は、この古典的な理論を含んで、さらに一般的な値の空間に適用できる理論になっています。そう考えると、古典的な確率論は曖昧で直観に頼ったしょーもない理論ではなくて、想定する適用範囲がR^nなら十分な理論と思うのです。

m-hiyamam-hiyama 2017/03/12 17:47 ryoさん、
「R^n上の累積分布関数ありき」から出発して厳密な理論ができるだろう、は、おっしゃる通りだと思います。
が、「母集団が正規分布する」「母集団から抽出されたサンプル」「サンプル数が多ければ、サンプルの平均値は母集団の真の平均を近似する」とかの文言を、“R^n上の理論”のなかでどう説明するのですか?

あ、それと、僕は「しょーもない」とは全く思ってません。しょーもないなら、相手するに値しないので無視します。

ryoryo 2017/03/14 11:15 それは、累積分布関数として定義された確率変数では、大数の法則や中心極限定理がうまく記述できない、ということですか?そんなことはないと思うのですが。

m-hiyamam-hiyama 2017/03/14 13:47 ryoさん、
> 大数の法則や中心極限定理がうまく記述できない、ということですか?
いえ、違います。
繰り返しますが、「R^n上の確率論」が整合的になることに全く異論はないです。つまり、論点じゃないです。

次のような構図を想定してますか?
・ R^n上の確率論 ← (A)檜山が曖昧だと言っている ← (B)いや、正確だ
・ 一般の確率空間上の確率論 ← 檜山が正確だと言っている ← もちろん正確だ
(A)に対して、(B)という指摘じゃないですか?
でも、最初から「R^n上の確率論 vs 一般の確率空間上の確率論」なんて構図はないです。

僕が難儀しているのは、「母集団の分布」「母集団からの偏りのないサンプリング」「真の平均値」「量xを確率変数とみなす」とかの言葉使いです。これらが「曖昧だ」とか「意味不明」とか言ってます。批判してるわけじゃなくて、理解困難だと表明しているだけです。

ryoryo 2017/03/14 16:09 まったく自信がないのですが
母集団の分布 ⇔ 確率変数の分布関数
n個のサンプル ⇔ n個の確率変数
とすれば
サンプル数が多ければ、サンプルの平均値は母集団の真の平均値を近似する ⇔ 大数の法則
に対応する、という説明は論点を大きくはずしているんでしょうか。

m-hiyamam-hiyama 2017/03/14 19:50 では、「確率変数」はどう定義しますか?

ryoryo 2017/03/15 09:41 前のコメントに書いたように、「R上の確率変数とは(累積)分布関数のことである」と定義してはどうでしょう。

m-hiyamam-hiyama 2017/03/15 11:40 それだと、
 母集団の分布 ⇔ "確率変数"の分布関数 ⇔ "分布関数"の分布関数
と同語反復で、意味不明じゃないですか。その意味不明さがまさに僕が愚痴っていたことです。

ryoさん> ... という説明は論点を大きくはずしているんでしょうか。
問題意識は大きくはずしています。
この記事のタイトルは「意味と使用法」で、本文内で話題にしているのも言葉の使われ方やニュアンスです。「母集団の分布 ⇔ "分布関数"の分布関数」という“定義”は、「母集団の分布」という頻繁に使われる言葉の解釈・意味付けを与えません。
もっと具体的に「日本人成人男性の身長の分布」とか言うと、たいていの人が直感的に理解できます。その直感的把握と「R上の(累積)分布関数」がどう繋がるのかをハッキリさせたい -- それが問題意識です。

2017-03-03 (金)

「確率変数」の一般論は可能か

| 16:23 | 「確率変数」の一般論は可能かを含むブックマーク

確率変数について2つの記事を書きました。

「確率変数」という概念をもう少し一般化できそうな気がしてきました。

内容:

  1. ニ項関手をカリー化したら確率変数
  2. バナッハ空間に値を取る確率変数
  3. プロ関手を楽観的に捉える
  4. 確率変数の圏論的構造

ニ項関手をカリー化したら確率変数

「確率変数」の変種:測度に縛られない確率変数」で述べたことを手っ取り早く復習すると:

  • ニ項関手 HomProb:Probop×ProbSet のカリー化(ラムダ抽象)Λ(HomProb)は、「確率変数」概念の実体とみなせる。
  • ニ項関手 H:Probop×MeasSet のカリー化(ラムダ抽象)ΛHは、「無制約確率変数」概念の実体とみなせる。ここで、H(A, M) := Meas((Aの台となる可測空間), M)/(測度0の集合を除いて一致する)。

この2つで共通しているのは、Probop×CSet という二項関手があり、その二項関手のカリー化として確率変数概念が得られることです。1番目では C = Prob、2番目では C = Meas となっています。Cをもっと別な圏に取り替えると、確率変数(の概念)の変種がもっと作れるでしょう。

Cだけでなくて、ニ項関手の値の圏であるSetも他の圏に変更してもよさそうです。実際に、Setも取り換えて第3の例を作ってみます(次節)。

バナッハ空間に値を取る確率変数

以下に述べる例は「モノイド自然変換としての積分: 大雑把に」の例とよく似たものです。

Banをバナッハ空間と連続線形写像(=有界線形写像)の圏とします。バナッハ空間はノルムから距離が入り位相空間となるので、ボレルσ集合代数を作れます。バナッハ空間Vのボレルσ集合代数をBorel(V)と書くことにします。

Probの対象Aは確率空間なので、A = (ΩA, ΣA, μA) と書きます。確率空間Aもバナッハ空間Vも可測空間とみなせるので、可測写像全体の集合Meas((ΩA, ΣA), (V, Borel(V))を作れます。確率空間Aは測度空間なので、A上でバナッハ空間値関数の積分ボホナー積分)ができます。可測写像 u∈Meas((ΩA, ΣA), (V, Borel(V)) のノルムを取った実数値関数がA上で積分できて値が有限値のとき、u∈L1(A, V) だと決めます -- これは、確率空間Aとバナッハ空間Vに対して新しいバナッハ空間L1(A, V)を定義したことになります。

f:A→B in Prob と ψ:V→W in Ban に対して、L1(f, φ):L1(B, V)→L1(A, W) も定義できて、L1Probop×BanBan という二項関手になります。

二項関手 L1:Probop×BanBan をカリー化(ラムダ抽象)すると、ΛL1:Ban→[Probop, Ban]です。この[Probop, Ban]は、“Banに値を取る前層の圏”と言っていいでしょうから、PShBan(Prob) と書くことにします。すると:

  • ΛL1:Ban→PShBan(Prob)

ΛL1は確率変数概念と呼んでいいでしょう。確率変数概念ΛL1に、値の空間であるバナッハ空間Vを渡すと、(ΛL1)(V)というBan値前層ができます。さらにこの前層(関手)に確率空間Aを渡すと、A上のV値可測関数の全体 (ΛL1)(V)(A) = L1(A, V) が生じます。(ΛL1)(V)(A)は単なる集合ではなくてバナッハ空間です。バナッハ空間(ΛL1)(V)(A)の要素が狭義のV値確率変数(=測度論的確率変数)です。

次のステップを踏んで「確率変数」が具体化・特定化されていきます。

  1. 二項関手 L1
  2. 確率変数概念 ΛL1
  3. 値の空間を特定した確率変数概念 (ΛL1)(V)
  4. 測度論的確率変数の集合 (ΛL1)(V)(A) (単なる集合ではなくてバナッハ空間)
  5. 特定の測度論的確率変数 X∈(ΛL1)(V)(A) (可測写像からなるバナッハ空間の要素)

プロ関手を楽観的に捉える

一般に、C, Dを圏として、Dop×CSet という形の二項関手をプロ関手(profunctor)と呼びます。プロ関手 F:Dop×CSet を、F:C+→D と書くことがあります。そのココロは、Fを“CからDへの何らかの射”とみなしているのです。プロ関手が射であるとは、2つのプロ関手 F:C+→D, G:D+→E に対して、結合(図式順結合を'*'で表す) F*G:C+→E や、恒等プロ関手IdCが定義できるということです。

小さい圏を対象として、そのあいだのプロ関手を射とする圏Profがチャンと定義できることは知られています。大きな圏を認めるとどうなんでしょう? 大きな圏を無条件に許すのはたぶんダメでしょう。"accessible category"とか"locally presentable category"とかの議論が必要なんでしょう、よく知らんけど。

楽観的に考えて、ProbMeasを対象としてもいいようなプロ関手の圏PROFがあるとしましょう。すると、確率変数概念のモト(源泉)である二項関手は、HomProb:Prob+→Prob, H:Meas+→Prob in PROF と書けます。さらに楽観的な大風呂敷を広げると、超巨大な圏PROFは、前層構成PSh(-)をモナド乗法、米田埋め込みy-モナド単位とする超巨大なモナド(米田モナドと呼ぶべきかな)のクライスリ圏のはずです。したがって、プロ関手 F:C+→D を二項関手とみなしてカリー化したΛFは、プロ関手としてのFをクライスリ射として表現した形 C→PSh(D) です。

前段落の楽観的法螺を完全に実現するのは難しいでしょうが、ProbMeasを扱う最小限のメカニズムは整備できると思います。一般論は夢想の彼方でも、具体的な圏に対する具体的な構成ができれば、とりあえずはOKです。

F:C+→D in PROF とは、F:Dop×CSet in CAT のことでした。Setを別な圏Eに変えた F:Dop×CE in CAT も(広義の)“プロ関手”と言ってもいいでしょう。ただし、Eとして任意の圏を取れるわけではありません。おそらく、Eとしてベナボー・コスモス(Bénabou cosmos)あたりを選べばいいんでしょう。

このEは、豊饒圏(enriched category)を作るときの豊饒化ベース圏(enriching category)と同じ役割を担います。なので、SetEに変えたプロ関手はE-豊饒プロ関手と呼んでよいかと。そのことは次の記事に書きました。

前節の二項関手 L1:Probop×BanBan は、プロ関手 L1:Ban+→Prob とみなせるでしょうが、単なるプロ関手ではなくて、Ban-豊饒プロ関手です。別な書き方をすると、L1Ban-PROF(Ban, Prob)。

確率変数の圏論的構造

C, Dが大きいかも知れない(が、タチの良い)圏、Eはコスモス的条件を満たす圏だとして、次の3つは同じものを表現しています。

  1. 二項関手 F:Dop×CE in CAT
  2. 前層の圏への単項関手 ΛF:C→PShE(D) in CAT
  3. 豊饒プロ関手 F':C+→D in E-PROF

今まで出した確率変数概念の3つの例では:

C D E F
Prob Prob Set HomProb
Meas Prob Set H
Ban Prob Ban L1

確率の話なので、D = Prob は固定されてますが、Probにもバリエーションはあります。例えば、確率空間の台を集合ではなくてポーランド空間にすれば、D = PolishProb(ポーランド空間上の確率空間の圏) となるでしょう。リーマン多様体上の確率論なんてのもあるみたいですから、D = RieManProb(リーマン多様体上の確率空間の圏)という設定もアリでしょう。あるいは、順列組み合わせだけで解ける確率的問題を定式化するなら、有限集合を台とする確率空間の圏FinProbが相応しい場となるでしょう。

さまざまな確率変数概念の一般的枠組には次の3つの圏が出てきます。

  1. C : 対象が、確率変数の値の領域である圏
  2. D : 対象が、確率空間である圏
  3. E : 対象が、(速度論的)確率変数の集合である圏

この三組のあいだに二項関手 F:Dop×CE in CAT があれば、それをカリー化して確率変数概念(notion of random variable)を定義できます。必要があれば、Fを豊饒プロ関手とみなすこともできます。

以上の枠組を用いれば、「確率変数」の謎で多様な用法に解釈を与え整理することが(ある程度は)できるでしょう -- そう、「確率変数」の一般論は可能なように思います。

2017-03-02 (木)

「確率変数」の変種:測度に縛られない確率変数

| 12:06 | 「確率変数」の変種:測度に縛られない確率変数を含むブックマーク

「確率変数」の正体は米田埋め込み」では、「確率変数(random variable)」という概念を、確率空間と確率を保存する(可測)写像の圏Probの米田埋め込みyProbとして定式化しました。これは、有名な圏論の手法をそのまま適用できる点がとても良いのですが、場合によっては具合が悪いことがあります。定式化を少し修正すると、問題点を解決できます。

内容:

  1. 米田埋め込みではウマクないとき
  2. 関手のカリー化と米田埋め込み
  3. 無制約確率変数

米田埋め込みではウマクないとき

「確率変数」という概念の実体をRandVarと書くことにして、RandVar := yProb : Prob→PSh(Prob) と定義しました(詳細は「「確率変数」の正体は米田埋め込み」)。RandVarに、“値となる確率空間”Vを渡すと:

  • RandVar(V) = Prob(-, V) : ProbopSet

ここで、Vの台集合がRである場合を考えてみます。話を具体的にするために次のように決めます。

  • ΩV = R
  • ΣV = Rの標準位相のボレルσ集合代数
  • μV = 1次元標準正規分布が定める測度

適当な確率空間Aに対して、RandVar(V)(A) = Prob(A, V)を考えます。Rには足し算や掛け算がありますから、AからのR値可測関数も足し算や掛け算できます。しかし、RandVar(V)(A)に入っているのは確率保存写像だけなので、RandVar(V)(A)内で足し算や掛け算ができません。X, Y∈RandVar(V)(A) でも、(X + Y), XY∈RandVar(V)(A) とは限らないのです。

確率変数を自由に足したり掛けたりするには、値の空間であるVに測度は入れず、単なる可測空間にして、任意の可測写像を許すべきです。そうなると、RandVar := yProb という定義はウマクないですね。

関手のカリー化と米田埋め込み

RandVarの定義を修正したいのですが、その前に、圏Cの米田埋め込みyCが、ホムセット関手のカリー化であることを確認しましょう。カリー化は、ラムダ計算や関数型プログラミングではお馴染みの操作です。

集合圏Setで、次のホムセット間の同型が成立します。

  • Set(A×B, C) ¥stackrel{¥sim}{=} Set(A, [B, C])

ここで、[B, C]はBからCへの関数(写像)の集合です。この同型の左辺から右辺への双射をカリー化、右辺から左辺への双射をアンカリー化と呼びます。

小さい圏の圏Catでも、同様なホムセット間の同型が成立します。

  • Cat(C×D, E) ¥stackrel{¥sim}{=} Cat(C, [D, E])

ここの[D, E]は関手圏で、自然変換を射とする圏になります。集合圏と同様なカリー化/アンカリー化で、“二項関手”と“関手圏への単項関手”が1:1対応します。

大きい圏(必ずしも小さくはない圏)に対して同様な議論をしていいのか? たぶん、まー、なんとか大丈夫でしょう。

  • CAT(C×D, E) ¥stackrel{¥sim}{=} CAT(C, [D, E])

CATは大きい圏も許す“圏の圏”です。

さて、大きいかも知れない圏Cの2つの対象A, Bに対してホムセット HomC(A, B) = C(A, B) を定義できますが、2つの射 f:A→B, g:C→D に対しても HomC(f, g):HomC(B, C)→HomC(A, D) を次のように定義できます。

  • u∈HomC(B, C) に対して、(f;u;g)∈HomC(A, D) を対応付ける。

これにより、HomCCop×CSet という二項関手となります。この二項関手を、Cのホムセット関手またはホム関手と呼びます。HomCCAT(Cop×C, Set) なので、カリー化すると、

  • HomCΛ : Cop→[C, Set]

(-)Λは、第二変数(右の変数)に関するカリー化(ラムダ抽象ともいう)を表します。第一変数(左の変数)に関するカリー化をΛ(-)で表すと:

  • ΛHomC : C→[Cop, Set]

[Cop, Set]はCの前層の圏なので、

  • ΛHomC : C→PSh(C)

もうお分かりでしょう、ΛHomCは米田埋め込みyCそのものです。米田埋め込みとは、ホム関手の第一変数(左の変数)に関するカリー化だったのです。

無制約確率変数

「確率変数」の正体は米田埋め込み」で述べた確率変数の定式化は、圏Probのホム関手 HomProb:Probop×ProbSet をカリー化した ΛHomProb = yProb としてProbVarを与えたわけです。カリー化は、ホム関手じゃなくても任意の二項関手に(必要なら多項関手にも)適用できるので、我々の目的に都合の良い二項関手を作って、カリー化してみます。

Measは可測空間と可測写像の圏だとします。Probの対象 A = (ΩA, ΣA, μA) に対して、(ΩA, ΣA)は可測空間なので、これをMe(A)と書きます。Me(-)は忘却関手ではありません。Probのホムセットが同値類の集合なので、ProbからMeasへの忘却関手はうまく作れません。

二項関手 H:Probop×MeasSet を次のように定義します。

  • A∈Prob, M∈Meas に対して、H(A, M) := Meas(Me(A), M)/〜 。〜は、「測度0の集合を除いて一致する」という同値関係。u∈Meas(Me(A), M) の同値類を[u]と書く。
  • f:A→B in Prob と k:M→N in Meas に対して、H(f, k):H(B, M)→H(A, N) は、[u]∈H(B, M) に対して、[f;u;k]∈H(A, N) を対応させる写像

Hが実際に二項関手になっていることは定義を追いかければ分かります。

Hのカリー化ΛHは、Meas→[Probop, Set] となります。関手圏[Probop, Set]は前層の圏PSh(Prob)なので、

  • ΛH:Meas→PSh(Prob)

ΛHは、米田埋め込み yProb = ΛHomProb : Prob→PSh(Prob) とよく似た関手です。違う点は、ΛHの引数が(確率空間ではなく)可測空間であることです。例えば、確率測度を持たないR(σ集合代数はボレルσ集合代数)をΛHの引数に渡すことができます。

無制約確率変数(unrestricted random variable)を次のように定義します。

  • UnrRandVar := ΛH : Meas→PSh(Prob)

Vを可測空間(確率空間ではない)とすると、UnrRandVar(V)はProb上の前層になるので、任意の確率空間Aで具体化されると、集合 UnrRandVar(V)(A) = (ΛH)(V)(A) = H(A, V) = Meas(Me(A), M)/〜 が生じます。この集合には全ての可測写像(の同値類)が含まれるので、その上に代数構造などを構成することが自由にできます。例えば、UnrRandVar(V)(A)をベクトル空間にしたりします。

最初に述べた「米田埋め込みではウマクない」ケースでは、RandVarの代わりにUnrRandVarを使えばいいのです。

2017-02-28 (火)

「確率変数」の正体は米田埋め込み

| 19:04 | 「確率変数」の正体は米田埋め込みを含むブックマーク

確率変数(random variable, stochastic variable)という言葉の意味が分からない! と何度か書いています。

結局分からないままでした。「慣れ」の問題かも? と思ったこともあります。

慣れることも出来ませんでした。

最近、「これなら納得できるかな」という解釈に出会いました。

[追記 date="翌日"]最後に分かりやすいマトメを付けました。[/追記]

内容:

  1. 「確率変数」はなぜ分からないのか
  2. アレックス・シンプソンのアイディア
  3. 「確率変数」の2つの用法
  4. 確率空間と圏Prob
  5. 測度論的確率変数
  6. 曖昧な確率変数
  7. 前層と米田埋め込み
  8. 米田埋め込みとしての確率変数
  9. [追記 date="翌日"]記法を中心としたマトメ

補足もあります。

「確率変数」はなぜ分からないのか

「確率変数とは、ランダムな値を取る変数」とか、“定義”として出されますが、これじゃ何のことだかサッパリ分からない! 意味がハッキリした定義として「確率空間からの可測写像」というのがあります。しかし、実際の用法として「確率変数」を常に「可測写像」として使っているとは思えないのです。

誤解されないように言っておくと:「確率変数」という言葉を使う前に「確率空間」を定義すべし、とか、そんなことを主張する気はサラサラありません。確率空間の厳密な定義がなくて「確率変数」を使ってもいいのですが、その使用状況において背後の確率空間を想定可能かというと、どうも無理なのです。暗黙にさえ、背後の確率空間なんて想定してない気がします。

例えば、「普通の変数」を「確率変数」に変更することがあります。変数xが実数直線R上を走る変数だとして、これを「確率変数にします」とかやるわけです。同じ文字xを確率変数にそのまま使う場合もあれば、親切な著者は区別して大文字Xにしたりします。「普通の変数x → 確率変数X」という変更は、実際のところいったい何をしているのでしょう?

「普通の変数x → 確率変数X」の変更の際に、確率空間 A = (ΩA, ΣA, μA) を持ち出して、X:ΩAR (可測写像)という解釈なら納得もできるのですが、確率空間など(暗黙の想定にさえ)一切登場しません。変数が走る変域はRだけで、「R上の普通の変数x」が「R上の確率変数X」に突如変身するのです。変身した後のXとは、どこから来た何者なんでしょうか?(追記した最後の節に、種明かしがあります。)

アレックス・シンプソンのアイディア

アレックス・シンプソン(Alex Simpson: Edinburgh, Ljubljana)のこの動画をたまたま見つけました。

実は、動画をちゃんと見てるわけじゃありません。検索で引っかかった"Probability sheaves"というタイトルを見て「あっ」と思いました。タイトルだけでシンプソンのアイディアはだいたい予想が付きました。英語は聞き取れないし、確率論のテクニカルな内容は理解できないので、とりあえず動画の何箇所かで板書を眺めて、予想が見当ハズレでもないだろうと確認(?)しただけです。

という次第で、シンプソンの考えを僕が誤解している可能性もありますが、「確率変数を層(sheaf)とみなす」という基本アイディアは外してないと思います。ここでは、層とみなすのは面倒なので、「確率変数=前層(presheaf)」として、シンプソンのアイディアを紹介します。

「確率変数」の2つの用法

まず、「確率変数」という言葉の用法(使い方/使われ方)を2つに分類します。1つは測度論的用法で、「確率変数=確率空間からの可測写像」という定義に基づく用法です。測度論的な定義では解釈が困難で、代替の解釈もない場合を「曖昧な用法」と呼ぶことにします。

測度論的用法は意味が明らかだし、その意味に基づいて言葉を使っているなら曖昧性もありません。つまり、特に問題はないということです。この世の用法が測度論的用法であるか、背後に測度論的用法があると想定できるなら僕もフラストレーションを感じないでしょう。しかし、いきなり「R上の変数を確率変数に変更する」ことがあったりするので、モヤモヤ・イライラするのです。

以下では、シンプソンのアイディアに基づき「曖昧な用法」に解釈を与え、測度論的用法と曖昧な用法の関係にも言及します。

確率空間と圏Prob

確率空間を、A = (ΩA, ΣA, μA) のように書くことにします。

  • ΩAは集合、Aの台集合(underlying set)と呼ぶ。
  • ΣAは、ΩA上のσ集合代数(可算加法族)。
  • μAは、(ΩA, ΣA)上の実数値測度で、μAA) = 1

ΩAは標本空間(sample space)と呼ぶことが多いと思いますが、可測写像の値の空間(余域)のほうを標本空間と呼ぶ人もいるので、単に台集合と呼んでおきます。

実用上は、ΩAが単なる集合では不便で、タチの良い位相空間ポーランド空間とか)を使うようです。その場合、ΣAは位相から作られたボレルσ集合代数にします。可測写像だけでなく連続写像なども考えることができるので、使える道具が増えるわけです。しかし、今ここでは位相構造は考えないことにします。

確率空間 A = (ΩA, ΣA, μA) があると、(ΩA, ΣA)は可測空間なので、確率空間の概念には可測空間の概念が含まれています。そのため、確率空間A, Bに対して、可測写像 f:ΩA→ΩB を定義できます。Aの確率測度μAに対して、可測写像fによる前送り測度 f*A) を次のように定義できます。

  • S∈ΣB に対して、 (f*A))(S) := μA(f-1(S))

可測写像 f:ΩA→ΩB が、f*A) = μB のとき確率を保存する写像と言います。

確率空間を対象として、確率を保存する写像を射とする圏を定義できます。この圏をProbと書きます。ただし、確率を保存する写像が測度0の集合でしか違いがないなら同一視します。圏ProbのホムセットProb(A, B)は、確率を保存する(可測)写像の集まりではなくて、「測度0の集合を除いて一致する」という同値関係で割った集合(商集合)です。したがって、圏Probの射は、可測写像の同値類です。(より詳しくは「合同を持つ圏と測度空間の圏」を参照。)

測度論的確率変数

Probを使って、「確率変数」という言葉の測度論的用法を整理しておきましょう。

Aが確率空間で、V = (ΩV, ΣV) を可測空間とします。V側にはとりあえず測度が載っていません。ΩAからの可測写像 X:ΩA→ΩV測度論的確率変数と呼びましょう。

Xが測度論的確率変数のとき、確率空間A上の確率測度μAをXで前送りしたX*A)は、可測空間(ΩV, ΣV)上の確率測度になります。そこで、μV := X*A) として、(ΩV, ΣV, μV)を作ると、これは確率空間になります。この確率空間を同じ文字Vを使って V = (ΩV, ΣV, μV) と書きます。

可測写像Xを、あらためて確率空間のあいだの写像 X:A→V とみなすと、測度論的確率変数Xは、圏Probの射とみなせます。正確に言えば、Xの同値類[X]をProb(A, V)内で特定することになります。この操作により、測度論的確率変数は、圏Probの射と同一視可能です。

以上述べたことから、「確率変数」の測度論的用法に関しては、「確率変数とは、圏Probの射である」という意味付けができました。

「確率変数は分布を持つ」といった言い方も、X:ΩA→ΩV により誘導されたV側の確率測度 μV = X*A) のことを「Xの分布」と呼ぶなら解釈可能です。確率測度μVが確率密度gで定義されるなら、測度μVと密度gを意図的に混同した上で、「Xの分布がg」「Xは分布gを持つ」とかも、まーなんとか解釈可能です。

曖昧な確率変数

さて、問題は「確率変数」の曖昧な用法です。背後の確率空間や可測写像は何も想定せずに「確率変数X」という言葉を使うとき、どう解釈するか? です。

Xの定義域である確率空間が仮定も想定もされない場合でも、Xの“値の空間”は想定しています。例えば、実数直線Rとか、ユークリッド空間Rnの部分領域とかが値の空間とされます。値の空間がVである確率変数をRandVar(V)と書くことにします。ただし、今は記号を定めただけで、RandVar(V)が何であるかは不明です。RandVar(V)は、「Vを値とする確率変数」を記号的に書いただけです。

曖昧に「確率変数」と言うときでも、値の空間V上の分布(=確率測度)を云々することから、Vは確率測度を備えた確率空間と考えていいでしょう。つまり、RandVar(V)のVは確率空間です。となると、RandVar(-)は、引数に確率空間を取って意味を持つような何か、と思えます。

ここで、測度論的確率変数を思い出すと、測度論的確率変数Xには、定義域である確率空間が指定されていました。X:A→V ですね。ところが、曖昧な確率変数Xでは定義域である確率空間が指定されていません。この食い違いを吸収するために、次のように考えることにします。

  • 曖昧な確率変数Xにおいて、定義域である確率空間や具体的な可測写像が指定されないのは、何も考えないのではなくて、何が来てもいいような準備・構えだけをしているのだ。

つまり、特定の確率空間Aが与えられれば、Aからの測度論的確率変数(=確率を保存する可測写像)を考える準備はあるのです。記号Xは、実は確率空間で埋めるプレースホルダーを持っていて、Aが与えられると測度論的確率変数XAが定まる(と考える)のです。

測度論的確率変数XAが走る領域は、Aを定義域としてVを値の空間とする確率保存可測写像の全体です。つまり、圏ProbのホムセットProb(A, V)です。この事実は、次のように書けます。

  • XAProb(A, V)

あるいは、変数XAの型はProb(A, V)だ、ということを型理論の記法で書けば、

  • XA:Prob(A, V)

確率空間Aを未定のプレースホルダー(無名変数)に戻すと、

  • X-:Prob(-, V)

となります。ハイフンがプレースホルダーです。

X-Prob(-, V)がプレースホルダーを持っているとなると、RandVar(V)もプレースホルダーを持っていると考えるべきでしょう。RandVar(V)(-) で、二番目の括弧がプレースホルダー部分です。ここに具体的な確率空間Aが入ると、RandVar(V)(A) = (RandVar(V))(A) となり、「Vを値とする(曖昧な)確率変数」が、定義域であるAにより具体化されることになります。

こうなると、RandVar(V)(-)はProb(-, V)の別表記に過ぎないことになります。

  • RandVar(V) = RandVar(V)(-) = Prob(-, V)

前層と米田埋め込み

前節の最後に出てきたProb(-, V)は、圏Prob米田埋め込み(Yoneda embedding)です。このことを理解するために、前層と米田埋め込みを簡単にまとめておきます。

Cが圏のとき、Cの反対圏Copから集合圏Setへの関手の圏[Cop, Set]を、C前層(presheaf)の圏と呼び、PSh(C)と書きます。PSh(C)の対象が前層です。つまり、前層とはCopSetの関手に過ぎません。

PSh(C) = [Cop, Set] は、CからSetへの反変関手(と自然変換)の圏と言っても同じです。共変関手の圏[C, Set]を考えてもいいのですが、歴史的事情と反変関手が出現することが多いことから、反変関手のほうを主に扱います。共変関手の圏[C, Set]は余前層(copresheaf)の圏と呼ぶようです。

Z∈|C| に対して、C(-, Z) は前層になります -- これは、H(-) := C(-, Z) と置いて、HがCからSetへの反変関手になればいいのですが、それは次のようにして分かります。

  • X∈|C| に対して、H(X) = C(X, Z)。C(X, Z)は集合なので、Hは |C|→|Set| の対応を定める。
  • f:X→Y in C に対して H(f):H(Y)→H(X) を決めればよいが、u∈H(Y) (H(Y) = C(Y, Z))に対して、(H(f))(u) := f;u とする。(f;u):X→Z in C なので、(f;u)∈H(X) (H(X) = C(X, Z))。
  • H(f;g) = H(g);H(f), H(idX) = idH(X) は定義に従い確認できる。

特定の Z∈|C| に対してC(-, Z)が前層(=集合圏への関手)になることがわかりました。これは、Z|→C(-, Z) という対応が、|C|→|PSh(C)| という写像になっていることです。f:Z→W in C に対して、自然変換 C(-, f)::C(-, Z)⇒C(-, W):CopSet も定義できます。ξ = C(-, f) と置きましょう。

  • X∈|C| に対するξのX成分 ξX:C(X, Z)→C(X, W) in Set は、u∈C(X, Z) に対して、ξX(u) := u;f と定義する。
  • ξの自然性は、定義に従い確認できる。

さらに、C(- f;g) = C(-, f);C(-, g) と C(-, idZ) = ιC(-, Z) が分かります。ここで、最初の等式右辺の「;」は自然変換の縦結合、ιFは関手Fに対する恒等自然変換です。

以上をまとめると、(xはCの対象または射 |→ C(-, x)) という対応は、CからPSh(C)への関手となります。圏Cを与えるごとに (x |→ C(-, x)):C→PSh(C) が決まるので、(x |→ C(-, x)):C→PSh(C) をC米田埋め込みと呼び、yCと書きます。

米田埋め込み yC:C→PSh(C) が実際に圏の埋め込みとなることは、米田の補題から言えます。

米田埋め込みとしての確率変数

曖昧な用法としての「確率変数」とは、確率空間と確率保存可測写像の圏Probに対する米田埋め込みだと解釈してみましょう。つまり、

  • RandVar := yProb : Prob→PSh(Prob)

そうすると、「確率変数」の不明さ/曖昧さ/分かりにくさがある程度説明が付きます。

  • 曖昧な用法の「確率変数」が分かりにくく、マトモな説明がないのは、それが非常に高階な存在物だから。
  • 曖昧な用法の「確率変数」でも、値の空間は明示するのは、米田埋め込み yProb(-) の引数(ハイフンの所)が“値の空間”を要求するから; RandVar(V) = yProb(V) = Prob(-, V)
  • 曖昧な用法の「確率変数」では、定義域である確率空間が明示されないのは、RandVar(V) = RandVar(V)(-) = Prob(-, V) の引数(ハイフンの所)の具体化(束縛)を遅らせてもいいから。

「Xは、Vを値とする確率変数である」という言明の背後には次のような暗黙の前提が含まれていることになります。

  • 値の空間Vは、単なる集合や位相空間ではなくて、確率空間である。Vの確率測度μVを「Xの分布」と呼ぶ。
  • もし、特定の確率空間 A = (ΩA, ΣA, μA) が指定されれば、圏Probのホムセット RandVar(V)(A) = Prob(A, V) として、測度論的確率変数(=確率保存可測写像)の集合が確定する。だが、Aを最初から指定する必要はない。
  • 変数記号Xには、プレースホルダー(パラメーターが入る場所)があり、X-という形をしている。プレースホルダー(ハイフン)に特定の確率空間Aが入ると、XAは RandVar(V)(A) = Prob(A, V) 上を走る変数と解釈できる。
  • f:V→W が圏Probの射(確率保存可測写像)のとき、f(X)は、任意のAに対する (XA;f):A→W の意味であり、fをRandVar(V)からRandVar(W)への自然変換とみなしている。
  • つまり、「確率変数の関数」とは、確率保存可測写像から誘導される「関手(前層)のあいだの自然変換」である。

確率・統計の最初のほうに出てくる概念である「確率変数」に対して、なんで米田埋め込みを持ち出さなくてはならないのだ? と疑問を感じるかもしれませんが、その答は簡単です。それ以外にマトモな定義・解釈が(今のところ)ないからです。

[追記 date="翌日"]記法を中心としたマトメ

冒頭の「普通の変数x → 確率変数X」という変更を、記法(書き方)を順次変えながら説明します。最終的に測度論的確率変数に行き着きます。

型理論では、変数xの型(変域)がVであることを、x:V と書きます。変数xが普通の変数である(確率変数ではない)ことを強調するために、次のように書きましょう。

  • x:Var(V)

「xはVを変域とする変数だ」と読めます。普通の変数の変域Vには特に構造を要求しません。もちろん、構造を持っていてもかまいません(特に言及しないだけ)。

XがV上の確率変数ならば、次のように書きます。

  • X:RandVar(V)

「xはVを変域とする確率変数だ」となります。この記法が意味を持つためには、Vが確率空間(ΩV, ΣV, μV)でなくてはなりません。確率測度μV(またはその密度)を、「Xの分布」と呼びます。

XにもRandVar(V)にも、プレースホルダー(パラメーターを入れる場所)があるとして、それをハイフンで表します。

  • X-:RandVar(V)(-)

プレースホルダーに入れられるモノは確率空間です。A = (ΩA, ΣA, μA) を確率空間とします(A = V でもかまいません)。Aをプレースホルダーに入れると:

  • XA:RandVar(V)(A)

RandVar(V)(A) = (RandVar(V))(A) の意味は、圏ProbのホムセットProb(A, V)だったので:

  • XA:Prob(A, V)

集合論的解釈をすると:

  • XAProb(A, V)

XAがホムセットに所属しているということは、XAは圏Probの射なので:

  • XA:A→V in Prob

Probの射、すなわち確率保存可測写像は、測度論的に解釈した確率変数なので:

  • XAは、Aで定義されVに値を取る測度論的確率変数である。

以上のプロセスにより、V上の普通の変数xを確率変数Xに変えることは、Vの確率空間構造を特定して、任意の確率空間Aに対するV値の測度論的確率変数(を表す変数*1)XAを考えることだと分かりました。このプロセスを系統的に行うメカニズムが米田埋め込みです。


補足もあります。

*1:測度論的確率変数は可測関数ですが、XAはその可測関数の空間の上を走るので、正確には「確率変数を表す変数」となります。

kikkik 2017/02/28 22:22 言われてみると確かに。
分布は確率変数を人間が観察して得られる局所的な情報で、それらを貼り合わせて大域的なものにするという抽象的な操作をして初めて確率変数になると思えば、層に見えるような気がしてきました。
ωの関数とするのは単に当時の数学のテクニカルな実現の都合なだけで、本質的ではなさそうですね。

mmmm 2017/02/28 22:30 僕は、圏論の知識は全く持ち合わせていないのですが、
圏を使わなくても
台集合Ωと、X(ω)の形がわかってしまえば、基本的に
確率空間はそこから構成可能なので、先に確率変数を与えてしまっても問題はないということであると思います。
実際に、Ω, X(ω)が与えられれば
{X^-1(A) ; A∊Borel集合体}によって、σ集合体が構成できますし
確率測度に関しては、分布関数が与えられていればそこから構成できることが証明されているので、問題はないように思えましたがどうでしょうか?

m-hiyamam-hiyama 2017/03/01 08:54 kikさん、
> ωの関数とするのは単に当時の数学のテクニカルな実現の都合なだけで、本質的ではなさそうですね。
そう思います。圏Probの射が古典的写像か?というと、そうである必要はないし、そうではない気がします。
テレンス・タオの代数的確率論などでも、代数構造を先に与えてそのスペクトルとして確率空間を構成(または再現)しているので、確率論も代数幾何っぽい定式化に向かうのかも知れません。

m-hiyamam-hiyama 2017/03/01 08:55 mmさん、
本文より> 測度論的用法は意味が明らかだし、その意味に基づいて言葉を使っているなら曖昧性もありません。つまり、特に問題はないということです。
測度論的に議論できることは問題にしていません。「定義域が未定な可測関数」のような、測度論的解釈が困難な概念に圏論的解釈を採用しています。

2017-02-24 (金)

ラックス・モノイド関手をシッカリ調べるべき

| 13:30 | ラックス・モノイド関手をシッカリ調べるべきを含むブックマーク

半加法圏の圏」で、半加法圏(=双積モノイド圏)の圏はデカルト閉圏になるだろう、とか書いたんですが、それは僕の勘違いでした。デカルト閉圏にはなりません。しかし、なにかうまいモノイド積が存在すれば、そのモノイド積に対してモノイド閉圏になる可能性はあります。つまり、次の随伴性が成立するかも知れない、ということです。

  • SemiAdd(C¥otimesD, E) ¥stackrel{¥sim}{=} SemiAdd(C, [D, E])

ここで、¥otimesが「なにかうまいモノイド積」、[-, -]は指数です。

上記の「なにかうまいモノイド積」は、ベクトル空間のテンソル積と類似していると思えるのでテンソルと呼びましょう。小さい圏のテンソル積を構成する問題は「テンソル積の作り方 2: 双加群の場合、小さい圏の場合」で触れたことがあります。一般的には難しい問題です。今の場合は双積構造があるので、それが手がかりを与えてくれそうです。

テンソル積を実際に構成するのは難しそうだ、という以前に、「テンソル積を構成せよ」という課題を正確に定式化することが難しいです。ベクトル空間のテンソル積については「テンソル積の作り方」で述べましたが、これはベクトル空間の場合であって、半加法圏にそのまま通用するものではありません。

ベクトル空間のテンソル積がヒントになるのは間違いないでしょうが、ベクトル空間における概念に対して半加法圏における対応物が何であるか? あんまり分かりません。どうも、基礎的な部分から準備を積み上げるしかないようです。

ちょっと考えた限りでは、「基礎的な部分」にはラックス・モノイド関手の理論がありそうです。ラックス・モノイド関手の定義と簡単な性質は次で述べています。

ラックス・モノイド関手の概念を使って、モノイド圏/対称モノイド圏のテンソル積の定義(公理的条件付け)ができるかも知れません。定義ができても構成(存在証明)ができるとは限りませんが、とりあえずは問題(課題)を記述しないと始まりません。

「モノイド圏/対称モノイド圏のテンソル積」という概念がハッキリすれば、それの精密化として「半加法圏のテンソル積」の定義(構成ではない)を記述できる可能性があります。なので、当面のサブタスクはラックス・モノイド関手を調べることでしょう。

トラックバック - http://d.hatena.ne.jp/m-hiyama/20170224