2017-03-12

これは「B. A. Olshausen and D. J. Field, Natural image statistics and efficient coding. Network. 1996 May;7(2):333-9.」の訳です。

３．スパース・コーディング

単純細胞の応答特性はかなり線形なので、処理のこの段階のための線形符号化モデルを扱うことにする。画像 $I(x,y)$ は（直交する必要はない）基底関数 $\phi_i(x,y)$ の線形重ね合わせとしてモデル化される。つまり

$I(x,y)=\Bigsum_ia_i\phi_i(x,y)$ ・・・・(1)

我々の目標は完全なコード（つまり入力空間の範囲）を形成し画像のスパースな表現をもたらす $\phi$ の集合を見つけることである。つまり、任意の与えられた係数についての活動の確率分布はゼロ近くでかなり高くなり、長い裾野を持たなければならない（図3b）。

図3b。スパース・コーディング。任意の与えられたユニットについての活動の分布はゼロ付近でピークになり、長い裾野を持つ。そのような分布はガウス分布（点線）とは対照的に低いエントロピーを持つ。ガウス分布は同じ分散について最大のエントロピーを持つ。

そのような分布はエントロピーが低いので、ユニット間の統計的依存性を下げる*1。
我々はスパース・コードの探索を、以下のコスト汎関数を最小化することによる最適化問題として定式化する。
- $E(a,\phi)=\Bigsum_{x,y}\left[I(x,y)-\Bigsum_ia_i\phi_i(x,y)\right]^2+\beta\Bigsum_iS\left(\frac{a_i}{\sigma_i}\right)$ ・・・・(2)
ここで[tex:\sigma_i^2=]である。最初の項はそのコードがどれだけ画像をうまく記述しているかを測定し、２乗平均誤差に従っており、一方、２番目の項は、最も少ない係数が荷を運ぶ(?*2 )ような状態を好むように、活動についてのコストを負担する。我々が実験した $S(x)$ の選択には $-e^{-x^2}$ 、 $\log(1+x^2)$ 、 $|x|$ があり、それら全ては定性的に類似の結果をもたらす。ベイズ確率的解釈では、初めの項はlog尤度として働き、２番目の項は係数に関するlog事前確率として働く。よって、 $S(x)$ の異なる選択は異なる事前確率に対応する。つまり、 $\log(1+x^2)$ はコーシー分布に対応し、 $|x|$ は指数分布に対応し、 $-e^{-x^2}$ は（先行条件のない(?*3 ) ）スパースの形の分布に対応する。
学習は総コスト汎関数 $E$ で勾配降下を実行することで達成される。個々の画像提示について、 $a_i$ は最小値に到達するまで $E$ の勾配に沿って進む。つまり

$\dot{a}_i=\eta\left[b_i-\Bigsum_jc_{ij}a_j-\frac{\beta}{\sigma_i}S'\left(\frac{a_i-\mu_i}{\sigma_i}\right)\right]$ ・・・・(3)

ここで $b_i=\Bigsum_{x,y}\phi_i(x,y)I(x,y)$ 、 $C_{ij}=\Bigsum_{x,y}\phi_i(x,y)\phi_j(x,y)$ であり $\eta$ は定数のレートである。このやり方で多くの試行が計算されたのち、 $\phi_i$ は[tex:]のそれらの勾配に沿って漸増的に更新される。

$\Delta\phi_i(x_m,y_m)=\eta_w\left<[I(x_n,y_m)-\hat{I}(x_n,y_m)]a_i\right>$ ・・・・(4)

ここで $\hat{I}$ は再構成された画像であり $\hat{I}(x_m,y_n)=\Bigsum_ia_i\phi_i(x_m,y_n)$ で、 $\eta_w$ は学習レートである。個々の基底ベクトル $\phi_i$ のベクトル長（ゲイン）は、個々の係数について等しい分散を維持するように時間に渡って適用される。
このシステムの、単純なネットワークとしての解釈が存在し、そこでは個々の出力ユニットの値 $a_i$ は、フィードフォワード入力項 $b_i$ と、再帰項 $\Bigsum_jC_{ij}a_j$ と、活動をゼロのほうに微分的に押す、非線形自己抑制項 $S'$ の組合せから決定される。次に出力値 $a_i$ は、再構成画像を生成するために $\phi_i$ によってフィードバックされ、重みは残留信号についてのヘブ学習を行うことで変化する。
自然の光景から抽出された12×12区画の画像でネットワークを訓練した結果を図4に示す。

図4。自然の光景から抽出した12×12区画の画像での訓練後に学習された144個の基底関数の集合。詳細は[15]*4に提供されている。これらの関数は、個々のユニットの出力に寄与するフィードフォワード重み付け関数を表現しており、よって、式3の再帰とスパース性の項もまた考慮に入れる必要があるのでユニットの「受領野」と厳密に等価ではない、ことに注意。個々のユニットの空間的応答を点で図示すると、同じ定性的構造を持つが、空間的に若干より制限された受容野が現れる。スパース性項の効果は個々のユニットを、自分が応答するものについてより「好みがうるさい」ようにするので、このことは予想されていた。

基底関数の大多数はよく局所化されている（例外は、より大きな空間範囲を占めている低周波関数である）。さらに関数は方向を持ちさまざまな空間周波数に分かれている。この結果は理にかなっている。というのはそれは、自然画像が局所化された方向を持った構造を含むという、先に示した事実をまさに反映しているからである。

*1:[2] Barlow HB (1989) Unsupervised learning. Neural Computation, 1: 295-311.

*2:原文「carry the load」

*3:原文「with no precedent」

*4:[15] Olshausen BA, Field DJ (1995) Sparse coding of natural images produces localized, oriented, bandpass receptive fields. Technical Report CCN-100-95, Dept. of Psychology, Cornell University. (Submitted to Nature.)

工場統計力学（建設中！）

自然画像統計と効率的符号化：オルスホーゼン、フィールド著（３）

３．スパース・コーディング