2017-04-09

出力信号を入力信号に最も近付けることが $\sigma_w^2$ を最小にすることと同等である、というのはなぜでしょうか？
まず、出力信号を入力信号に最も近付けるということを定義しておきましょう。入力信号 $(x_i,y_i)$ を与えた時の出力信号を $(x_i',y_i')$ で表します。二乗平均誤差 $E$ を次の式で定義します。

$E=\frac{1}{N}\Bigsum_{i=1}^N\left[(x_i'-x_i)^2+(y_i'-y_i)^2\right]$ ・・・・(12)

そして、出力信号を入力信号に最も近付ける、というのはこの $E$ を最小にすることであると定義します。これは点 $(x_i,y_i)$ と点 $(x_i',y_i')$ の距離の２乗を全データ（ $N$ 個ある）に渡って平均したものと解釈することが出来ます。

さて、今考えているオートエンコーダの構成では、左の図のようにノードの数を入力層、中間層、出力層の順に２、１、２としています。入力層のデータ $(x_i,y_i)$ を中間層のニューロンによって座標変換して $(v_i,w_i)$ と変換した場合、中間層にはニューロンが１個しかないので $v_i$ か $w_i$ のどちらかしか表すことが出来ません。ここでは中間層が $v_i$ を表しているとします。すると $w_i$ は表すことが出来ないので一定の値で代用します。つまり $a$ をある定数であるとして $(v_i,w_i)$ を $(v_i,a)$ で表すことになります。

もちろん、 $(v_i,w_i)$ と $(v_i,a)$ は一致しません。その差はこの２点間の距離 $|w_i-a|$ で表されます。出力層のニューロンは座標の逆変換をします。本来ならば $(v_i,w_i)$ を逆変換して $(x_i,y_i)$ 戻るはずが、 $(v_i,a)$ を逆変換することになるので $(x_i,y_i)$ とは異なった値になります。これが出力層の出力信号 $(x_i',y_i')$ になります。では $(x_i,y_i)$ と $(x_i',y_i')$ の距離を考えてみましょう。これは $(v_i,w_i)$ と $(v_i,a)$ の間の距離に等しく、 $|w_i-a|$ となります。よって式(12)は