オートエンコーダ(4)

出力信号を入力信号に最も近付けることが\sigma_w^2を最小にすることと同等である、というのはなぜでしょうか?
まず、出力信号を入力信号に最も近付けるということを定義しておきましょう。入力信号(x_i,y_i)を与えた時の出力信号を(x_i',y_i')で表します。二乗平均誤差Eを次の式で定義します。

  • E=\frac{1}{N}\Bigsum_{i=1}^N\left[(x_i'-x_i)^2+(y_i'-y_i)^2\right]・・・・(12)

そして、出力信号を入力信号に最も近付ける、というのはこのEを最小にすることであると定義します。これは点(x_i,y_i)と点(x_i',y_i')の距離の2乗を全データ(N個ある)に渡って平均したものと解釈することが出来ます。

さて、今考えているオートエンコーダの構成では、左の図のようにノードの数を入力層、中間層、出力層の順に2、1、2としています。入力層のデータ(x_i,y_i)を中間層のニューロンによって座標変換して(v_i,w_i)と変換した場合、中間層にはニューロンが1個しかないのでv_iw_iのどちらかしか表すことが出来ません。ここでは中間層がv_iを表しているとします。するとw_iは表すことが出来ないので一定の値で代用します。つまりaをある定数であるとして(v_i,w_i)(v_i,a)で表すことになります。


もちろん、(v_i,w_i)(v_i,a)は一致しません。その差はこの2点間の距離|w_i-a|で表されます。出力層のニューロンは座標の逆変換をします。本来ならば(v_i,w_i)を逆変換して(x_i,y_i)戻るはずが、(v_i,a)を逆変換することになるので(x_i,y_i)とは異なった値になります。これが出力層の出力信号(x_i',y_i')になります。では(x_i,y_i)(x_i',y_i')の距離を考えてみましょう。これは(v_i,w_i)(v_i,a)の間の距離に等しく、|w_i-a|となります。よって式(12)は

  • E=\frac{1}{N}\Bigsum_{i=1}^N(w_i-a)^2・・・・(13)

となります。まずEが最小になるように定数aを決めます。このためにはaw_iの平均\bar{w}にすればよいことが分かります。よって

  • E=\frac{1}{N}\Bigsum_{i=1}^N(w_i-\bar{w})^2・・・・(14)

となります。ところで式(14)の右辺は\sigma_w^2そのものです。よって

  • E=\sigma_w^2・・・・(15)

となります。よって、出力信号を入力信号に最も近付けることはEを最小にすることであり、さらにそれは\sigm_w^2を最小にすることと同等である、ことが分かります。