自然画像統計と効率的符号化:オルスホーゼン、フィールド著(2)

2.自然画像の構造

自然画像は局所化された、方向付けされた、周波数選択性のある、構造を含み、それは線形でペアワイズの相関によっては特徴づけ出来ない。自然画像の中の局所化された構造はフーリエ項でそれらの位相スペクトラムによって特徴づけられる。例えば、階段境界は画像内の非常に局所化されたイベントであるが、それは図2aに示すように、さまざまな空間周波数にわたって位置を合わせた位相を持っている。

図2a。自然画像内に発生する構造の3つの形。階段境界のような局所化された構造は位相が合わされたフーリエ要素を持つ。


しかし、線形ペアワイズ相関はパワースペクトラムのみを特徴づけるので、この位相整列については分からない。線や境界のような、画像内の方向のある構造は特徴付けするために少なくとも3点の統計が必要なので、これらもまたペアワイズ相関を逃れる。この事実を図2bの曲がりくねった線の画像で示す。類似のペアワイズ統計での画像の合成はその局所的な方向のある構造を捉えていないが、より高次の統計に基づく画像の合成はこの構造を捉えている。

図2b。自然画像内に発生する構造の3つの形。方向のある構造は、特徴づけのために少なくとも3点統計を必要とする。この事実を示すために、上に示す曲がりくねった線について2つのタイプを統計が収集された。8画素半径内の画素の全てのペアについての同時確率分布の収集は、下左の画像をもたらし、これは方向のある構造を反映していない。それに反して、1画素半径(3×3画素ブロック)内の9次元同時確率分布の収集は、下右の画像をもたらし、おれは局所的な方向のある構造を捉えることに成功している。画像の期待する確率分布と実際の確率分布の間のカルバック距離を小さくするようにビットを反転することで、画像は合成された。


自然の光景の周波数選択性のある構造は線形ペアワイズ統計で特徴づけることが出来ない。というのはそれもまた位相スペクトラムの知識を必要とするからである。自然画像内での曲がった、フラクタルのような境界の存在は、空間周波数において(図2aでのように完全に直線の境界を持つ大域的整列とは対照的に)局所的な位相整列を生み出す傾向がある。これを図2cに示す。この整列は、約1〜2オクターブの帯域幅を持つフィルタによって最もよく捉えられることをField(1989)が示した。

図2c。自然画像内に発生する構造の3つの形。周波数選択性構造は、曲がった、フラクタルのような境界は空間周波数に渡って(図2aでのように完全にまっすくな境界で起きる帯域整列とは対照的に)局所位相境界だけを持つために発生する。左のフラクタル輪郭についての「スケールスペース」(連続ウェーブレットでフィルタされた画像の堆積。4つの異なる方向で)を示す。さまざまな空間周波数帯域でのエネルギーが位置と方向で移行しているのが即座に見てとれる。


画像内のエネルギーの局所化されたコンパクトな分布は、それらが「スパース構造」*1を持つことを示唆している。つまり、任意の与えられた画像は、そこから選ぶずっと大きな集合から比較的少数の記述子によって表現出来る(図3a)。次に問うべき理にかなった質問は「もし画像コードのスパース性を最大にしたら何が起きるか?」である。

図3a。スパース・コーディング。画像は大きな集合からの少数の「アクティブな」係数a_iによって表現される。どの係数がアクティブであるかは画像によって変化する。


*1:[8] Field DJ (1994) What is the goal of sensory coding? Neural Computation, 6: 559-601.