カルバック・ライブラー情報量
ディープラーニングを勉強していてカルバック・ライブラー情報量なるものが登場したので、自分のためのメモとしてアップします。
カルバック・ライブラー情報量は、確率分布に対して、別の確率分布がどの程度差異があるかを示す量です。離散的な確率分布についてのカルバック・ライブラー情報量は以下のように定義されます。
ここで、はそれぞれ確率分布、において、値がである確率を表します。が成り立ちます。また、となるのは、、すなわち分布とが完全に一致する時のみです。
であり、となるのは、の時のみであることの証明。
自然対数を考えると、任意のについて
- ・・・・(1)
が成り立ちます。そして、等号が成り立つのは、の時のみです。であるようなについて
- ・・・・(2)
と置くと(1)から、
- ・・・・(3)
ここでであるようなの集合をとすると、であるような任意のについて式(3)が成り立つので、
ここで
なので
さらに
- ・・・・(4)
なので
よって
よって
- ・・・・(5)
ここでであるようなについての和
を考えると、の時にはなので
- ・・・・(6)
式(5)(6)の両辺を足すと
- ・・・・(7)
任意の数の自然対数と2を底とする対数の間には
の関係があるので式(7)から
が成り立ちます。よって
- ・・・・(8)
を証明することが出来ました。
次に、式(8)で等号が成り立つ条件ですが、式(8)で等号が成り立つためには、まず式(1)ででなければならないので、式(2)からであるような任意のについてでなければなりません。さらに、式(4)において
- ・・・・(9)
でなければなりません。一方、
なので式(9)から、
になります。よってがゼロ以上であることを考慮すれば、であるような任意のについてでなければならなくなります。一方、の定義から、であるような任意のについてであるので、結局の場合であれの場合であれ、全てのについてでなければなりません。つまり式(8)で等号が成り立つためには、全てのについてでなければならないことが分かります。
これでとなるのは、の時のみであることが証明されました。