カルバック・ライブラー情報量による確率分布の比較

最近仕事でカルバック・ライブラー情報量（Kullback-Leibler divergence）を利用して確率分布の比較を行いました。

この手法を知らなかったので、自分のためにまとめておきます。

目次非表示

カルバック・ライブラー情報量とは

KLダイバージェンスや情報利得とも呼ばれており、2つの確率分布の差異を計る尺度です。

真の確率分布(P)（観測や計算によって求められた確率分布）と、任意の確率分布(Q)（学習モデルによる出力など）の距離を計算することが可能です。

距離は、ある意味2つの確率分布(P)と(Q)の類似度として捉えることができます。

KL情報量は、離散分布に加えて、連続分布に対しても定義されています。

(P)と(Q)が離散分布のとき、KL情報量は下記で定義されます。

$$ latex D_{KL}(P||Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)} $$

(P)と(Q)が連続分布のとき、KL情報量は下記で定義されます。

$$ latex D_{KL}(P||Q) = \int_{-\infty}^{\infty} P(x) \log \frac{P(x)}{Q(x)}dx $$

基本的な特徴は3つあります。

１つ目は、(P)と(Q)が同じ分布のときは(D_{KL}(P||Q)=0)になること。

これは、式を見たらわかりますね。

２つ目は、(D_{KL}>0)を満たすこと。これも式をみたらわかります。

３つ目は、対称性がないことです。

つまり、(D_{KL}(P||Q) \neq (D_{KL}(Q||P))です。

３つ目の特徴も式を見たらわかるのですが、見落としがちかなと思います。

プログラムで利用するときには注意が必要な点だと思います。

すごい簡単にKL情報量についてまとめました。

まとめたというよりは、定義を書いたという感じですが、こういう指標があることを忘れないようにしたいと思います。