情報量とエントロピー

情報量

情報量は、下記の2つの条件を満たすものとして定義する。
1. 発生する確率が低いことが分かった時のほうが情報量が多い
2. 情報量は足し算で増えていく
この条件を満たす情報量を以下のように定義できる。あることが分かった時の「そのことの情報量」を自己情報量と呼ぶ.
 i(x)=-log_2P(x)

平均情報量とエントロピー

ある物事について、どれほど知らないことがあるかという事を表すのが平均情報量である。
 H(X)=\displaystyle \sum_{i=1}^n-P(x_i)\times log_2P(x_i)
この「分からなさ」あるいは「不確実性」を情報エントロピーとも呼ぶ。
平均情報量=情報エントロピー
として定義される。

相対エントロピー

相対エントロピーは、カルバックライブラー(Kullback-Lebler)の情報量とも呼ばれる。
これは確率分布の差異を表す指標で、分布間擬距離とも呼ばれる。
あらかじめわかっている確率(リファレンスの確率)をP、評価したい確率をQとすると、相対エントロピーは下記のように定義できる。
 相対エントロピー=\displaystyle\sum_{i=1}^nQ_ilog_2\dfrac{Q_i}{P_i}
P=Qの場合は、相対エントロピーは0となります。

結合エントロピー

複数の事象を同時に知った時に得られる平均情報量を結合エントロピーという。
 H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=-\displaystyle\sum_{i=1}^{X_x}\displaystyle\sum_{j=1}^{M_Y}P(x_i,y_j)logP(x_i,y_j)

相互情報量

二つの確率変数の相互依存の尺度を表す指標である。
 I(X;Y)=\displaystyle\sum_{y\in Y}\displaystyle\sum_{x\in X}p(x,y)log\dfrac{p(x,y)}{p(x)p(y)}
連続変数なら、相和の代わりに定積分を用いる。
I(X;Y)を情報エントロピーで表すと以下になる。
 I(X;Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)

条件付きエントロピー

f:id:tibet:20220106224429p:plain
上記の図が参考になる。
条件付きエントロピーは、次のように表せる。
 H(X|Y)=H(X)-I(X,Y)=H(X,Y)-H(Y)

確率pで表現すると次のようになる。
 H(X|Y)=-\displaystyle\sum_y\left( \displaystyle\sum_xp(x,y)logp(x,y)-p(y)log(y)\right)
もしくは、
 H(X|Y)=-\sum_{x\in 0,1}\sum_{y\in 0,1}P(X=x|Y=y)P(Y=y)log(P(X=x\Y=y)