信息论起源于解决通信问题,标志性论著是香农的《通信的数学原理》。随着信息技术的发展,信息论思想不断用于机器学习和数据处理领域,解决数据分析问题。
熵是信息论中最重要和基础的概念,是概率分布的泛函,表示随机变量不确定性的大小,即假设某随机变量的概率密度为
p(x)
,则信息熵表示为
H(p)
。信息技术中经常使用的熵有下列几种:
1.自信息
自信息表示随机变量
X
某个取值
xi
的不确定性大小,与概率
p(xi)
有紧密的联系:
p(xi)
越大,
xi
的不确定性越小,反之,
xi
的不确定性越小。故
xi
的自信息
I(xi)
定义为:
I(xi)=log1p(xi)=?logp(xi)
。自信息只能衡量单个取值的不确定性大小。
2.信息熵
信息熵
H(p)
定义为随机变量的平均自信息,即平均不确定性,反应整个分布的不确定性大小。
H(X)=?∫p(x)logp(x)dx
3. 条件熵
因为
H(Y|xi)=?∫p(y|xi)logp(y|xi)dy
,所以条件熵
H(Y|X)
定义为:
H(Y|X)=?∫∫p(x)p(y|x)logp(y|x)dydx=?∫∫p(x,y)logp(y|x)dydx
4. 互信息
随机变量
X
取值
ai
和
Y
的取值
bj
的互信息
I(ai,bj)
表示
X=bj
条件加入前后不确定性的减少,即加入条件
X=bj
后获得的信息量。定义为:
I(ai;bj)=log1p(ai)?log1p(ai|bj)=logp(ai|bj)p(ai)
5.平均互信息
平均互信息
I(X;Y)
反应两个随机变量
X
和
Y
的整体互信息,定义为:
I(X;Y)=∑X,Yp(xy)I(x;y))=∑X,Yp(xy)logp(x|y)p(x)=∑X,YP(xy)log1p(x)?∑X,Yp(xy)log1p(x|y)=∑Xp(x)log1p(x)∑Yp(y|x)?∑X,Yp(xy)log1p(x|y)=∑Xp(x)log1p(x)?∑X,Yp(xy)log1p(x|y)=H(X)?H(X|Y)
6.交叉熵
H(p;q)=-
∫p(x)logq(x)dx
7.相对熵
相对熵
D(p||q)
又称Kullback-Leibler divergence,即
KL
离差,表示两个随机变量分布相差多少
D(p||q)
=-
∫p(x)logq(x)dx?(?∫p(x)logp(x)dx)
=H(p)+H(p;q)=-
∫p(x)logq(x)p(x)dx
相对熵比交叉熵大
H(p)