【计算机科学与技术】信息论笔记（6）：微分熵

200803本篇是学习信息论的入门笔记，希望能与各位分享进步！这是第六章：微分熵~

文章目录

6. 微分熵
- 6.1 定义
- 6.2 连续随机变量的AEP
- 6.3 微分熵与离散的关系
- 6.4 联合微分熵与条件微分熵
- 6.5 相对熵与互信息
- 6.6 微分熵、相对熵以及互信息的性质

6. 微分熵

6.1 定义

定义6.1.1 设XXX是一个随机变量，其累计分布函数为F(x)=Pr(X⩽x)F(x)=Pr(X\leqslant x)F(x)=Pr(X⩽x) 。如果F(x)F(x)F(x)连续，则称该随机变量连续。另外，使f(x)>0f(x)>0f(x)>0 的所有xxx构成的集合称为XXX的支撑集。
定义6.1.2(微分熵) 一个以f(x)f(x)f(x)为密度函数的连续型随机变量XXX的微分熵h(X)h(X)h(X)定义为

h(X)=−∫Sf(x)log⁡f(x)dxh(X) = - \int_S f(x)\log f(x)dx h(X)=−∫Sf(x)logf(x)dx

其中SSS是这个随机变量的支撑集。离散的熵
HΔx(X)=−∑i=−∞∞f(xiΔx)log⁡(f(xi)Δx)H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx(X)=−i=−∞∑∞f(xiΔx)log(f(xi)Δx)

定义微分熵的目的：微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。

6.2 连续随机变量的AEP

定理 6.2.1 设X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn是概率密度函数为p(x)p(x)p(x)的i.i.d随机序列，那么下面的极限依概率收敛−1nlog⁡p(X1,X2,...,Xn)→h(X)-\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X)−n1logp(X1,X2,...,Xn)→h(X)
定义6.2.1（体积） 集合A⊂RnA\sub R^nA⊂Rn的体积Vol(A)Vol(A)Vol(A)定义为：Vol(A)=∫Sdx1dx2...dxnVol(A) = \int_S dx_1 dx_2 ... dx_nVol(A)=∫Sdx1dx2...dxn。
定理6.2.2典型集Aε(n)A_\varepsilon^{(n)}Aε(n)有如下性质：
a. 当nnn充分大时，Pr{Aε(n)}>1−εPr\{A_\varepsilon^{(n)}\}>1-\varepsilonPr{Aε(n)}>1−ε；
b. 对于所有nnn，Vol(Aε(n))⩽2n(h(X)+ε)Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)}Vol(Aε(n))⩽2n(h(X)+ε)；
c. 当nnn充分大时，Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)}Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)。
定理8.2.3 在一阶指数意义下，在所有概率P⩾1−εP\geqslant 1-εP⩾1−ε的集合中，Aε(n)A_\varepsilon^{(n)}Aε(n)是体积最小者。
微分熵解释：熵就是拥有大部分概率的最小集的边长的对数值。因此，较低的熵意味着随机变量被限于一个狭小的有效正方体内，而较高的熵意味着该随机变量是高度分散的。

6.3 微分熵与离散的关系

定理6.3.1 如果随机变量XXX的密度函数f(x)f(x)f(x)是黎曼可积的，那么
HΔx(X)+log⁡Δx→h(f)=h(X),Δx→0H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx(X)+logΔx→h(f)=h(X),Δx→0

于是，连续随机变量XXX经过nnn比特量化处理(分割的小区间长度1/2n1/2^n1/2n后的熵大约为h(X)+nh(X)+nh(X)+n。

6.4 联合微分熵与条件微分熵

定义6.4.1 (联合微分熵) 联合密度函数为f(x1,x2,...,xn)f(x_1, x_2, ..., x_n)f(x1,x2,...,xn)的一组随机

变量X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn的联合微分熵定义为
h(X1,X2,...,Xn)=−∫f(xn)log⁡f(xn)dxnh(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxn

定义6.4.2 (条件微分熵) 联合密度函数为f(x,y)f(x, y)f(x,y)，条件微分熵定义为

h(X∣Y)=−∫f(x,y)log⁡f(x∣y)dxdyh(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy

定理6.4.1 (多元正态分布的熵) 设X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn服从均值为μμμ，协方差矩阵为KKK的多元正态分布则

h(X1,X2,...,Xn)=h(N(μ,K))=12log⁡((2πe)n∣K∣)h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1,X2,...,Xn)=h(N(μ,K))=21log((2πe)n∣K∣)

6.5 相对熵与互信息

互信息的一般形式：
可从随机变量的值域的有限分割的角度来定义互信息。设χ\chiχ为随机变量XXX的值域，P\mathcal{P}P为χ\chiχ的一个分割是指存在有限个不相交的集合PiP_iPi使得⋃iPi=x\bigcup_iP_i = x⋃iPi=x。XXX关于PPP的量化记为[X]P[X]_{\mathcal{P}}[X]P是定义如下的离散随机变量：
Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)
任何随机变量XXX与YYY间的互信息如下

I(X;Y)=sup⁡P,QI([X]P;[Y]Q)I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,QsupI([X]P;[Y]Q)

6.6 微分熵、相对熵以及互信息的性质

定理6.6.1（相对熵非负）：D(f∣∣g)⩾0D(f||g)\geqslant 0D(f∣∣g)⩾0，当且仅当∗f∗=∗g∗*f*=*g*∗f∗=∗g∗，几乎处处等号成立。
定理6.6.2 （微分熵的链式规则）：h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1})h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)。
定理6.6.3 （微分熵的平移不变性）：h(X+c)=h(X)h(X+c) = h(X)h(X+c)=h(X)。
定理6.6.4 （微分熵的倍加性）： h(aX)=h(X)+log∣a∣h(aX)=h(X)+log|a|h(aX)=h(X)+log∣a∣。
定理6.6.5 （随机向量微分熵的上界）：设随机向量x∈Rnx\in R^nx∈Rn的均值为零，协方差矩阵为K=EXXTK=EXX^TK=EXXT则
h(X)⩽12log⁡((2πe)n∣K∣)h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)⩽21log((2πe)n∣K∣)
当且仅当X∼N(0,K)X\sim N(0,K)X∼N(0,K)等号成立。
定理8.6.6 （估计误差与微分熵）：对任意随机变量X及其估计X^\hat{X}X^，
E(X−X^)2⩾12πee2h(X)E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(X−X^)2⩾2πe1e2h(X)
，其中等号成立的充分必要条件是X为高斯分布而X^\hat{X}X^为其均值。