200803本篇是学习信息论的入门笔记,希望能与各位分享进步!这是第六章:微分熵~

文章目录

  • 6. 微分熵
    • 6.1 定义
    • 6.2 连续随机变量的AEP
    • 6.3 微分熵与离散的关系
    • 6.4 联合微分熵与条件微分熵
    • 6.5 相对熵与互信息
    • 6.6 微分熵、相对熵以及互信息的性质

6. 微分熵

6.1 定义

  • 定义6.1.1 设XXX是一个随机变量,其累计分布函数为F(x)=Pr(X⩽x)F(x)=Pr(X\leqslant x)F(x)=Pr(X⩽x) 。如果F(x)F(x)F(x)连续,则称该随机变量连续。另外,使f(x)>0f(x)>0f(x)>0 的所有xxx构成的集合称为XXX的支撑集

  • 定义6.1.2(微分熵) 一个以f(x)f(x)f(x)为密度函数的连续型随机变量XXX的微分熵h(X)h(X)h(X)定义为

h(X)=−∫Sf(x)log⁡f(x)dxh(X) = - \int_S f(x)\log f(x)dx h(X)=−∫S​f(x)logf(x)dx

其中SSS是这个随机变量的支撑集。离散的熵
HΔx(X)=−∑i=−∞∞f(xiΔx)log⁡(f(xi)Δx)H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx​(X)=−i=−∞∑∞​f(xi​Δx)log(f(xi​)Δx)

  • 定义微分熵的目的:微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。

6.2 连续随机变量的AEP

  • 定理 6.2.1 设X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​是概率密度函数为p(x)p(x)p(x)的i.i.d随机序列,那么下面的极限依概率收敛−1nlog⁡p(X1,X2,...,Xn)→h(X)-\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X)−n1​logp(X1​,X2​,...,Xn​)→h(X)

  • 定义6.2.1(体积) 集合A⊂RnA\sub R^nA⊂Rn的体积Vol(A)Vol(A)Vol(A)定义为:Vol(A)=∫Sdx1dx2...dxnVol(A) = \int_S dx_1 dx_2 ... dx_nVol(A)=∫S​dx1​dx2​...dxn​。

  • 定理6.2.2典型集Aε(n)A_\varepsilon^{(n)}Aε(n)​有如下性质:
    a. 当nnn充分大时,Pr{Aε(n)}>1−εPr\{A_\varepsilon^{(n)}\}>1-\varepsilonPr{Aε(n)​}>1−ε;
    b. 对于所有nnn,Vol(Aε(n))⩽2n(h(X)+ε)Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)}Vol(Aε(n)​)⩽2n(h(X)+ε);
    c. 当nnn充分大时,Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)}Vol(Aε(n)​)⩾(1−ε)2n(h(X)−ε)。

  • 定理8.2.3 在一阶指数意义下, 在所有概率P⩾1−εP\geqslant 1-εP⩾1−ε的集合中,Aε(n)A_\varepsilon^{(n)}Aε(n)​是体积最小者。

  • 微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。

6.3 微分熵与离散的关系

  • 定理6.3.1 如果随机变量XXX的密度函数f(x)f(x)f(x)是黎曼可积的,那么
    HΔx(X)+log⁡Δx→h(f)=h(X),Δx→0H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx​(X)+logΔx→h(f)=h(X),Δx→0

    于是,连续随机变量XXX经过nnn比特量化处理(分割的小区间长度1/2n1/2^n1/2n后的熵大约为h(X)+nh(X)+nh(X)+n。

6.4 联合微分熵与条件微分熵

  • 定义6.4.1 (联合微分熵) 联合密度函数为f(x1,x2,...,xn)f(x_1, x_2, ..., x_n)f(x1​,x2​,...,xn​)的一组随机

变量X1,X2,...,XnX_1, X_2, ..., X_nX1​,X2​,...,Xn​的联合微分熵定义为
h(X1,X2,...,Xn)=−∫f(xn)log⁡f(xn)dxnh(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1​,X2​,...,Xn​)=−∫f(xn)logf(xn)dxn

  • 定义6.4.2 (条件微分熵) 联合密度函数为f(x,y)f(x, y)f(x,y),条件微分熵定义为

h(X∣Y)=−∫f(x,y)log⁡f(x∣y)dxdyh(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy

  • 定理6.4.1 (多元正态分布的熵) 设X1,X2,...,XnX_1, X_2, ..., X_nX1​,X2​,...,Xn​服从均值为μμμ,协方差矩阵为KKK的多元正态分布则

h(X1,X2,...,Xn)=h(N(μ,K))=12log⁡((2πe)n∣K∣)h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1​,X2​,...,Xn​)=h(N(μ,K))=21​log((2πe)n∣K∣)

6.5 相对熵与互信息

  • 互信息的一般形式:

  • 可从随机变量的值域的有限分割的角度来定义互信息。设χ\chiχ为随机变量XXX的值域,P\mathcal{P}P为χ\chiχ的一个分割是指存在有限个不相交的集合PiP_iPi​使得⋃iPi=x\bigcup_iP_i = x⋃i​Pi​=x。XXX关于PPP的量化记为[X]P[X]_{\mathcal{P}}[X]P​是定义如下的离散随机变量:
    Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P​=i)=Pr(X∈Pi​)=∫Pi​​dF(x)

  • 任何随机变量XXX与YYY间的互信息如下

I(X;Y)=sup⁡P,QI([X]P;[Y]Q)I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,Qsup​I([X]P​;[Y]Q​)

6.6 微分熵、相对熵以及互信息的性质

  • 定理6.6.1(相对熵非负):D(f∣∣g)⩾0D(f||g)\geqslant 0D(f∣∣g)⩾0,当且仅当∗f∗=∗g∗*f*=*g*∗f∗=∗g∗,几乎处处等号成立。

  • 定理6.6.2 (微分熵的链式规则):h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1})h(X1​,X2​,...,Xn​)=∑i=1n​h(Xi​∣X1​,X2​,...,Xi−1​)。

  • 定理6.6.3 (微分熵的平移不变性):h(X+c)=h(X)h(X+c) = h(X)h(X+c)=h(X)。

  • 定理6.6.4 (微分熵的倍加性): h(aX)=h(X)+log∣a∣h(aX)=h(X)+log|a|h(aX)=h(X)+log∣a∣。

  • 定理6.6.5 (随机向量微分熵的上界):设随机向量x∈Rnx\in R^nx∈Rn的均值为零,协方差矩阵为K=EXXTK=EXX^TK=EXXT则
    h(X)⩽12log⁡((2πe)n∣K∣)h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)⩽21​log((2πe)n∣K∣)
    当且仅当X∼N(0,K)X\sim N(0,K)X∼N(0,K)等号成立。

  • 定理8.6.6 (估计误差与微分熵):对任意随机变量X及其估计X^\hat{X}X^,
    E(X−X^)2⩾12πee2h(X)E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(X−X^)2⩾2πe1​e2h(X)
    ,其中等号成立的充分必要条件是X为高斯分布而X^\hat{X}X^为其均值。

【计算机科学与技术】信息论笔记(6):微分熵相关推荐

  1. 【计算机科学与技术】信息论笔记:合集

    200804本篇是<信息论>的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦. 0.分章节目录 [计算机科学与技术]信息论笔记(1):熵.相对熵与互信息 [计算机科学与技术]信息论笔记 ...

  2. UA MATH636 信息论6 微分熵

    UA MATH636 信息论6 微分熵 Differential Entropy Conditional Differential Entropy Differential Entropy of Ga ...

  3. 计算机科学与技术学习心得

    1.本文集众前辈及恩师之经验于一文,由我执笔总结前辈所感而已.并非尽我所言,特别说明基于南京大学网友sir在南京大学小百合站点发表的文章<理论计算机科学漫谈>.<胡侃学习(理论)计算 ...

  4. 计算机科学与技术杂谈

    计算机科学与技术杂谈 2008-08-18 11:13 [注]转载的文章,粗略看了看,觉得不错. 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上应用数学系已经有近三年了,自己也做了一些思考, ...

  5. 好文章 强烈推荐计算机专业的看,“计算机科学与技术学习心得”

    计算机科学与技术学习心得 撰文 曾毅 声明: 1.本文集众前辈及恩师之经验于一文,由我执笔总结前辈所感而已.并非尽我所言,特别说明基于南京大学网友sir在南京大学小百合站点发表的文章<理论计算机 ...

  6. 现代计算机密码学阶段主要有两个方向,密码学技术读书笔记

    关于密码学技术读书笔记 一.密码学的介绍 密码学(在西欧语文中,源于希腊语kryptós"隐藏的",和gráphein"书写")是研究如何隐密地传递信息的学科. ...

  7. 计算机科学与技术学习方法

    本文转载于:www.baidu.com/p/浪淋淋 只为分享并无它意 计算机科学与技术反思录 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,我一直 ...

  8. 计算机科学与技术反思录

    计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,我一直认为计算机科学与技术这门专业,在本科阶段是不可能切分成计算机科学和计算机技术的,因为计算机科学 ...

  9. 计算机科学与技术 转

    计算机科学与技术学习心得(收藏) 2009-02-14 17:51 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,零零星星的,今天先整理一部分,大 ...

最新文章

  1. Python装饰器的神奇功能:自动打印每个方法耗时
  2. Jmeter工具的使用——功能测试
  3. verdi显示状态机名字_如何写好状态机(三)
  4. js bom window对象
  5. websocket创建失败_SpringBoot2.2 实践WebSocket被不靠谱的百度搜索结果坑了多少人
  6. 查看linux4222端口,linux 内核 ALIGN 含义
  7. 如何在Slack里连接微软One Drive
  8. C++中,引用作为函数参数
  9. 安卓签名生成工具_ios app如何进行内测?ios app和安卓app的内测有何区别?
  10. json 取值判断_对应后台传json ajax 获取值判断
  11. [转载] python中字典中追加_python 中字典中的删除,pop 方法与 popitem 方法
  12. 下载频道岁末领任务~赚下载分~~活动开始啦!!!!
  13. 6个常用的Python编程开发工具
  14. 西威变频器avo下载调试资料_超能士变频器报输出缺相维修
  15. 局域网桌面共享软件(优化版)
  16. GPU架构和Compute Shader线程规划
  17. PAT_甲级 简单模拟
  18. PAT 1070 结绳
  19. MakerDAO亚洲区负责人王奇君:我的DAI很稳!
  20. 计算机错误提示声音,电脑报警提示音有哪些

热门文章

  1. java 最大递减数_先递增后递减数组查找最大值
  2. U盘启动,使用winpe安装win7的方法
  3. 让你的小米5纵享丝滑,可能是最快的小米5rom
  4. Linux LNMP源码架构部署 | Nginx服务 | Mysql服务 | php服务 | 论坛源码编译安装 | 超详细
  5. 网络无ip分配什么意思
  6. 基于JavaEE网上服装购物系统的设计与实现
  7. Power BI——CALCULATE函数(对列操作)
  8. iphone5信号无服务器,你的iPhone信号不好?那是因为你没有这样设置,设置后信号满格...
  9. Multisim教室空座信息查询系统仿真
  10. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析