【计算机科学与技术】信息论笔记(6):微分熵
200803
本篇是学习信息论的入门笔记,希望能与各位分享进步!这是第六章:微分熵~
文章目录
- 6. 微分熵
- 6.1 定义
- 6.2 连续随机变量的AEP
- 6.3 微分熵与离散的关系
- 6.4 联合微分熵与条件微分熵
- 6.5 相对熵与互信息
- 6.6 微分熵、相对熵以及互信息的性质
6. 微分熵
6.1 定义
定义6.1.1 设XXX是一个随机变量,其累计分布函数为F(x)=Pr(X⩽x)F(x)=Pr(X\leqslant x)F(x)=Pr(X⩽x) 。如果F(x)F(x)F(x)连续,则称该随机变量连续。另外,使f(x)>0f(x)>0f(x)>0 的所有xxx构成的集合称为XXX的支撑集。
定义6.1.2(微分熵) 一个以f(x)f(x)f(x)为密度函数的连续型随机变量XXX的微分熵h(X)h(X)h(X)定义为
h(X)=−∫Sf(x)logf(x)dxh(X) = - \int_S f(x)\log f(x)dx h(X)=−∫Sf(x)logf(x)dx
其中SSS是这个随机变量的支撑集。离散的熵
HΔx(X)=−∑i=−∞∞f(xiΔx)log(f(xi)Δx)H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx(X)=−i=−∞∑∞f(xiΔx)log(f(xi)Δx)
- 定义微分熵的目的:微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。
6.2 连续随机变量的AEP
定理 6.2.1 设X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn是概率密度函数为p(x)p(x)p(x)的i.i.d随机序列,那么下面的极限依概率收敛−1nlogp(X1,X2,...,Xn)→h(X)-\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X)−n1logp(X1,X2,...,Xn)→h(X)
定义6.2.1(体积) 集合A⊂RnA\sub R^nA⊂Rn的体积Vol(A)Vol(A)Vol(A)定义为:Vol(A)=∫Sdx1dx2...dxnVol(A) = \int_S dx_1 dx_2 ... dx_nVol(A)=∫Sdx1dx2...dxn。
定理6.2.2典型集Aε(n)A_\varepsilon^{(n)}Aε(n)有如下性质:
a. 当nnn充分大时,Pr{Aε(n)}>1−εPr\{A_\varepsilon^{(n)}\}>1-\varepsilonPr{Aε(n)}>1−ε;
b. 对于所有nnn,Vol(Aε(n))⩽2n(h(X)+ε)Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)}Vol(Aε(n))⩽2n(h(X)+ε);
c. 当nnn充分大时,Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)}Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)。定理8.2.3 在一阶指数意义下, 在所有概率P⩾1−εP\geqslant 1-εP⩾1−ε的集合中,Aε(n)A_\varepsilon^{(n)}Aε(n)是体积最小者。
微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。
6.3 微分熵与离散的关系
定理6.3.1 如果随机变量XXX的密度函数f(x)f(x)f(x)是黎曼可积的,那么
HΔx(X)+logΔx→h(f)=h(X),Δx→0H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx(X)+logΔx→h(f)=h(X),Δx→0于是,连续随机变量XXX经过nnn比特量化处理(分割的小区间长度1/2n1/2^n1/2n后的熵大约为h(X)+nh(X)+nh(X)+n。
6.4 联合微分熵与条件微分熵
- 定义6.4.1 (联合微分熵) 联合密度函数为f(x1,x2,...,xn)f(x_1, x_2, ..., x_n)f(x1,x2,...,xn)的一组随机
变量X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn的联合微分熵定义为
h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxnh(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxn
- 定义6.4.2 (条件微分熵) 联合密度函数为f(x,y)f(x, y)f(x,y),条件微分熵定义为
h(X∣Y)=−∫f(x,y)logf(x∣y)dxdyh(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy
- 定理6.4.1 (多元正态分布的熵) 设X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn服从均值为μμμ,协方差矩阵为KKK的多元正态分布则
h(X1,X2,...,Xn)=h(N(μ,K))=12log((2πe)n∣K∣)h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1,X2,...,Xn)=h(N(μ,K))=21log((2πe)n∣K∣)
6.5 相对熵与互信息
互信息的一般形式:
可从随机变量的值域的有限分割的角度来定义互信息。设χ\chiχ为随机变量XXX的值域,P\mathcal{P}P为χ\chiχ的一个分割是指存在有限个不相交的集合PiP_iPi使得⋃iPi=x\bigcup_iP_i = x⋃iPi=x。XXX关于PPP的量化记为[X]P[X]_{\mathcal{P}}[X]P是定义如下的离散随机变量:
Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P=i)=Pr(X∈Pi)=∫PidF(x)任何随机变量XXX与YYY间的互信息如下
I(X;Y)=supP,QI([X]P;[Y]Q)I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,QsupI([X]P;[Y]Q)
6.6 微分熵、相对熵以及互信息的性质
定理6.6.1(相对熵非负):D(f∣∣g)⩾0D(f||g)\geqslant 0D(f∣∣g)⩾0,当且仅当∗f∗=∗g∗*f*=*g*∗f∗=∗g∗,几乎处处等号成立。
定理6.6.2 (微分熵的链式规则):h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1})h(X1,X2,...,Xn)=∑i=1nh(Xi∣X1,X2,...,Xi−1)。
定理6.6.3 (微分熵的平移不变性):h(X+c)=h(X)h(X+c) = h(X)h(X+c)=h(X)。
定理6.6.4 (微分熵的倍加性): h(aX)=h(X)+log∣a∣h(aX)=h(X)+log|a|h(aX)=h(X)+log∣a∣。
定理6.6.5 (随机向量微分熵的上界):设随机向量x∈Rnx\in R^nx∈Rn的均值为零,协方差矩阵为K=EXXTK=EXX^TK=EXXT则
h(X)⩽12log((2πe)n∣K∣)h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)⩽21log((2πe)n∣K∣)
当且仅当X∼N(0,K)X\sim N(0,K)X∼N(0,K)等号成立。定理8.6.6 (估计误差与微分熵):对任意随机变量X及其估计X^\hat{X}X^,
E(X−X^)2⩾12πee2h(X)E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(X−X^)2⩾2πe1e2h(X)
,其中等号成立的充分必要条件是X为高斯分布而X^\hat{X}X^为其均值。
【计算机科学与技术】信息论笔记(6):微分熵相关推荐
- 【计算机科学与技术】信息论笔记:合集
200804本篇是<信息论>的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦. 0.分章节目录 [计算机科学与技术]信息论笔记(1):熵.相对熵与互信息 [计算机科学与技术]信息论笔记 ...
- UA MATH636 信息论6 微分熵
UA MATH636 信息论6 微分熵 Differential Entropy Conditional Differential Entropy Differential Entropy of Ga ...
- 计算机科学与技术学习心得
1.本文集众前辈及恩师之经验于一文,由我执笔总结前辈所感而已.并非尽我所言,特别说明基于南京大学网友sir在南京大学小百合站点发表的文章<理论计算机科学漫谈>.<胡侃学习(理论)计算 ...
- 计算机科学与技术杂谈
计算机科学与技术杂谈 2008-08-18 11:13 [注]转载的文章,粗略看了看,觉得不错. 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上应用数学系已经有近三年了,自己也做了一些思考, ...
- 好文章 强烈推荐计算机专业的看,“计算机科学与技术学习心得”
计算机科学与技术学习心得 撰文 曾毅 声明: 1.本文集众前辈及恩师之经验于一文,由我执笔总结前辈所感而已.并非尽我所言,特别说明基于南京大学网友sir在南京大学小百合站点发表的文章<理论计算机 ...
- 现代计算机密码学阶段主要有两个方向,密码学技术读书笔记
关于密码学技术读书笔记 一.密码学的介绍 密码学(在西欧语文中,源于希腊语kryptós"隐藏的",和gráphein"书写")是研究如何隐密地传递信息的学科. ...
- 计算机科学与技术学习方法
本文转载于:www.baidu.com/p/浪淋淋 只为分享并无它意 计算机科学与技术反思录 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,我一直 ...
- 计算机科学与技术反思录
计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,我一直认为计算机科学与技术这门专业,在本科阶段是不可能切分成计算机科学和计算机技术的,因为计算机科学 ...
- 计算机科学与技术 转
计算机科学与技术学习心得(收藏) 2009-02-14 17:51 计算机科学与技术这一门科学深深的吸引着我们这些同学们,上计算机系已经有近三年了,自己也做了一些思考,零零星星的,今天先整理一部分,大 ...
最新文章
- Python装饰器的神奇功能:自动打印每个方法耗时
- Jmeter工具的使用——功能测试
- verdi显示状态机名字_如何写好状态机(三)
- js bom window对象
- websocket创建失败_SpringBoot2.2 实践WebSocket被不靠谱的百度搜索结果坑了多少人
- 查看linux4222端口,linux 内核 ALIGN 含义
- 如何在Slack里连接微软One Drive
- C++中,引用作为函数参数
- 安卓签名生成工具_ios app如何进行内测?ios app和安卓app的内测有何区别?
- json 取值判断_对应后台传json ajax 获取值判断
- [转载] python中字典中追加_python 中字典中的删除,pop 方法与 popitem 方法
- 下载频道岁末领任务~赚下载分~~活动开始啦!!!!
- 6个常用的Python编程开发工具
- 西威变频器avo下载调试资料_超能士变频器报输出缺相维修
- 局域网桌面共享软件(优化版)
- GPU架构和Compute Shader线程规划
- PAT_甲级 简单模拟
- PAT 1070 结绳
- MakerDAO亚洲区负责人王奇君:我的DAI很稳!
- 计算机错误提示声音,电脑报警提示音有哪些
热门文章
- java 最大递减数_先递增后递减数组查找最大值
- U盘启动,使用winpe安装win7的方法
- 让你的小米5纵享丝滑,可能是最快的小米5rom
- Linux LNMP源码架构部署 | Nginx服务 | Mysql服务 | php服务 | 论坛源码编译安装 | 超详细
- 网络无ip分配什么意思
- 基于JavaEE网上服装购物系统的设计与实现
- Power BI——CALCULATE函数(对列操作)
- iphone5信号无服务器,你的iPhone信号不好?那是因为你没有这样设置,设置后信号满格...
- Multisim教室空座信息查询系统仿真
- python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析