转:http://ziketang.com/2013/08/some-notions-about-entropy/

关于这些概念看过很多次了,但一直都记不住,索性用笔记形式记下来备查吧。

1. 熵Entropy

关于熵的基本概念就不说了,可以认为是用来描述随机变量的不确定性,也可以说是用来描述随机变量平均信息量(信息量用编码长度表示,熵即为编码长度的期望形式)。公式如下:

H(X)=−∑x∈Xp(x)logap(x)

当 a=2时,即熵的单位为比特。可以看到,当有必然事件 p(x)=1发生时,熵值达到最小值0;当所有概率均相等时,熵值达到最大。

2. 联合熵Joint Entropy、条件熵Conditional Entropy

设X,Y是两个离散型随机变量,它们的联合分布密度为p(x,y),则X和Y的联合熵定义为:

H(X,Y)=−∑x∈X,y∈Yp(x,y)logp(x,y)

条件熵定义为:

H(Y|X)=−∑x∈Xp(x)H(Y|X=x)=−∑x∈Xp(x)⎡⎣∑y∈Yp(y|x)logp(y|x)⎤⎦=−∑x∈X,y∈Yp(x,y)logp(y|x)

3. 互信息Mutual Information

根据以上的定义,有链式规则:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

证明如下:

H(X)+H(Y|X)=−∑x∈Xp(x)logp(x)–∑x∈X,y∈Yp(x,y)logp(y|x)=−∑x∈X,y∈Yp(x,y)logp(x)–∑x∈X,y∈Yp(x,y)logp(y|x)=–∑x∈X,y∈Yp(x,y)logp(x,y)=H(X,Y)

同理交换 X和 Y则可证明 H(X,Y)=H(Y)+H(X|Y)。
同时,根据链式规则可推导出互信息的定义:

MI(X,Y)=H(X)–H(X|Y)=H(Y)–H(Y|X)

根据定义,可推导出:

MI(X,Y)=H(X)–H(X|Y)=–∑x∈Xp(x)logp(x)+∑x∈X,y∈Yp(x,y)logp(x|y)=−∑x∈X,y∈Yp(x,y)logp(x)+∑x∈X,y∈Yp(x,y)logp(x|y)=–∑x∈X,y∈Yp(x,y)logp(x)p(x|y)=–∑x∈X,y∈Yp(x,y)logp(x)p(y)p(x,y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)

互信息用来描述包含在X中有关Y的信息量,或包含在Y中有关X的信息量,在形式上可理解为在确定了其中的 Y后 X的熵值保留。

根据互信息,可以来判定相关性:
– 当MI(X,Y)>>0时,X和Y高度相关;
– 当MI(X,Y)=0时,X和Y相互独立;
– 当MI(X,Y)<<0时,X和Y互补相关。

上面的定义均可以表达在Venn韦恩图中:

两个集合A,B,其中A代表H(X),B代表H(Y),交集为MI(X,Y),并集为H(X,Y)。

4. 交叉熵Cross Entropy

设随机变量X的分布密度为p(x),在很多情况下该密度是未知的,通过使用统计手段得到X的近似分布q(x),则将随机变量X的交叉熵定义为:

H(X,q)=–∑x∈Xp(x)logq(x)

形式上可以理解为使用 q(x)来代替原来 p(x)的信息量。

5. 相对熵Relative Entropy

设p(x)、q(x)是随机变量X的两个不同分布密度,则它们的相对熵定义为:

D(p||q)=∑x∈Xp(x)logp(x)q(x)=∑x∈Xp(x)logp(x)–∑x∈Xp(x)logq(x)=H(X,q)–H(q)

相对熵一般也称为Kullback-Leibler散度或Kullback-Leibler距离,可以用来度量一个随机变量不同分布的差异程度,描述了因为错用分布密度而增加的信息量。

参考:

[1] 常宝宝, 熵和语言模型评价, 北京大学计算语言学研究所, http://www.icl.pku.edu.cn/member/chbb/lecture/CL/Computational_Linguistics_04.pdf

====更正===

2014-03-29 互信息与相关性的关系错误,该处在参考P11页中应为点互信息。正确的互信息与相关性关系:当相关性为+/-1时,互信息趋于无穷;当相关性为0时,互信息为0。感谢@pbqy网友指正

熵、条件熵、互信息等概念相关推荐

  1. 信息论常见概念:熵、互信息、KL散度和信息增益

    文章目录 信息论在机器学习中的常见概念 1. 信息量 2. 熵 3. 联合熵 4. 条件熵 5. 相对熵 6. 互信息 7. 信息增益 公式与推导 信息论在机器学习中的常见概念 信息的不确定度表示. ...

  2. 自信息/熵/联合熵/条件熵/相对熵/交叉熵/互信息及其相互之间的关系

    [深度学习基础]:信息论(一)_自信息/熵/联合熵/条件熵/相对熵/交叉熵/互信息及其相互之间的关系_bqw的博客-CSDN博客 详解机器学习中的熵.条件熵.相对熵和交叉熵 - 遍地胡说 - 博客园

  3. 直观理解信息论概念(条件熵,联合熵,互信息,条件互信息)

    1.概括图 其中:A=I(x;y|z),B=I(x;z|y),C=I(y;z|x),D=I(x;y;z) 这里不难看出以下几点结论. 一.在某个条件下,意味着已知这部分条件的信息,在计算条件熵(熵即不 ...

  4. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  5. 熵、条件熵、联合熵、互信息的理解

    熵 在信息论中,熵(entropy)是表示随机变量不确定性的度量,如果一个事件是必然发生的,那么他的不确定度为0,不包含信息.假设 X X X是一个取有限个值的离散随机变量,其概率分布为: P ( X ...

  6. 信息熵、条件熵、联合熵、互信息和条件互信息

    目录 1. 信息熵 2. 联合熵 3. 条件熵 4. 互信息 5. 条件互信息 6. 参考文章 1. 信息熵 信息熵是用于度量信息量大小的指标. 设 XXX 是一个随机变量,则 XXX 的信息熵定义为 ...

  7. 信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

    文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...

  8. 信息论(熵、条件熵、联合熵、互信息)

    熵 熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0). H(X)=−∑x∈Xp(x)logp(x)(1 ...

  9. 信息量,熵,互信息,信道容量等相关概念

    读论文时,发现关于信息论一无所知的样子,基本概念十分混淆,下面是一些基本概念及对应的理解~ 文章目录 一. 信息量 二. 熵 三. 联合熵 四. 条件熵 五. 互信息 六. 信道容量 一. 信息量 1 ...

  10. 我理解的信息论——自信息、熵、互信息

    原文:http://blog.sina.com.cn/s/blog_5fc770cd0100ia5k.html 信息论    信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取.传输. ...

最新文章

  1. MySQL8——源码安装
  2. 【模板】树状数组 2
  3. linux如何设置awesome字体,Awesome简单配置
  4. 学生生涯---真的就这样逝去了!后悔已不足以!
  5. boost::fusion::front_extended_deque用法的测试程序
  6. 为什么你的提问没人解答?
  7. 【codevs1068】乌龟棋noip10年TG----第二个A掉的钻石题
  8. html 显图片宽度100,HTML – 如何显示内联几个 100%宽度?
  9. 【基础处理】基于matlab语音信号预处理【含Matlab源码 364期】
  10. Vim快捷键(四):Vim查找与替换
  11. 线性反馈移位寄存器(LFSR)-非线性反馈移位寄存器的verilog实现(产生伪随机数)...
  12. 用c#实现 catia插件speos的部分功能
  13. vs离线安装Qt开发插件vsix
  14. Linux 知识地图
  15. Wi-Fi环境下基于注意力机制及深度学习的鲁棒被动感知技术
  16. UNIX 系统家族树的详细历史(图)
  17. 【ceph】Ceph 存储中 PGMap、OSDMap 和xxMap
  18. RabbitMQ初步到精通-第十章-RabbitMQ之Spring客户端源码
  19. AI视频超分升级版,720P转4K效果更赞!
  20. PIC10F200单片机编程总结-0

热门文章

  1. Spring Data JPA整合Redis缓存的配置
  2. 升级 Xcode 4.3 后找不到 xcodebuild 的解决方法
  3. 马哥Linux培训第二周课程作业
  4. zabbix监控系统的实际应用(客户端安装-基本应用设置-报警提醒篇)
  5. 软件项目版本号命名规则
  6. MySQL federated引擎试验
  7. 3月5日 灭点身高测量,点线齐次坐标表示,交点计算,无穷远处的点线,平移旋转的理解
  8. Spring Cloud消息驱动整合
  9. 浅谈Mysql 表设计规范(转)
  10. 初探单点登录 SSO