熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0)。
H(X)=−∑x∈Xp(x)logp(x)(1)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}H(X)=−x∈X∑​p(x)logp(x)(1)

抛硬币,抛到某一面的熵:H(X)=−12log12−12log12=1H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1H(X)=−21​log21​−21​log21​=1
掷骰子,掷到某一点的熵:H(Y)=−16log16−16log66...−16log16=log(6)H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6)H(Y)=−61​log61​−61​log66​...−61​log61​=log(6)
1<log(6)1<log(6)1<log(6)表明抛硬币比掷骰子的不确定性小,含有的信息量更小;从计算机存储的意义上来讲,如果用One-hot编码方式,记录抛硬币的结果需要用到1bit1bit1bit的编码长度,而记录掷骰子需要log(6)≈3bitlog(6)≈3bitlog(6)≈3bit的编码长度。熵是平均意义上对随机变量的最短编码长度

对式(1)进行进一步的推导得到:H(X)=−∑x∈Xp(x)logp(x)=Ep(X)[log1p(X)](2)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2}H(X)=−x∈X∑​p(x)logp(x)=Ep(X)​[logp(X)1​](2)
熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1​的期望
综上,熵有以下四个性质:
  1. 熵描述一个随机变量的不确定性的大小;
  2. 熵越大表明随机变量含有的信息量越大;
  3. 熵是平均意义上对随机变量的最短编码长度;
  4. 熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1​的期望。

互信息

熵表示一个随机变量的信息量的大小,互信息用来表示两个随机变量之间共同含有的信息,互信息描述了随机变量之间更高阶的相关程度,相关系数只描述随机变量之间的线性相关程度。I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(3)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3}I(X;Y)=x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(x,y)​(3)
其中p(x),p(y)p(x),p(y)p(x),p(y)为边缘分布,p(x,y)p(x, y)p(x,y)为联合分布;
对式(3)进一步推导得:I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(y)p(x∣y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(x∣y)p(x)=∑x∈X∑y∈Yp(x,y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈X∑y∈Yp(y)p(x∣y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈Xp(x∣y)logp(x∣y)(∑y∈Yp(y))−∑x∈Xlogp(x)(∑y∈Yp(x,y))=∑x∈Xp(x∣y)logp(x∣y)−∑x∈Xlogp(x)p(x)=H(X)−H(X∣Y)(4)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4}I(X;Y)=x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(x,y)​=x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(y)p(x∣y)​=x∈X∑​y∈Y∑​p(x,y)logp(x)p(x∣y)​=x∈X∑​y∈Y∑​p(x,y)logp(x∣y)−x∈X∑​y∈Y∑​p(x,y)logp(x)=x∈X∑​y∈Y∑​p(y)p(x∣y)logp(x∣y)−x∈X∑​y∈Y∑​p(x,y)logp(x)=x∈X∑​p(x∣y)logp(x∣y)(y∈Y∑​p(y))−x∈X∑​logp(x)(y∈Y∑​p(x,y))=x∈X∑​p(x∣y)logp(x∣y)−x∈X∑​logp(x)p(x)=H(X)−H(X∣Y)(4)
根据式(4)可知,H(X)H(X)H(X)表示XXX含有的信息量,H(X∣Y)H(X|Y)H(X∣Y)表示知道事件Y后X含有的信息量。H(X)−H(X∣Y)H(X)-H(X|Y)H(X)−H(X∣Y)表示知道Y事件后,X含有信息量的减少量。

综上,互信息拥有以下的性质:
  1. 互信息表示两个随机变量共同拥有的信息;
  2. 互信息刻画了两个随机变量之间的相关性;
  3. 互信息I(X;Y)I(X;Y)I(X;Y)表示知道Y事件后,X含有信息量的减少量;
  4. 两个独立变量之间的互信息为0;

相对熵(KL散度)

互信息用来描述两个随机变量之间共同拥有的信息,相对熵用来量化两个随机变量的分布函数之间的差异程度,相对熵用于衡量两个分布之间的距离,相对熵越大,表明两个分布距离越远,相对熵为0,表示两分布相同。
D(p∣∣q)=∑x∈Xp(x)logp(x)q(x)(5)D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5}D(p∣∣q)=x∈X∑​p(x)logq(x)p(x)​(5)
其中q(x),p(x)q(x),p(x)q(x),p(x)表示两个概率密度函数。
互信息和相对熵之间的关系:I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)∣∣p(x)p(y))(6)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6}I(X;Y)=x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(x,y)​=D(p(x,y)∣∣p(x)p(y))(6)
式(6)表明互信息描述联合分布p(x,y)p(x,y)p(x,y)与边缘分布之积p(x)p(y)p(x)p(y)p(x)p(y)的差异程度,如果差异程度为0,表示p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),也就是两个随机变量相互独立。

联合熵

联合熵用来表示X和Y一起发生时,产生的信息量。

H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=Ep(x,y)[1p(x,y)](7)H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7}H(X,Y)=−x∈X∑​y∈Y∑​p(x,y)logp(x,y)=Ep(x,y)​[p(x,y)1​](7)

条件熵

条件熵H(X∣Y)H(X|Y)H(X∣Y)用来表示Y已经发生的前提下,再发生X所产生的信息量。

H(X∣Y)=−∑x∈X∑y∈Yp(x,y)logp(x∣y)=Ep(x,y)[1p(x∣y)](8)H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8}H(X∣Y)=−x∈X∑​y∈Y∑​p(x,y)logp(x∣y)=Ep(x,y)​[p(x∣y)1​](8)

联合熵和条件熵的关系

H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9}H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量,也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。

互信息和联合熵的关系

I(X;Y)=H(X)+H(Y)−H(X,Y)(10)I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10}I(X;Y)=H(X)+H(Y)−H(X,Y)(10)

信息论(熵、条件熵、联合熵、互信息)相关推荐

  1. 机器学习进阶(4):熵,联合熵,条件熵,互信息的推导和联系

    文章目录 前言 熵 联合熵 条件熵 互信息 几种熵之间的关系 前言 机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...

  2. 信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)

    数学基础:概率论乘法法则 两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...

  3. 【机器学习】信息论基础(联合熵、条件熵、交叉熵、KL散度等)+ Python代码实现

    文章目录 一.基本概念 1.1 联合熵 1.2 条件熵 1.3 交叉熵 1.3.1 Python编程实现交叉熵计算 1.4相对熵(KL散度) 1.4.1 Python编程实现KL散度计算 二.自信息和 ...

  4. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  5. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  6. 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

  7. 一文理清楚:熵,条件熵,KL散度(相对熵),交叉熵,联合熵,信息增益,信息增益比,GINI系数

    熵 熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...

  8. 详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

    信息量的定义 某事件发生的概率小,则该事件的信息量大. 定义随机变量 X X X的概率分布为P(X)" role="presentation" style="p ...

  9. 信息论常见概念:熵、互信息、KL散度和信息增益

    文章目录 信息论在机器学习中的常见概念 1. 信息量 2. 熵 3. 联合熵 4. 条件熵 5. 相对熵 6. 互信息 7. 信息增益 公式与推导 信息论在机器学习中的常见概念 信息的不确定度表示. ...

  10. 决策树基础—比特化Bits,信息熵,条件熵,联合熵

    决策树基础-比特化Bits,信息熵,条件熵,联合熵 比特化(Bits) 一般化的比特化 信息熵 条件熵 联合熵 知道了决策树的直观理解,接下来了解一些决策树要用到了知识 比特化(Bits) 假设我现在 ...

最新文章

  1. IIS 伪静态配置(安装ISAPI_Rewrite配置)
  2. elasticsearch api中的get操作
  3. 深入浅出 RPC - 浅出篇+深入篇
  4. 网站计数器 web映射
  5. [转] dpkg-deb命令
  6. 知识图谱入门视频(四)
  7. Ubuntu 加速安装Opencv 3.4.3
  8. CDH 和ambari之间的比较
  9. 有mysql文件怎么运行不了_MySQL安装常见问题(找不到文件,系统服务无法启动...)...
  10. 解决CentOS遇到Qt编译(error: cannot find -lGL)
  11. EL表达式+JSTL,forEach的两种用法
  12. Pannellum:实例之为全景图添加指南针
  13. iptables 防护基本 DDoS 配置
  14. 高级语言程序设计(C语言) 笔记整理
  15. Android App 免杀教程
  16. pdfbox创建pdf_使用PDFBox处理PDF文档(新建PDF文件、修改PDF文件、PDF中插入图片、将PDF文件转换为图片)...
  17. Android 静默安装的几种方式
  18. NOIP2002 产生数
  19. Python学习笔记(六) python-nmap下载及搭建
  20. Java集合这样子学习

热门文章

  1. web前端之千牛网首页仿写
  2. 尚硅谷2020最新版宋红康JVM教程-16-垃圾回收相关概念
  3. PHP输出缓冲(Output Buffering)
  4. 如何使用计算机自动筛选功能,如何设置自动筛选,如何设置自动筛选条件
  5. 《pr相关资源教程》
  6. IDEA 常用插件及阿里注释和格式化模板
  7. 企业中台最佳实践--阿里业务中台最佳实践(八)
  8. 【微服务】Day03(Nacos心跳机制、cart,stock项目业务、Dubbo概述)
  9. 一分钟读懂阿里云产品:ECS概述
  10. 导出CSV文件打开乱码