信息论(熵、条件熵、联合熵、互信息)
熵
熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0)。
H(X)=−∑x∈Xp(x)logp(x)(1)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}H(X)=−x∈X∑p(x)logp(x)(1)
抛硬币,抛到某一面的熵:H(X)=−12log12−12log12=1H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1H(X)=−21log21−21log21=1
掷骰子,掷到某一点的熵:H(Y)=−16log16−16log66...−16log16=log(6)H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6)H(Y)=−61log61−61log66...−61log61=log(6)
1<log(6)1<log(6)1<log(6)表明抛硬币比掷骰子的不确定性小,含有的信息量更小;从计算机存储的意义上来讲,如果用One-hot编码方式,记录抛硬币的结果需要用到1bit1bit1bit的编码长度,而记录掷骰子需要log(6)≈3bitlog(6)≈3bitlog(6)≈3bit的编码长度。熵是平均意义上对随机变量的最短编码长度。
对式(1)进行进一步的推导得到:H(X)=−∑x∈Xp(x)logp(x)=Ep(X)[log1p(X)](2)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2}H(X)=−x∈X∑p(x)logp(x)=Ep(X)[logp(X)1](2)
熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1的期望。
综上,熵有以下四个性质:
1. 熵描述一个随机变量的不确定性的大小;
2. 熵越大表明随机变量含有的信息量越大;
3. 熵是平均意义上对随机变量的最短编码长度;
4. 熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1的期望。
互信息
熵表示一个随机变量的信息量的大小,互信息用来表示两个随机变量之间共同含有的信息,互信息描述了随机变量之间更高阶的相关程度,相关系数只描述随机变量之间的线性相关程度。I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(3)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)(3)
其中p(x),p(y)p(x),p(y)p(x),p(y)为边缘分布,p(x,y)p(x, y)p(x,y)为联合分布;
对式(3)进一步推导得:I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(y)p(x∣y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(x∣y)p(x)=∑x∈X∑y∈Yp(x,y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈X∑y∈Yp(y)p(x∣y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈Xp(x∣y)logp(x∣y)(∑y∈Yp(y))−∑x∈Xlogp(x)(∑y∈Yp(x,y))=∑x∈Xp(x∣y)logp(x∣y)−∑x∈Xlogp(x)p(x)=H(X)−H(X∣Y)(4)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(y)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑y∈Y∑p(y)p(x∣y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑p(x∣y)logp(x∣y)(y∈Y∑p(y))−x∈X∑logp(x)(y∈Y∑p(x,y))=x∈X∑p(x∣y)logp(x∣y)−x∈X∑logp(x)p(x)=H(X)−H(X∣Y)(4)
根据式(4)可知,H(X)H(X)H(X)表示XXX含有的信息量,H(X∣Y)H(X|Y)H(X∣Y)表示知道事件Y后X含有的信息量。H(X)−H(X∣Y)H(X)-H(X|Y)H(X)−H(X∣Y)表示知道Y事件后,X含有信息量的减少量。
综上,互信息拥有以下的性质:
1. 互信息表示两个随机变量共同拥有的信息;
2. 互信息刻画了两个随机变量之间的相关性;
3. 互信息I(X;Y)I(X;Y)I(X;Y)表示知道Y事件后,X含有信息量的减少量;
4. 两个独立变量之间的互信息为0;
相对熵(KL散度)
互信息用来描述两个随机变量之间共同拥有的信息,相对熵用来量化两个随机变量的分布函数之间的差异程度,相对熵用于衡量两个分布之间的距离,相对熵越大,表明两个分布距离越远,相对熵为0,表示两分布相同。
D(p∣∣q)=∑x∈Xp(x)logp(x)q(x)(5)D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5}D(p∣∣q)=x∈X∑p(x)logq(x)p(x)(5)
其中q(x),p(x)q(x),p(x)q(x),p(x)表示两个概率密度函数。
互信息和相对熵之间的关系:I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)∣∣p(x)p(y))(6)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∣∣p(x)p(y))(6)
式(6)表明互信息描述联合分布p(x,y)p(x,y)p(x,y)与边缘分布之积p(x)p(y)p(x)p(y)p(x)p(y)的差异程度,如果差异程度为0,表示p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),也就是两个随机变量相互独立。
联合熵
联合熵用来表示X和Y一起发生时,产生的信息量。
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=Ep(x,y)[1p(x,y)](7)H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7}H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)=Ep(x,y)[p(x,y)1](7)
条件熵
条件熵H(X∣Y)H(X|Y)H(X∣Y)用来表示Y已经发生的前提下,再发生X所产生的信息量。
H(X∣Y)=−∑x∈X∑y∈Yp(x,y)logp(x∣y)=Ep(x,y)[1p(x∣y)](8)H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8}H(X∣Y)=−x∈X∑y∈Y∑p(x,y)logp(x∣y)=Ep(x,y)[p(x∣y)1](8)
联合熵和条件熵的关系
H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9}H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量,也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。
互信息和联合熵的关系
I(X;Y)=H(X)+H(Y)−H(X,Y)(10)I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10}I(X;Y)=H(X)+H(Y)−H(X,Y)(10)
信息论(熵、条件熵、联合熵、互信息)相关推荐
- 机器学习进阶(4):熵,联合熵,条件熵,互信息的推导和联系
文章目录 前言 熵 联合熵 条件熵 互信息 几种熵之间的关系 前言 机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...
- 信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)
数学基础:概率论乘法法则 两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...
- 【机器学习】信息论基础(联合熵、条件熵、交叉熵、KL散度等)+ Python代码实现
文章目录 一.基本概念 1.1 联合熵 1.2 条件熵 1.3 交叉熵 1.3.1 Python编程实现交叉熵计算 1.4相对熵(KL散度) 1.4.1 Python编程实现KL散度计算 二.自信息和 ...
- 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...
- 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
- 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...
- 一文理清楚:熵,条件熵,KL散度(相对熵),交叉熵,联合熵,信息增益,信息增益比,GINI系数
熵 熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...
- 详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系
信息量的定义 某事件发生的概率小,则该事件的信息量大. 定义随机变量 X X X的概率分布为P(X)" role="presentation" style="p ...
- 信息论常见概念:熵、互信息、KL散度和信息增益
文章目录 信息论在机器学习中的常见概念 1. 信息量 2. 熵 3. 联合熵 4. 条件熵 5. 相对熵 6. 互信息 7. 信息增益 公式与推导 信息论在机器学习中的常见概念 信息的不确定度表示. ...
- 决策树基础—比特化Bits,信息熵,条件熵,联合熵
决策树基础-比特化Bits,信息熵,条件熵,联合熵 比特化(Bits) 一般化的比特化 信息熵 条件熵 联合熵 知道了决策树的直观理解,接下来了解一些决策树要用到了知识 比特化(Bits) 假设我现在 ...
最新文章
- IIS 伪静态配置(安装ISAPI_Rewrite配置)
- elasticsearch api中的get操作
- 深入浅出 RPC - 浅出篇+深入篇
- 网站计数器 web映射
- [转] dpkg-deb命令
- 知识图谱入门视频(四)
- Ubuntu 加速安装Opencv 3.4.3
- CDH 和ambari之间的比较
- 有mysql文件怎么运行不了_MySQL安装常见问题(找不到文件,系统服务无法启动...)...
- 解决CentOS遇到Qt编译(error: cannot find -lGL)
- EL表达式+JSTL,forEach的两种用法
- Pannellum:实例之为全景图添加指南针
- iptables 防护基本 DDoS 配置
- 高级语言程序设计(C语言) 笔记整理
- Android App 免杀教程
- pdfbox创建pdf_使用PDFBox处理PDF文档(新建PDF文件、修改PDF文件、PDF中插入图片、将PDF文件转换为图片)...
- Android 静默安装的几种方式
- NOIP2002 产生数
- Python学习笔记(六) python-nmap下载及搭建
- Java集合这样子学习