熵

熵用于描述一个随机变量的不确定性的大小，熵越大说明该随机变量的不确定性增加，包含的信息量越大（越是确定的事件所含有的信息量越小，必然事件的熵为0）。
H(X)=−∑x∈Xp(x)logp(x)(1)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}H(X)=−x∈X∑p(x)logp(x)(1)

抛硬币,抛到某一面的熵：H(X)=−12log12−12log12=1H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1H(X)=−21log21−21log21=1
掷骰子，掷到某一点的熵：H(Y)=−16log16−16log66...−16log16=log(6)H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6)H(Y)=−61log61−61log66...−61log61=log(6)
1<log(6)1<log(6)1<log(6)表明抛硬币比掷骰子的不确定性小，含有的信息量更小；从计算机存储的意义上来讲，如果用One-hot编码方式，记录抛硬币的结果需要用到1bit1bit1bit的编码长度，而记录掷骰子需要log(6)≈3bitlog(6)≈3bitlog(6)≈3bit的编码长度。熵是平均意义上对随机变量的最短编码长度。

对式（1）进行进一步的推导得到：H(X)=−∑x∈Xp(x)logp(x)=Ep(X)[log1p(X)](2)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2}H(X)=−x∈X∑p(x)logp(x)=Ep(X)[logp(X)1](2)
熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1的期望。
综上，熵有以下四个性质：
1. 熵描述一个随机变量的不确定性的大小；
2. 熵越大表明随机变量含有的信息量越大；
3. 熵是平均意义上对随机变量的最短编码长度；
4. 熵也是随机变量X的求函数log1p(X)log\frac{1}{p(X)}logp(X)1的期望。

互信息

熵表示一个随机变量的信息量的大小，互信息用来表示两个随机变量之间共同含有的信息，互信息描述了随机变量之间更高阶的相关程度，相关系数只描述随机变量之间的线性相关程度。I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(3)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)(3)
其中p(x),p(y)p(x),p(y)p(x),p(y)为边缘分布，p(x,y)p(x, y)p(x,y)为联合分布；
对式（3）进一步推导得：I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(y)p(x∣y)p(x)p(y)=∑x∈X∑y∈Yp(x,y)logp(x∣y)p(x)=∑x∈X∑y∈Yp(x,y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈X∑y∈Yp(y)p(x∣y)logp(x∣y)−∑x∈X∑y∈Yp(x,y)logp(x)=∑x∈Xp(x∣y)logp(x∣y)(∑y∈Yp(y))−∑x∈Xlogp(x)(∑y∈Yp(x,y))=∑x∈Xp(x∣y)logp(x∣y)−∑x∈Xlogp(x)p(x)=H(X)−H(X∣Y)(4)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(y)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑y∈Y∑p(y)p(x∣y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑p(x∣y)logp(x∣y)(y∈Y∑p(y))−x∈X∑logp(x)(y∈Y∑p(x,y))=x∈X∑p(x∣y)logp(x∣y)−x∈X∑logp(x)p(x)=H(X)−H(X∣Y)(4)
根据式（4）可知，H(X)H(X)H(X)表示XXX含有的信息量，H(X∣Y)H(X|Y)H(X∣Y)表示知道事件Y后X含有的信息量。H(X)−H(X∣Y）H(X)-H(X|Y）H(X)−H(X∣Y）表示知道Y事件后，X含有信息量的减少量。

综上，互信息拥有以下的性质：
1. 互信息表示两个随机变量共同拥有的信息；
2. 互信息刻画了两个随机变量之间的相关性；
3. 互信息I(X;Y)I(X;Y)I(X;Y)表示知道Y事件后，X含有信息量的减少量;
4. 两个独立变量之间的互信息为0；

相对熵（KL散度）

互信息用来描述两个随机变量之间共同拥有的信息，相对熵用来量化两个随机变量的分布函数之间的差异程度，相对熵用于衡量两个分布之间的距离，相对熵越大，表明两个分布距离越远，相对熵为0，表示两分布相同。
D(p∣∣q)=∑x∈Xp(x)logp(x)q(x)(5)D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5}D(p∣∣q)=x∈X∑p(x)logq(x)p(x)(5)
其中q(x),p(x)q(x),p(x)q(x),p(x)表示两个概率密度函数。
互信息和相对熵之间的关系：I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)∣∣p(x)p(y))(6)I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∣∣p(x)p(y))(6)
式（6）表明互信息描述联合分布p(x,y)p(x,y)p(x,y)与边缘分布之积p(x)p(y)p(x)p(y)p(x)p(y)的差异程度，如果差异程度为0，表示p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)，也就是两个随机变量相互独立。

联合熵

联合熵用来表示X和Y一起发生时，产生的信息量。

H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=Ep(x,y)[1p(x,y)](7)H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7}H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)=Ep(x,y)[p(x,y)1](7)

条件熵

条件熵H(X∣Y)H(X|Y)H(X∣Y)用来表示Y已经发生的前提下，再发生X所产生的信息量。

H(X∣Y)=−∑x∈X∑y∈Yp(x,y)logp(x∣y)=Ep(x,y)[1p(x∣y)](8)H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8}H(X∣Y)=−x∈X∑y∈Y∑p(x,y)logp(x∣y)=Ep(x,y)[p(x∣y)1](8)

联合熵和条件熵的关系

H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9}H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量，也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。

互信息和联合熵的关系

I(X;Y)=H(X)+H(Y)−H(X,Y)(10)I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10}I(X;Y)=H(X)+H(Y)−H(X,Y)(10)

信息论（熵、条件熵、联合熵、互信息）相关推荐

机器学习进阶（4）：熵，联合熵，条件熵，互信息的推导和联系
文章目录前言熵联合熵条件熵互信息几种熵之间的关系前言机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...
信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)
数学基础:概率论乘法法则两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...
【机器学习】信息论基础（联合熵、条件熵、交叉熵、KL散度等）+ Python代码实现
文章目录一.基本概念 1.1 联合熵 1.2 条件熵 1.3 交叉熵 1.3.1 Python编程实现交叉熵计算 1.4相对熵(KL散度) 1.4.1 Python编程实现KL散度计算二.自信息和 ...
【Pytorch神经网络理论篇】 21 信息熵与互信息：联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质单调性,发生概率越高的事件,其 ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...
一文理清楚：熵，条件熵，KL散度（相对熵），交叉熵，联合熵，信息增益，信息增益比，GINI系数
熵熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...
详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系
信息量的定义某事件发生的概率小,则该事件的信息量大. 定义随机变量 X X X的概率分布为P(X)" role="presentation" style="p ...
信息论常见概念：熵、互信息、KL散度和信息增益
文章目录信息论在机器学习中的常见概念 1. 信息量 2. 熵 3. 联合熵 4. 条件熵 5. 相对熵 6. 互信息 7. 信息增益公式与推导信息论在机器学习中的常见概念信息的不确定度表示. ...
决策树基础—比特化Bits，信息熵，条件熵，联合熵
决策树基础-比特化Bits,信息熵,条件熵,联合熵比特化(Bits) 一般化的比特化信息熵条件熵联合熵知道了决策树的直观理解,接下来了解一些决策树要用到了知识比特化(Bits) 假设我现在 ...

信息论（熵、条件熵、联合熵、互信息）

熵

互信息

相对熵（KL散度）

联合熵

条件熵

联合熵和条件熵的关系

互信息和联合熵的关系

信息论（熵、条件熵、联合熵、互信息）相关推荐

最新文章

热门文章