GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

信息量也叫做香农信息量，常用于刻画消除随机变量X在x处的不确定性所需的信息量大小。假设只考虑连续型随机变量的情况，设p为随机变量X的概率分布，即p(x)为随机变量X在X=x处的概率密度函数值，随机变量X在x处的香农信息量定义为：

信息量的单位为比特。上式只定义了随机变量在一个点处的香农信息量，衡量随机变量X在整个样本空间的总体香农信息量可以通过信息熵来表示，即香农信息量logp(x)的数学期望，所有X=x处的香农信息量的和，由于每一个x的出现概率不一样，需要用p(x)加权求和，用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。信息熵的定义如下：

假设q(x)是用来拟合p(x)的概率分布，x属于p的样本空间，交叉熵用于衡量q在拟合p的过程中，用于消除不确定性而充分使用的信息量大小。常作为神经网络的损失函数使用，由于在每一个点X=x处q的香农信息量为-logq(x)，也就是在点X=x处，q消除不确定性而充分使用的信息量为-logq(x)，即衡量q在X=x处为了拟合p所作的努力，那么就可以计算出在整个样本空间上q消除不确定性二充分使用的总体信息量，即-logq(x)的数学期望，由于每个x的权重为p(x)，因此交叉熵H(p,q)的定义为：

两个概率分布p和q的KL散度也叫相对熵，用于刻画概率分布q拟合概率分布p的程度，p为真实数据的概率分布，q为随机噪声生成数据的概率分布，生成对抗网络中q分布拟合p分布的过程中，如果q完全拟合p，则H(p)=H(p,q)，如果q拟合p不充分，则产生的信息损耗H(p)-H(p,q)就是p和q的KL散度，因此p和q的相对熵D(p||q)为信息熵H(p)与交叉熵H(p,q)的差，衡量q拟合p的过程中产生的信息损耗，损耗越少，q拟合p也就越好，通俗点说KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。相对熵的定义为：

或

由于KL散度并不是一个真正的度量或距离函数，确切的说其仅用于衡量一个分布相比另一个分布的信息损失，存在不对称的缺点，即D(P||Q)!=D(Q||P) 。故引出JS散度，（a）JS散度的值域范围是[0,1]，相同为0，相反为1。(b)具有对称性JS(P||Q)=JS(Q||P) 。因此JS散度的定义为：

由于KL散度和JS散度存在同一个问题，如果p分布和q分布相距很远完全没有重叠，则会导致梯度消失。故引出了Wasserstein距离，即使两个分布的支撑集没有重叠仍能反映两个分布的远近。直观上可以把E(x,y)∼γ[||x−y||]理解为在γ这个路径规划下把土堆p挪到土堆q所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。

总而言之：信息量代表的是一种不确定性；信息熵代表的是不确定性的期望值；KL散度，JS散度，交叉熵都可以用来衡量两个概率分布之间的差异性；因为训练数据的分布已知所以交叉熵等价于KL散度。

GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离相关推荐

KL，JS，Wasserstein距离
最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法.虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结. 本博 ...
信息论：信息熵+信息散度(交叉熵\kl距离)
信息散度(交叉熵\kl距离) 思考题:对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度?思考题:对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平 ...
信息熵/交叉熵/相对熵
参考致敬: 如何通俗的解释交叉熵与相对熵? https://www.zhihu.com/question/41252833 一文彻底搞懂信息熵.相对熵.交叉熵和条件熵(含例子) https://blo ...
KL divergence,JS divergence,Wasserstein distance是什么
文章目录前言 KL divergence JS divergence Wasserstein distance 总结前言这三个东西都可以用来两个分布的差异.其中三最难,其本身是来自另外的领域,如 ...
matlab图像信息熵交叉熵,【机器学习】信息量，信息熵，交叉熵，KL散度和互信息（信息增益）...
首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,以前很是著名的那篇LSTM讲解的文章也是他写的.这篇文章详细讲解了信息 ...
信息量-log2P(莫斯编码使用频繁P大的字符编码段信息量少)、信息熵：期望E=-Plog2P、两点分布交叉熵=KL散度=相对熵=-plnp-(1-p)ln(1-p)不对称、JS散度对称
信息熵为什么要定义成-Σp*log§? 信息熵为什么要定义成-Σp*log(p)? 在解释信息熵之前,需要先来说说什么是信息量. 信息量是对信息的度量,单位一般用bit. 信息论之父克劳德·艾尔伍德· ...
理解熵(信息熵,交叉熵,相对熵)
Highlights: 1)信息熵:编码方案完美时,最短平均编码长度的是多少. 2)交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少. 平均编码长度 = 最短平均编 ...
Softmax函数+信息熵+交叉熵
信息熵 https://blog.csdn.net/hearthougan/article/details/76192381 https://blog.csdn.net/Hearthougan/art ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
深度学习交叉熵损失函数
交叉熵损失函数前言交叉熵损失函数信息量信息熵交叉熵求导过程应用扩展 Binary_Crossentropy 均方差损失函数(MSE) 前言深度学习中的损失函数的选择,需要注意一点是直 ...

GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离相关推荐

最新文章

热门文章