区别：KL散度，JS散度，Wasserstein距离（EMD）

1 .KL散度（相对熵）：

性质：

①描述两个概率分布P,Q之间的差异

②非负性：当且仅当两分布相同，相对熵等于0

③非对称性：D(p||q)≠D(q||p)

④不是距离，且不满足三角不等式

⑤相对熵 = 交叉熵 – 信息熵： D(p||q) = H(p,q) – H(p)

意义：

①典型情况下，P：数据的真实分布；Q：数据的理论分布、模型分布，P的近似分布

②KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。

③在GAN中，p为真实数据的概率分布，q为随机噪声生成数据的概率分布，对抗的目的是让q充分拟合p。

④散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差，衡量q拟合p的过程中产生的信息损耗，损耗越少。

2.JS散度（Jensen-Shannon）

性质：

①对称的，可以用于衡量两种不同分布之间的差异

②取值：0~1

③常用于GAN上的数学推导

意义：

①两个分布P,Q距离远，完全重叠时KL散度无意义，而JS散度是一个常数。

Q：这就意味着这一点的梯度为0，梯度消失。

3.Wasserstein距离（Earth-Mover 距离）

等价形式（根据Kantorovich-Rubinstein对偶原理）：

意义：

①假设有两个工地P和Q，P工地上有m堆土，Q工地上有n个坑，现在要将P工地上的m堆土全部移动到Q工地上的n个坑中，所做的最小的功

②面对P,Q分布很远几乎无重叠的情况，仍能反映两个分布的远近

WGAN引入了Wasserstein距离，由于它相对KL散度与JS散度具有优越的平滑特性，理论上可以解决梯度消失问题。接着通过数学变换将Wasserstein距离写成可求解的形式，利用一个参数数值范围受限的判别器神经网络来最大化这个形式，就可以近似Wasserstein距离。在此近似最优判别器下优化生成器使得Wasserstein距离缩小，就能有效拉近生成分布与真实分布。WGAN既解决了训练不稳定的问题，也提供了一个可靠的训练进程指标，而且该指标确实与生成样本的质量高度相关。

区别：KL散度，JS散度，Wasserstein距离（EMD）相关推荐

KL，JS，Wasserstein距离
最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法.虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结. 本博 ...
KL divergence,JS divergence,Wasserstein distance是什么
文章目录前言 KL divergence JS divergence Wasserstein distance 总结前言这三个东西都可以用来两个分布的差异.其中三最难,其本身是来自另外的领域,如 ...
信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度文章目录信息量.熵.交叉熵.KL散度.JS散度前言一.信息量二.熵三.交叉熵四.KL散度五.JS散度六. Wasserstein距离 1.解决的 ...
KL散度、JS散度与wasserstein距离
KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...
交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离（推土机距离）
目录: 信息量熵相对熵(KL散度) 交叉熵 JS散度推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
python衡量数据分布的相似度/距离（KL/JS散度）
背景很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...
【Pytorch神经网络理论篇】 21 信息熵与互信息：联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质单调性,发生概率越高的事件,其 ...
信息量、熵、交叉熵、KL散度、JS散度杂谈
信息量.熵.交叉熵.KL散度.JS散度杂谈信息量任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...
KL/JS散度及Python实现
1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...
WGAN的成功，可能跟Wasserstein距离没啥关系
©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络 WGAN,即 Wasserstein GAN,算是 GAN 史上一个比较重要的理论突破结果,它将 GAN ...

区别：KL散度，JS散度，Wasserstein距离（EMD）

区别：KL散度，JS散度，Wasserstein距离（EMD）相关推荐

最新文章

热门文章