前言

各种度量准则

KL 散度（相对熵）

KL 散度（Kullback–Leibler divergence）用于衡量两个概率分布之间的差异。值越小，表示两个分布越接近。
离散形式：

连续形式：

特点：
(1) 非对称性，根据定义显而易见：

(2)非负性，当两个分布完全相同时，其值=0,最小；
(3)不满足三角不等式性；

交叉熵

交叉熵一般作为多分类问题的损失函数，定义如下：
离散形式：

交叉熵与KL散度的关系

DKL(p∣∣q)=−H(p)+H(p,q)D_{KL}(p||q)=-H(p)+H(p,q)DKL(p∣∣q)=−H(p)+H(p,q), 推导如下：

从这个关系也可以推测在分类任务中一般使用交叉熵作为损失函数的原因：目标是训练模型使得模型拟合的分布于数据的真实分布差异尽可能小，自然想到KL散度，然后，数据集的真实标记是确定的，也就是H(P)H(P)H(P)实际上为常数，因此最小化交叉熵即可。

JS散度（Jensen-Shannon divergence）

JS散度度量两个概率分布的差异度，它基于KL散度的变体，解决了KL散度非对称的问题，其取值是 0 到 1 之间。
定义如下：
JS(p∣∣q)=12KL(p,p+q2)+12KL(q,p+q2)JS(p||q)=\frac{1}{2}KL(p, \frac{p+q}{2})+\frac{1}{2}KL(q, \frac{p+q}{2})JS(p∣∣q)=21KL(p,2p+q)+21KL(q,2p+q)

Wasserstein-1距离

Wasserstein-1距离又叫做Earth-Mover （EM）distance, 定义如下：

其中Π（Pr，Pg）表示边际分别为Pr和Pg的所有联合分布γ（x，y）的集合。直观地，γ（x，y）表示从x到y必须传输多少“质量”才能将分布Pr转换为分布Pg。 EM距离就是最佳运输计划的“成本”。

Wasserstein-1距离相比于KL divergence和JS divergence的优势在于：即使两个分布没有重叠，Wasserstein-1距离仍然能够反映他们的远近。而KL散度和JS散度度量在两个分布完全没有重叠的时候存在的问题是：KL散度值是没有意义，JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了,根本无法训练。

References

1.Wasserstein GAN
2.https://blog.csdn.net/Avery123123/article/details/102681688

总结

未完待续…

度量两个概率分布差异性/距离的指标总结_KL 散度（相对熵）交叉熵 JS散度 Wasserstein-1距离 Earth-Mover （EM）distance相关推荐

交叉熵【度量两个概率分布间的差异性信息】
参考:交叉熵_百度百科交叉熵(Cross Entropy)是信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息.语言模型的性能通常用交叉熵和复杂度来衡量.交叉熵的意义是用该模型对文本识别的 ...
点云距离度量：完全解析EMD距离(Earth Mover's Distance)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨刘昕宸@知乎来源丨https://zhuanlan.zhihu.com/p/270675634 ...
图像检索中的相似度度量：EMD距离（Earth Mover's Distance）
EMD距离即Earth Mover's Distance,是由2000年IJCV期刊文章<The Earth Mover's Distance as a Metric for Image Ret ...
Earth Mover's Distance (EMD)距离
原文: http://d.hatena.ne.jp/aidiary/20120804/1344058475 作者: sylvan5 翻译: Myautsai和他的朋友们(Google Translat ...
向量相似度度量（一）：EMD （Earth Mover's Distance）
EMD即Earth Mover's Distance,是2000年IJCV期刊文章<The Earth Mover's Distance as a Metric for Image Retrie ...
度量学习（Metric learning）—— 基于分类损失函数（softmax、交叉熵、cosface、arcface）
概述首先,我们把loss归为两类:一类是本篇讲述的基于softmax的,一类是基于pair对的(如对比损失.三元损失等). 基于pair对的,参考我的另一篇博客: https://blog.csdn ...
交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离（推土机距离）
目录: 信息量熵相对熵(KL散度) 交叉熵 JS散度推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
衡量两个概率分布之间的差异性的指标
衡量两个概率分布之间的差异性的指标衡量两个概率分布之间的差异性的指标 KL散度(Kullback–Leibler divergence) JS散度(Jensen-Shannon divergence ...
R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean （三,相似距离）
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

度量两个概率分布差异性/距离的指标总结_KL 散度（相对熵）交叉熵 JS散度 Wasserstein-1距离 Earth-Mover （EM）distance

度量两个概率分布差异性/距离的指标总结

前言