度量两个概率分布差异性/距离的指标总结_KL 散度(相对熵)交叉熵 JS散度 Wasserstein-1距离 Earth-Mover (EM)distance
度量两个概率分布差异性/距离的指标总结
- 前言
- 各种度量准则
- KL 散度(相对熵)
- 交叉熵
- 交叉熵与KL散度的关系
- JS散度(Jensen-Shannon divergence)
- Wasserstein-1距离
- References
- 总结
前言
各种度量准则
KL 散度(相对熵)
KL 散度(Kullback–Leibler divergence)用于衡量两个概率分布之间的差异。值越小,表示两个分布越接近。
离散形式:
连续形式:
特点:
(1) 非对称性, 根据定义显而易见:
(2)非负性,当两个分布完全相同时,其值=0,最小;
(3)不满足三角不等式性;
交叉熵
交叉熵一般作为多分类问题的损失函数, 定义如下:
离散形式:
交叉熵与KL散度的关系
DKL(p∣∣q)=−H(p)+H(p,q)D_{KL}(p||q)=-H(p)+H(p,q)DKL(p∣∣q)=−H(p)+H(p,q), 推导如下:
从这个关系也可以推测在分类任务中一般使用交叉熵作为损失函数的原因
:目标是训练模型使得模型拟合的分布于数据的真实分布差异尽可能小,自然想到KL散度,然后,数据集的真实标记是确定的,也就是H(P)H(P)H(P)实际上为常数,因此最小化交叉熵即可。
JS散度(Jensen-Shannon divergence)
JS散度度量两个概率分布的差异度,它基于KL散度的变体,解决了KL散度非对称的问题
,其取值是 0 到 1 之间。
定义如下:
JS(p∣∣q)=12KL(p,p+q2)+12KL(q,p+q2)JS(p||q)=\frac{1}{2}KL(p, \frac{p+q}{2})+\frac{1}{2}KL(q, \frac{p+q}{2})JS(p∣∣q)=21KL(p,2p+q)+21KL(q,2p+q)
Wasserstein-1距离
Wasserstein-1距离又叫做Earth-Mover (EM)distance, 定义如下:
其中Π(Pr,Pg)表示边际分别为Pr和Pg的所有联合分布γ(x,y)的集合。 直观地,γ(x,y)表示从x到y必须传输多少“质量”才能将分布Pr转换为分布Pg。 EM距离就是最佳运输计划的“成本”。
Wasserstein-1距离 相比于KL divergence和JS divergence的优势在于
: 即使两个分布没有重叠,Wasserstein-1距离仍然能够反映他们的远近。而KL散度和JS散度度量在两个分布完全没有重叠的时候存在的问题是:KL散度值是没有意义,JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了,根本无法训练。
References
1.Wasserstein GAN
2.https://blog.csdn.net/Avery123123/article/details/102681688
总结
未完待续…
度量两个概率分布差异性/距离的指标总结_KL 散度(相对熵)交叉熵 JS散度 Wasserstein-1距离 Earth-Mover (EM)distance相关推荐
- 交叉熵【度量两个概率分布间的差异性信息】
参考:交叉熵_百度百科 交叉熵(Cross Entropy)是信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息.语言模型的性能通常用交叉熵和复杂度来衡量.交叉熵的意义是用该模型对文本识别的 ...
- 点云距离度量:完全解析EMD距离(Earth Mover's Distance)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨刘昕宸@知乎 来源丨https://zhuanlan.zhihu.com/p/270675634 ...
- 图像检索中的相似度度量:EMD距离(Earth Mover's Distance)
EMD距离即Earth Mover's Distance,是由2000年IJCV期刊文章<The Earth Mover's Distance as a Metric for Image Ret ...
- Earth Mover's Distance (EMD)距离
原文: http://d.hatena.ne.jp/aidiary/20120804/1344058475 作者: sylvan5 翻译: Myautsai和他的朋友们(Google Translat ...
- 向量相似度度量(一):EMD (Earth Mover's Distance)
EMD即Earth Mover's Distance,是2000年IJCV期刊文章<The Earth Mover's Distance as a Metric for Image Retrie ...
- 度量学习(Metric learning)—— 基于分类损失函数(softmax、交叉熵、cosface、arcface)
概述 首先,我们把loss归为两类:一类是本篇讲述的基于softmax的,一类是基于pair对的(如对比损失.三元损失等). 基于pair对的,参考我的另一篇博客: https://blog.csdn ...
- 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)
目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
- 衡量两个概率分布之间的差异性的指标
衡量两个概率分布之间的差异性的指标 衡量两个概率分布之间的差异性的指标 KL散度(Kullback–Leibler divergence) JS散度(Jensen-Shannon divergence ...
- 两概率分布交叉熵的最小值是多少?
©PaperWeekly 原创 · 作者 | 孙裕道 学校 | 北京邮电大学博士生 研究方向 | GAN图像生成.情绪对抗样本生成 引言 交叉熵(Cross Entropy)是香农信息论中一个非常重要 ...
- R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...
最新文章
- 【书签】格式化nginx.conf文件的工具
- C++内存分配方式详解——堆、栈、自由存储区、全局/静态存储区和常量存储区
- admiration音标是什么_英语admiration的意思解释|读音发音|相关词语_英语词典_词林在线词典...
- wex5中win8或者win10操作系统studio中新建.w向导或其他的编辑窗口显示不全
- tensorflow的keras 与 原生keras几点比较
- numpy 几个比较重要的链接
- MFC通过窗口名字(caption的内容)查找窗口,并将其隐藏或者置顶显示
- ssas报表项目数据集_处理SSAS多维OLAP多维数据集的有效方法
- Android反编译方法
- 从caffe2 开源的代码中抽取 用于加载已训练神经网络参数,使用CPU进行预测的 部分代码,并运行成功一个预测模型...
- 在计算机上的英语作文,我和电脑的英语作文
- php 判断字符串类型
- 基于二叉链表的树结构相等的判断
- 【140815】VC编程技巧280例 电子书下载
- 计算机技术在足球的应用,图象处理技术在足球机器人中的应用研究
- 计算机辅助工程分析及应用论文,毕业论文:《浅谈计算机辅助工程(CAE)》.doc...
- 接口测试定义以及接口测试常用的工具集合
- EN300328测试软件,蓝牙耳机EN300328测试项目。
- java高性能rpc,企业级rpc,zk调度,负载均衡,泛化调用一体的rpc服务框架
- Arduino 点灯实验