区别:KL散度,JS散度,Wasserstein距离(EMD)
1 .KL散度(相对熵):
性质:
①描述两个概率分布P,Q之间的差异
②非负性:当且仅当两分布相同,相对熵等于0
③非对称性:D(p||q)≠D(q||p)
④不是距离,且不满足三角不等式
⑤相对熵 = 交叉熵 – 信息熵: D(p||q) = H(p,q) – H(p)
意义:
①典型情况下,P:数据的真实分布;Q:数据的理论分布、模型分布,P的近似分布
②KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。
③在GAN中,p为真实数据的概率分布,q为随机噪声生成数据的概率分布,对抗的目的是让q充分拟合p。
④散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差,衡量q拟合p的过程中产生的信息损耗,损耗越少。
2.JS散度(Jensen-Shannon)
性质:
①对称的,可以用于衡量两种不同分布之间的差异
②取值:0~1
③常用于GAN上的数学推导
意义:
①两个分布P,Q距离远,完全重叠时KL散度无意义,而JS散度是一个常数。
Q:这就意味着这一点的梯度为0,梯度消失。
3.Wasserstein距离(Earth-Mover 距离)
等价形式(根据Kantorovich-Rubinstein对偶原理):
意义:
①假设有两个工地P和Q,P工地上有m堆土,Q工地上有n个坑,现在要将P工地上的m堆土全部移动到Q工地上的n个坑中,所做的最小的功
②面对P,Q分布很远几乎无重叠的情况,仍能反映两个分布的远近
WGAN引入了Wasserstein距离,由于它相对KL散度与JS散度具有优越的平滑特性,理论上可以解决梯度消失问题。接着通过数学变换将Wasserstein距离写成可求解的形式,利用一个参数数值范围受限的判别器神经网络来最大化这个形式,就可以近似Wasserstein距离。在此近似最优判别器下优化生成器使得Wasserstein距离缩小,就能有效拉近生成分布与真实分布。WGAN既解决了训练不稳定的问题,也提供了一个可靠的训练进程指标,而且该指标确实与生成样本的质量高度相关。
区别:KL散度,JS散度,Wasserstein距离(EMD)相关推荐
- KL,JS,Wasserstein距离
最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法.虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结. 本博 ...
- KL divergence,JS divergence,Wasserstein distance是什么
文章目录 前言 KL divergence JS divergence Wasserstein distance 总结 前言 这三个东西都可以用来两个分布的差异.其中三最难,其本身是来自另外的领域,如 ...
- 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...
- KL散度、JS散度与wasserstein距离
KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...
- 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)
目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
- python衡量数据分布的相似度/距离(KL/JS散度)
背景 很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...
- 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...
- 信息量、熵、交叉熵、KL散度、JS散度杂谈
信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...
- KL/JS散度及Python实现
1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...
- WGAN的成功,可能跟Wasserstein距离没啥关系
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 WGAN,即 Wasserstein GAN,算是 GAN 史上一个比较重要的理论突破结果,它将 GAN ...
最新文章
- Nature综述:真菌的多样性:真菌的高通量测序及鉴定
- Howto: 如何将ArcGIS Server缓存移动到新服务器
- Wannafly挑战赛10F-小H和遗迹【Trie,树状数组】
- MyEclipse2015 Web项目转Maven项目
- C++(17)--详解const
- display:none的表单也会被提交
- 使用EF Core和AngularJS的Master Chef(第3部分)ASP.NET Core MVC
- Java 常用语法和数据结构
- 《剑指 Offer I》刷题笔记 51 ~ 61 题
- cocos2dx 云彩特效
- 【五步完美整理Windows系统】
- 域名 与 ip 地址
- 南大计算机系统基础CMU‘s CSAPP——第一章
- 9个可视化图表在线制作工具,总有一款适合你
- 通过身份证号计算年龄
- mongodb数据库学习日记(一)
- 近视?老花眼?恢复视力,就用这一招!
- Oracle EBS OPM创建会计科目告警:日记帐分录不平衡
- 通用GPIO驱动和apk(含jni),支持所有GPIO,支持LED控制,支持友善6410/210开发板,支持安卓2.3/4.0,内核2.6/3.0
- Richard Szeliski 《Computer Vision Algorithms and Applications》Second Edition 计算机视觉算法与应用 第二版
热门文章
- 二次元究竟意味着什么?(修改版)
- python3_函数_形参调用方式 / 不定长参数 / 函数返回值 / 变量作用域 / 匿名函数 / 递归调用 / 函数式编程 / 高阶函数 / gobal和nonlocal关键字 / 内置函数
- Ceph 存储集群2-配置:心跳选项、OSD选项、存储池、归置组和 CRUSH 选项
- 切换窗口卡顿?禁用Lenovo System Interface Foundation
- 大数据的五大关键技术
- 微信扫码登录功能实现
- StringUtils的使用
- ERROR: Failed building wheel for pillow and ERROR: running bdist_wheel问题解决
- 王东岳《东西方文化溯源与东西方哲学》
- 【论文阅读笔记】Lightweight Image Super-Resolution with Enhanced CNN