1 .KL散度(相对熵):

性质:

①描述两个概率分布P,Q之间的差异

②非负性:当且仅当两分布相同,相对熵等于0

③非对称性:D(p||q)≠D(q||p)

④不是距离,且不满足三角不等式

⑤相对熵 = 交叉熵 – 信息熵: D(p||q) = H(p,q) – H(p)

意义:

①典型情况下,P:数据的真实分布;Q:数据的理论分布、模型分布,P的近似分布

②KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。

③在GAN中,p为真实数据的概率分布,q为随机噪声生成数据的概率分布,对抗的目的是让q充分拟合p。

④散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差,衡量q拟合p的过程中产生的信息损耗,损耗越少。

2.JS散度(Jensen-Shannon

性质:

①对称的,可以用于衡量两种不同分布之间的差异

②取值:0~1

③常用于GAN上的数学推导

意义:

①两个分布P,Q距离远,完全重叠时KL散度无意义,而JS散度是一个常数。

Q:这就意味着这一点的梯度为0,梯度消失。

3.Wasserstein距离(Earth-Mover 距离)

等价形式(根据Kantorovich-Rubinstein对偶原理):

意义:

①假设有两个工地P和Q,P工地上有m堆土,Q工地上有n个坑,现在要将P工地上的m堆土全部移动到Q工地上的n个坑中,所做的最小的功

②面对P,Q分布很远几乎无重叠的情况,仍能反映两个分布的远近

WGAN引入了Wasserstein距离,由于它相对KL散度与JS散度具有优越的平滑特性,理论上可以解决梯度消失问题。接着通过数学变换将Wasserstein距离写成可求解的形式,利用一个参数数值范围受限的判别器神经网络来最大化这个形式,就可以近似Wasserstein距离。在此近似最优判别器下优化生成器使得Wasserstein距离缩小,就能有效拉近生成分布与真实分布。WGAN既解决了训练不稳定的问题,也提供了一个可靠的训练进程指标,而且该指标确实与生成样本的质量高度相关。

区别:KL散度,JS散度,Wasserstein距离(EMD)相关推荐

  1. KL,JS,Wasserstein距离

    最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法.虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结. 本博 ...

  2. KL divergence,JS divergence,Wasserstein distance是什么

    文章目录 前言 KL divergence JS divergence Wasserstein distance 总结 前言 这三个东西都可以用来两个分布的差异.其中三最难,其本身是来自另外的领域,如 ...

  3. 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离

    信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...

  4. KL散度、JS散度与wasserstein距离

    KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...

  5. 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

    目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...

  6. python衡量数据分布的相似度/距离(KL/JS散度)

    背景 很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...

  7. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  8. 信息量、熵、交叉熵、KL散度、JS散度杂谈

    信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...

  9. KL/JS散度及Python实现

    1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...

  10. WGAN的成功,可能跟Wasserstein距离没啥关系

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 WGAN,即 Wasserstein GAN,算是 GAN 史上一个比较重要的理论突破结果,它将 GAN ...

最新文章

  1. Nature综述:真菌的多样性:真菌的高通量测序及鉴定
  2. Howto: 如何将ArcGIS Server缓存移动到新服务器
  3. Wannafly挑战赛10F-小H和遗迹【Trie,树状数组】
  4. MyEclipse2015 Web项目转Maven项目
  5. C++(17)--详解const
  6. display:none的表单也会被提交
  7. 使用EF Core和AngularJS的Master Chef(第3部分)ASP.NET Core MVC
  8. Java 常用语法和数据结构
  9. 《剑指 Offer I》刷题笔记 51 ~ 61 题
  10. cocos2dx 云彩特效
  11. 【五步完美整理Windows系统】
  12. 域名 与 ip 地址
  13. 南大计算机系统基础CMU‘s CSAPP——第一章
  14. 9个可视化图表在线制作工具,总有一款适合你
  15. 通过身份证号计算年龄
  16. mongodb数据库学习日记(一)
  17. 近视?老花眼?恢复视力,就用这一招!
  18. Oracle EBS OPM创建会计科目告警:日记帐分录不平衡
  19. 通用GPIO驱动和apk(含jni),支持所有GPIO,支持LED控制,支持友善6410/210开发板,支持安卓2.3/4.0,内核2.6/3.0
  20. Richard Szeliski 《Computer Vision Algorithms and Applications》Second Edition 计算机视觉算法与应用 第二版

热门文章

  1. 二次元究竟意味着什么?(修改版)
  2. python3_函数_形参调用方式 / 不定长参数 / 函数返回值 / 变量作用域 / 匿名函数 / 递归调用 / 函数式编程 / 高阶函数 / gobal和nonlocal关键字 / 内置函数
  3. Ceph 存储集群2-配置:心跳选项、OSD选项、存储池、归置组和 CRUSH 选项
  4. 切换窗口卡顿?禁用Lenovo System Interface Foundation
  5. 大数据的五大关键技术
  6. 微信扫码登录功能实现
  7. StringUtils的使用
  8. ERROR: Failed building wheel for pillow and ERROR: running bdist_wheel问题解决
  9. 王东岳《东西方文化溯源与东西方哲学》
  10. 【论文阅读笔记】Lightweight Image Super-Resolution with Enhanced CNN