KL散度-Entropy-JS散度-W距离
https://zhuanlan.zhihu.com/p/95687720
KL Divergence
用于衡量两种分布相似程度的统计量,越小,表示两种概率分布越接近。
所谓KL散度,是指当某分布q(x)被用于近似p(x)时的信息损失。
也就是说,q(x)能在多大程度上表达p(x)所包含的信息,KL散度越大,表达效果越差。
KL散度就是为了度量这种损失而被提出的。
若我们使用分布q来表示分布p,那么信息熵的损失如下
信息熵损失
可将该式写作期望的形式
稍加变形,称为定义中的形式
Entropy
如果式中的log以2为底的话,我们可以将这个式子解释为:要花费至少多少位的编码来表示此概率分布。从此式也可以看出,信息熵的本质是一种期望。
JS divergence
JS 散度度量了两个概率分布的相似度,基于 KL 散度的变体,解决了 KL 散度非对称的问题。一般地,JS 散度是对称的,其取值是 0 到 1 之间。
定义如下:
KL 散度和 JS 散度度量的时候有一个问题:
如果两个分配 P,Q 离得很远,完全没有重叠的时候,那么 KL 散度值是没有意义的,而 JS 散度值是一个常数,这就意味这一点的梯度为 0。
JS距离在两个数据集近似没有重叠的情况下,等于常数Log2,所以出现梯度消失的问题。
Wasserstein距离
最大的好处就是不用管数据分布有没有重叠
优点:
KL散度-Entropy-JS散度-W距离相关推荐
- 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...
- 信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离
前两篇介绍了目标检测中的回归损失函数,本来这篇打算介绍目标检测中的分类损失函数.但是介绍classification loss function自然绕不过交叉熵,所以还是简单的把信息论中的一些概念在这 ...
- GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量也叫做香农信息量,常用于刻画消除随机变量X在x处的不确定性所需的信息量大小.假设只考虑连续型随机变量的情况,设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量 ...
- 区别:KL散度,JS散度,Wasserstein距离(EMD)
1 .KL散度(相对熵): 性质: ①描述两个概率分布P,Q之间的差异 ②非负性:当且仅当两分布相同,相对熵等于0 ③非对称性:D(p||q)≠D(q||p) ④不是距离,且不满足三角不等式 ⑤相对熵 ...
- KL散度、JS散度与wasserstein距离
KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...
- 信息量、熵、交叉熵、KL散度、JS散度杂谈
信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...
- KL散度,JS散度,余弦距离,欧式距离
散度:量化两种概率分布P和Q之间差异的方式:相当于衡量两个函数之间的关系 GAN是最小化JS散度 VAE是最小化KL散度 KL散度(不对称):设p为随机变量X的概率分布,即p(x)为随机变量X在X=x ...
- 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...
- kl散度与js散度_数据集相似度度量之KLamp;JS散度
一.KL散度 1.什么是KL散度 KL散度又叫相对熵,是描述两个概率分布差异的一种方法,有人将KL散度称为KL距离,但实际上它不满足距离概念中的两个条件,a.对称性,即D(P||Q)=D(Q||P); ...
- 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)
目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
最新文章
- 是否使用有硼砂的眼用品
- 几个常用shell脚本命令
- 三分钟看懂一致性哈希算法
- Nodejs微信开发
- python用什么系统好_10分钟用python搭建一个超好用的CMDB系统
- C#LeetCode刷题之#15-三数之和(3Sum)
- python fetchall()转化为数据框_python 操作mysql数据中fetchone()和fetchall()方式
- BN和L2 NORM的区别
- 在Ubuntu 16.04 使用命令行安装Nvidia CUDA-9.0以及cudnn7
- SendMessage,PostMessage
- 足以封神的文献下载网站,知道一个你就赚了!
- GradientDrawable 渐变背景使用
- 鸡小德手机小常识 如何鉴定手机是否为行货
- PAT (Basic Level) Practice (中文)1044 火星数字 (20 分)(Java实现)
- C语言真的很难吗?那是你没看这张图,化整为零轻松学习C语言。
- key_t键和ftok函数(转)
- Vitalik:协议设计中的“封装复杂性” vs. “系统复杂性”
- 破解微信包工具之vscode
- Docker疑难杂症汇总
- Web安全攻防 信息收集篇(仅供交流学习使用,请勿用于非法用途)