KL散度、JS散度和交叉熵

对于连续型随机变量，假设P为随机变量X的概率分布，则p(x)为随机变量X在X = x处的概率
三者都是用来衡量两个概率分布P(x)和Q(x)之间的差异性的指标

KL散度
KL散度（Kullback–Leibler divergence）又称KL距离，相对熵。D(P∣∣Q)=∫−∞∞P(x)logP(x)Q(x)D(P||Q)=\int_{-\infty}^\infty P(x)log\frac{P(x)}{Q(x)}D(P∣∣Q)=∫−∞∞P(x)logQ(x)P(x)

不对称性：即D(P||Q)!=D(Q||P)
非负性：即D(P||Q)>0
P(x)和Q(x)的相似度越高，KL散度越小。

JS散度
JS散度（Jensen-Shannon divergence）也称JS距离，是KL散度的一种变形。
JS(P∣∣Q)=12KL(P(x)∣∣P(x)+Q(x)2)+12KL(Q(x)∣∣P(x)+Q(x)2)JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2})JS(P∣∣Q)=21KL(P(x)∣∣2P(x)+Q(x))+21KL(Q(x)∣∣2P(x)+Q(x))

值域范围：JS散度的值域范围是[0,1]，相同为0，相反为1。
对称性：JS(P||Q)=JS(Q||P)

信息熵

随机变量X在x处的香农信息量为：−log(p(x))-log(p(x))−log(p(x))，确定性越大，信息量越小。
信息熵H(p)H(p)H(p)是香农信息量−log(p(x))-log(p(x))−log(p(x))的数学期望，即所有 X= x 处的香农信息量的和，由于每一个x的出现概率不一样，需要用p(x) 加权求和。H(P)=−P(x)logP(x)H(P)=-P(x)logP(x)H(P)=−P(x)logP(x)信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。

交叉熵（Cross Entropy）
在神经网络中，交叉熵可以作为损失函数，因为它可以衡量P和Q的相似性。H(P,Q)=−P(x)logQ(x)H(P,Q)=-P(x)logQ(x)H(P,Q)=−P(x)logQ(x)
交叉熵和相对熵的关系：D(P∣∣Q)=H(P,Q)−H(P)D(P||Q)=H(P,Q)-H(P)D(P∣∣Q)=H(P,Q)−H(P)

KL散度、JS散度和交叉熵相关推荐

【Pytorch神经网络理论篇】 21 信息熵与互信息：联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质单调性,发生概率越高的事件,其 ...
信息量、熵、交叉熵、KL散度、JS散度杂谈
信息量.熵.交叉熵.KL散度.JS散度杂谈信息量任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...
信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度文章目录信息量.熵.交叉熵.KL散度.JS散度前言一.信息量二.熵三.交叉熵四.KL散度五.JS散度六. Wasserstein距离 1.解决的 ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
为什么交叉熵和KL散度在作为损失函数时是近似相等的
来源:DeepHub IMBA 本文约900字,建议阅读5分钟在本文中,我们将介绍熵.交叉熵和 Kullback-Leibler Divergence [2] 的概念,并了解如何将它们近似为相等. ...
信息量、信息熵、KL散度、交叉熵
一.信息量定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...
“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
[本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...
python衡量数据分布的相似度/距离（KL/JS散度）
背景很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...
KL散度、JS散度与wasserstein距离
KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...
KL/JS散度及Python实现
1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...

KL散度、JS散度和交叉熵

KL散度、JS散度和交叉熵相关推荐

最新文章

热门文章