一点对 KL 散度的理解

在深度学习中经常用到的一个概念是 KL散度。之前对KL散度进行过一次理解，但后来随着利用次数的减少，开始忘却其具体的定义与物理意义，仅在印象中记得是“描述两个分布的相似度的度量”。这个描述并不准确。为了便于以后查找回顾，这里再次把KL散度的相关理解整理下来。

KL 散度,全称 Kullback-Leible divergence, 是用于度量一个拟合分布Q与标准分布P的差异的一种方法，它是非对称的，这意味着 $DL(P||Q) \neq DL(Q||P)$ . 其中 $DL(P||Q)$ 可以理解为Q分布与P分布的差异，或者信息损失。

在介绍KL散度之前，先介绍信息熵的概念。

如果一个随机变量 $X$ 的可能取值包括 { ${ x_{1},x_{2},...,x_{n} }$ }，对应取每个值的概率分别为 $p(X=x_{i}) (i=1,2,...,n)$ ,则随机变量 $X$ 的熵被定义为

$H(X) = - \sum_{i=1}^{n} p(x_{i})*log(p(x_{i}))$

熵的物理意义是：一个变量包含的信息量的多少。熵越高，包含的信息量越多；熵越低，包含的信息量越少。

KL散度

KL散度是在熵的概念上定义的。

同样对于一个随机变量 $X$ ,它的可能的取值范围是 { ${ x_{1},x_{2},...,x_{n} }$ }.它在每个取值上的真实分布概率是 $p(X=x_{i}) (i=1,2,...,n)$ ，而我们学习到的分布是 $q(X=x_{i}) (i=1,2,...,n)$ ,我们学习到的分布 $q$ 与它的真实分的分布 $p$ 的差异（或信息损失）可以表示为：

$D_{KL}(p||q) = \sum _{i=1}^{n} p(x_{i}) * (\log p(x_{i})-\log q(x_{i}))$

这个差异实际上就是KL散度。

换句话说，KL散度就是学习到的分布（后面那个分布）与真实分布（前面那个分布）的概率的对数差的期望值。

根据数学公式变换，KL散度可以表达为其他形式：

$D_{KL}(p||q) =E [\log p(x_{i})-\log q(x_{i}) ]$ , 注意这里计算期望的概率值是 $p$ 的概率值。

或

$D_{KL}(p||q) = \sum _{i=1}^{n} p(x_{i}) * \log(\frac{p(x_{i})}{q(x_{i})})$

注意：KL散度不是距离

$D_{KL}(p||q)\neq D_{KL}(q||p)$

因为KL散度不具有交换性，因此不能被理解为“距离”。KL散度的物理意义是：一个分布（后者）相比另一个分布（前者）的信息损失（information loss）。

性质

性质：KL散度的取值是非负的，证明如下：

--------------------------------------------------------------------------------------------------

证明：

证毕。

--------------------------------------------------------------------------------------------------------------------------

参考文章：相对熵（KL散度）

KL散度的理解（GAN网络的优化）

KL散度理解

一点对 KL 散度的理解相关推荐

kl散度的理解_以曲率的视角理解自然梯度优化
一个故事我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...
散度和KL散度的介绍
散度和KL散度的介绍 1. 梯度.散度与旋度 1.1 算子定义一个向量算子 ∇ \nabla ∇(读作nabla或者del): ∇ = ∂ ∂ x e x ⃗ + ∂ ∂ y e y ⃗ + ∂ ∂ ...
(学习笔记)关于KL散度的应用
在pca算法中,使用到了一种信息论的理念即KL散度,它对提高模型的可解释性有显著的足以用,同时KL散度在估计两个模型之间的差异性方面也有非常大的作用,简单来说KL散度,就是通过两个模型之间信息熵的差值 ...
“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
[本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...
如何理解K-L散度（相对熵）
Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵.在概率学和统计学上,我们经常会使用一种更简单的.近似的分布来替代观察数据或 ...
KL散度的通俗易懂理解
一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergenc ...
信息熵、交叉熵、KL散度公式的简单理解
整理:我不爱机器学习 1 信息量信息量是对信息的度量,就跟时间的度量是秒一样,考虑一个离散的随机变量 x 的时候,当观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 例如听到太阳从东方升 ...
关于KL散度的一些理解
前言在阅读相关文献时,看到了关于交叉熵和相对熵的概念,交叉熵比较熟悉了,一般用在多分类损失的衡量,但是相对熵见得比较少,故查阅了一些资料,以供自己日后复习查阅. 正文在概率论或信息论中,KL散度( ...
熵、KL散度、交叉熵公式及通俗理解
熵根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵. 如果字符集中字符概率越趋于平均, ...

一点对 KL 散度的理解

一点对 KL 散度的理解相关推荐

最新文章

热门文章