在深度学习中经常用到的一个概念是 KL散度。之前对KL散度进行过一次理解,但后来随着利用次数的减少,开始忘却其具体的定义与物理意义,仅在印象中记得是“描述两个分布的相似度的度量”。这个描述并不准确。为了便于以后查找回顾,这里再次把KL散度的相关理解整理下来。

KL 散度,全称 Kullback-Leible divergence, 是用于度量一个拟合分布Q与标准分布P的差异的一种方法,它是非对称的,这意味着. 其中可以理解为Q分布与P分布的差异,或者信息损失。

在介绍KL散度之前,先介绍信息熵的概念。

如果一个随机变量的可能取值包括 {},对应取每个值的概率分别为,则随机变量的熵被定义为

熵的物理意义是:一个变量包含的信息量的多少。熵越高,包含的信息量越多;熵越低,包含的信息量越少。

  • KL散度

KL散度是在熵的概念上定义的。

同样对于一个随机变量,它的可能的取值范围是 {}.它在每个取值上的真实分布概率是,而我们学习到的分布是,我们学习到的分布与它的真实分的分布的差异(或信息损失)可以表示为:

这个差异实际上就是KL散度。

换句话说,KL散度就是学习到的分布(后面那个分布)与真实分布(前面那个分布)的概率的对数差的期望值。

根据数学公式变换,KL散度可以表达为其他形式:

,   注意这里计算期望的概率值是的概率值。

  • 注意:KL散度不是距离

因为KL散度不具有交换性,因此不能被理解为“距离”。KL散度的物理意义是:一个分布(后者)相比另一个分布(前者)的信息损失(information loss)。

性质

  • 性质:KL散度的取值是非负的,证明如下:

--------------------------------------------------------------------------------------------------

证明:

证毕。

--------------------------------------------------------------------------------------------------------------------------

参考文章: 相对熵(KL散度)

KL散度的理解(GAN网络的优化)

KL散度理解

一点对 KL 散度的理解相关推荐

  1. kl散度的理解_以曲率的视角理解自然梯度优化

    一个故事 我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...

  2. 散度和KL散度的介绍

    散度和KL散度的介绍 1. 梯度.散度与旋度 1.1 算子 定义一个向量算子 ∇ \nabla ∇(读作nabla或者del): ∇ = ∂ ∂ x e x ⃗ + ∂ ∂ y e y ⃗ + ∂ ∂ ...

  3. (学习笔记)关于KL散度的应用

    在pca算法中,使用到了一种信息论的理念即KL散度,它对提高模型的可解释性有显著的足以用,同时KL散度在估计两个模型之间的差异性方面也有非常大的作用,简单来说KL散度,就是通过两个模型之间信息熵的差值 ...

  4. “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

    [本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...

  5. 如何理解K-L散度(相对熵)

    Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵.在概率学和统计学上,我们经常会使用一种更简单的.近似的分布来替代观察数据或 ...

  6. KL散度的通俗易懂理解

    一.第一种理解   相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergenc ...

  7. 信息熵、交叉熵、KL散度公式的简单理解

    整理:我不爱机器学习 1 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,考虑一个离散的随机变量 x 的时候,当观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 例如听到太阳从东方升 ...

  8. 关于KL散度的一些理解

    前言 在阅读相关文献时,看到了关于交叉熵和相对熵的概念,交叉熵比较熟悉了,一般用在多分类损失的衡量,但是相对熵见得比较少,故查阅了一些资料,以供自己日后复习查阅. 正文 在概率论或信息论中,KL散度( ...

  9. 熵、KL散度、交叉熵公式及通俗理解

    熵 根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵. 如果字符集中字符概率越趋于平均, ...

最新文章

  1. IP地址的三种表示格式及在Socket编程中的应用
  2. 【jquery】一款不错的音频播放器——Amazing Audio Player
  3. L1-005 考试座位号
  4. 1986暑假济南清北学堂腾飞营摸鱼记
  5. 基本Linux命令的用法
  6. 管道读写报错121:信号灯超时时间已到
  7. 视频分割神器-MP4文件随意分割
  8. windbg分析C++ EH exception
  9. 读《曾经,我们爱过一个世纪》有感(附原文)
  10. 2020届部分校招IC笔试题
  11. (详解)区间DP —— 平行四边形优化
  12. 工厂管理系统该如何选?5款主流的工厂管理软件全测评!
  13. 【STM32F407】第2章 ThreadX FileX文件系统介绍
  14. Win8安装教程!笔记本用U盘安装Win8只需三步
  15. 正则表达式不允许输入汉字
  16. 32位、64位与Java开发研究分析
  17. 基于JAVA影楼网站计算机毕业设计源码+系统+数据库+lw文档+部署
  18. C4D模型工具—细分
  19. ubuntu18.04合并pdf文件
  20. 《杜拉拉升职记》中的管理学要素

热门文章

  1. java服务器项目,java项目服务器部署
  2. 非root用户安装mysql_linux非root用户安装5.7.27版本mysql
  3. matlab迭代算法实例_【优化求解】基于NSGA2的求解多目标柔性车间调度算法
  4. mysql一键部署_一键部署----mysql5.6--jue
  5. php.h not found,编译错误“fatal error: 'xxxx.h' file not found” 如何解决
  6. java靜態常量_Java靜態變量、靜態常量、靜態方法
  7. OpenCV-Python实战(13)——OpenCV与机器学习的碰撞
  8. 如何在Ubuntu 18.04上设置Apache虚拟主机
  9. sql除外语句_SQL除外
  10. android实例教程_活动之间的Android意向处理示例教程