一点对 KL 散度的理解
在深度学习中经常用到的一个概念是 KL散度。之前对KL散度进行过一次理解,但后来随着利用次数的减少,开始忘却其具体的定义与物理意义,仅在印象中记得是“描述两个分布的相似度的度量”。这个描述并不准确。为了便于以后查找回顾,这里再次把KL散度的相关理解整理下来。
KL 散度,全称 Kullback-Leible divergence, 是用于度量一个拟合分布Q与标准分布P的差异的一种方法,它是非对称的,这意味着. 其中可以理解为Q分布与P分布的差异,或者信息损失。
在介绍KL散度之前,先介绍信息熵的概念。
- 熵
如果一个随机变量的可能取值包括 {},对应取每个值的概率分别为,则随机变量的熵被定义为
熵的物理意义是:一个变量包含的信息量的多少。熵越高,包含的信息量越多;熵越低,包含的信息量越少。
- KL散度
KL散度是在熵的概念上定义的。
同样对于一个随机变量,它的可能的取值范围是 {}.它在每个取值上的真实分布概率是,而我们学习到的分布是,我们学习到的分布与它的真实分的分布的差异(或信息损失)可以表示为:
这个差异实际上就是KL散度。
换句话说,KL散度就是学习到的分布(后面那个分布)与真实分布(前面那个分布)的概率的对数差的期望值。
根据数学公式变换,KL散度可以表达为其他形式:
, 注意这里计算期望的概率值是的概率值。
或
- 注意:KL散度不是距离
因为KL散度不具有交换性,因此不能被理解为“距离”。KL散度的物理意义是:一个分布(后者)相比另一个分布(前者)的信息损失(information loss)。
性质
- 性质:KL散度的取值是非负的,证明如下:
--------------------------------------------------------------------------------------------------
证明:
证毕。
--------------------------------------------------------------------------------------------------------------------------
参考文章: 相对熵(KL散度)
KL散度的理解(GAN网络的优化)
KL散度理解
一点对 KL 散度的理解相关推荐
- kl散度的理解_以曲率的视角理解自然梯度优化
一个故事 我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...
- 散度和KL散度的介绍
散度和KL散度的介绍 1. 梯度.散度与旋度 1.1 算子 定义一个向量算子 ∇ \nabla ∇(读作nabla或者del): ∇ = ∂ ∂ x e x ⃗ + ∂ ∂ y e y ⃗ + ∂ ∂ ...
- (学习笔记)关于KL散度的应用
在pca算法中,使用到了一种信息论的理念即KL散度,它对提高模型的可解释性有显著的足以用,同时KL散度在估计两个模型之间的差异性方面也有非常大的作用,简单来说KL散度,就是通过两个模型之间信息熵的差值 ...
- “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
[本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...
- 如何理解K-L散度(相对熵)
Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵.在概率学和统计学上,我们经常会使用一种更简单的.近似的分布来替代观察数据或 ...
- KL散度的通俗易懂理解
一.第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergenc ...
- 信息熵、交叉熵、KL散度公式的简单理解
整理:我不爱机器学习 1 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,考虑一个离散的随机变量 x 的时候,当观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 例如听到太阳从东方升 ...
- 关于KL散度的一些理解
前言 在阅读相关文献时,看到了关于交叉熵和相对熵的概念,交叉熵比较熟悉了,一般用在多分类损失的衡量,但是相对熵见得比较少,故查阅了一些资料,以供自己日后复习查阅. 正文 在概率论或信息论中,KL散度( ...
- 熵、KL散度、交叉熵公式及通俗理解
熵 根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵. 如果字符集中字符概率越趋于平均, ...
最新文章
- IP地址的三种表示格式及在Socket编程中的应用
- 【jquery】一款不错的音频播放器——Amazing Audio Player
- L1-005 考试座位号
- 1986暑假济南清北学堂腾飞营摸鱼记
- 基本Linux命令的用法
- 管道读写报错121:信号灯超时时间已到
- 视频分割神器-MP4文件随意分割
- windbg分析C++ EH exception
- 读《曾经,我们爱过一个世纪》有感(附原文)
- 2020届部分校招IC笔试题
- (详解)区间DP —— 平行四边形优化
- 工厂管理系统该如何选?5款主流的工厂管理软件全测评!
- 【STM32F407】第2章 ThreadX FileX文件系统介绍
- Win8安装教程!笔记本用U盘安装Win8只需三步
- 正则表达式不允许输入汉字
- 32位、64位与Java开发研究分析
- 基于JAVA影楼网站计算机毕业设计源码+系统+数据库+lw文档+部署
- C4D模型工具—细分
- ubuntu18.04合并pdf文件
- 《杜拉拉升职记》中的管理学要素
热门文章
- java服务器项目,java项目服务器部署
- 非root用户安装mysql_linux非root用户安装5.7.27版本mysql
- matlab迭代算法实例_【优化求解】基于NSGA2的求解多目标柔性车间调度算法
- mysql一键部署_一键部署----mysql5.6--jue
- php.h not found,编译错误“fatal error: 'xxxx.h' file not found” 如何解决
- java靜態常量_Java靜態變量、靜態常量、靜態方法
- OpenCV-Python实战(13)——OpenCV与机器学习的碰撞
- 如何在Ubuntu 18.04上设置Apache虚拟主机
- sql除外语句_SQL除外
- android实例教程_活动之间的Android意向处理示例教程