ML/DL-复习笔记【八】- 信息熵与相对熵(KL散度)
本节为ML/DL-复习笔记【八】信息熵与相对熵(KL散度)。
信息熵可以表达数据信息量的大小,对于离散型随机变量:
对于连续型随机变量:
这里log的底数是2,但一般在神经网络中,默认以eee为底,这样算出来的香农信息量虽然不是最小的可用于完整表示事件的比特数,但对于信息熵的含义来说是区别不大的,只要这个底数大于1,就可以表达信息熵的大小。
相对熵,又称为KL散度或者信息散度,是两个概率分布间差异的非对称度量。信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失,公式如下:
其中,p(xi)p(x_i)p(xi)为真实事件的概率分布,q(xi)q(x_i)q(xi)为理论拟合出来的该事件的概率分布。
相对熵如果理论拟合的事件概率分布与真实分布相同则为0,否则大于0,这个性质正是深度学习梯度下降法需要的特性,但是相对熵不对称,即用PPP拟合QQQ和用QQQ拟合PPP的结果是不一样的。
那为什么神经网络中使用相对熵衍生的交叉熵作为损失函数而更少使用与距离相关的均方差损失来训练神经网络呢?
举个栗子,假设神经网络最后一层激活函数sigmoidsigmoidsigmoid,图像:
可以看到它两头平,这里的导数接近0,而反向传播需要求导,用了均方差损失之后求导结果包含y(y-1),在y接近1或者0时,趋向于0,导致梯度消失,网络训练不下去,但如果用相对熵距离特征不是特别好,但总归好过梯度消失。
参考文章:相对熵(KL散度)
欢迎扫描二维码关注微信公众号 深度学习与数学
[每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
ML/DL-复习笔记【八】- 信息熵与相对熵(KL散度)相关推荐
- 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...
- ML:图像数据、字符串数据等计算相似度常用的十种方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Helli
ML:图像数据.字符串数据等计算相似度常用的十种方法(余弦相似性.皮尔逊.闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离.马氏距离.汉明距离.编辑距离.杰卡德相似系数.相对熵/KL散度.Helli ...
- AI理论知识基础(26)-相对熵,KL散度
相对熵(relative entropy),又被称为 KL散度.Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information div ...
- 相对熵/KL散度(Kullback–Leibler divergence,KLD)
相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(in ...
- 信息熵、相对熵(KL散度)、交叉熵、条件熵、互信息、联合熵
信息熵 信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作<A Mathematical Theory of Communication>中提出的.如今 ...
- 交叉熵和mse_交叉熵 相对熵(KL散度/互熵)
香农熵 熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高. 交叉熵 交叉熵考察的是两个的信息(分布)的期望: 交叉熵和熵,相 ...
- 关于信息熵 ,KL散度,交叉熵,一文读懂(bushi)。
也是看其他大佬的说法.比如这个信息熵是什么? - 知乎 大家都知道 ,对于一个概率分布,信息熵的公式是: 表示发生的概率. 定义公式我就不再赘述,已经有很多了.确实和我们的印象比较符合,一件事概率越 ...
- STM32复习笔记(十八) —— 高级定时器(输出比较)
STM32复习笔记(十八) -- 高级定时器(输出比较) 1.配置步骤 1)选择计数器时钟 (内部,外部,预分频器) 2)将相应的数据写入TIMx_ARR and TIMx_CCRx寄存器中 3)可设 ...
- 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【前端】HTML标签基础复习笔记
不够完美又何妨?万物皆有裂隙,那是光进来的地方. 文章目录 HTML复习笔记 JavaWeb相关概述 HTML概述 HTML语法 基本标签 图片标签 链接 列表标签 块级标签 表格标签 表单标签 HT ...
最新文章
- 1.3 Quick Start中 Step 7: Use Kafka Connect to import/export data官网剖析(博主推荐)
- android控件跟随手势滑动改变位置
- MySql 自适应哈希索引
- 利用js刷新页面方法
- android 进程间通信数据(一)------parcel的起源
- 【汇总推荐】深度学习、自然语言处理干货笔记汇总
- .bam.bai的意义_业务活动监视器(BAM)2.0带来的革命
- 【干货】推荐系统中的机器学习算法与评估实战
- delare和typeset
- 基于tensorflow框架训练超像素subpixel模型
- 去空格函数trim-C语言
- BZOJ 3505 【CQOI2014】 数三角形
- 博士申请 | 蒙纳士大学(苏州)陈存建老师招收人工智能方向全奖博士生
- Windows电脑快捷键
- 期货反向跟单犯法吗?
- 支持向量机(SVM)优化算法原理超详细证明过程,几何的角度证明互补松弛条件
- 对于养鱼爱病的新手,给你们一些个人经验,觉得对可以体会
- 安卓最新版本_腾讯手机管家下载最新版本-腾讯手机管家2020新版本下载v8.8.1 安卓官方版...
- Wine Mono 环境安装并运行.Net WPF
- SLIC与目前最优超像素算法的比较 SLIC Superpixels Compared to State-of-the-art Superpixel Methods