信息熵、相对熵与交叉熵
目录
- 1. 信息熵
- 2. 相对熵
- 3. 交叉熵
- 4. 交叉熵与softmax
1. 信息熵
熵是一个信息论中的概念,表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。信息熵公式如下:
H(p)=−∑i=1np(xi)logp(xi)H(p)=-\sum_{i=1}^{n}{p(x_i)logp(x_i)}H(p)=−i=1∑np(xi)logp(xi)
关于熵的详细解释可参考最大熵阈值分割法
2. 相对熵
相对熵又称KL散度,用于衡量对于同一个随机变量x的两个分布p(x)p(x)p(x)和q(x)q(x)q(x)之间的差异。p(x)p(x)p(x)表示样本真实分布,q(x)q(x)q(x)表示模型预测分布,模型训练就是不断让q(x)q(x)q(x)分布拟合分布p(x)p(x)p(x)。KL散度的值越小表示两个分布越接近。KL散度公式如下:
DKL(p∣∣q)=∑i=1np(xi)logp(xi)q(xi)D_{KL}(p||q)=\sum_{i=1}^{n}{p(x_i)log\frac{p(x_i)}{q(x_i)}}DKL(p∣∣q)=i=1∑np(xi)logq(xi)p(xi)
3. 交叉熵
将KL散度变形得到如下表达式:
DKL(p∣∣q)=∑i=1np(xi)logp(xi)−∑i=1np(xi)logq(xi)=−H(p(x))+[−∑i=1np(xi)logq(xi)]\begin{aligned} D_{KL}(p||q)&=\sum_{i=1}^{n}{p(x_i)logp(x_i)}-\sum_{i=1}^{n}{p(x_i)logq(x_i)} \\ &=-H(p(x))+[-\sum_{i=1}^{n}{p(x_i)logq(x_i)}] \end{aligned} DKL(p∣∣q)=i=1∑np(xi)logp(xi)−i=1∑np(xi)logq(xi)=−H(p(x))+[−i=1∑np(xi)logq(xi)]
第一项就是p(x)p(x)p(x)的信息熵,第二项就是交叉熵cross entropy。我们常用KL散度来评估真实标签和预测标签的差别,由于KL散度第一项是个常量,所以直接将第二项的交叉熵作为损失函数也是一样的。
4. 交叉熵与softmax
分类问题中常用交叉熵作为模型的损失函数。样本标签 y 的值为1或者0可以看做是概率,而模型的输出是一个实数值,如何将这个实数值转换成概率呢?这就要用到 softmax 函数了(所以面试官会经常问为什么交叉熵要和 softmax 一起用)。假设模型输出为y1,y2,...,yny_1,y_2,...,y_ny1,y2,...,yn,经过 softmax 后的输出为:
softmax(yi)=eyi∑j=1neyisoftmax(y_i)=\frac{e^{y_i}}{\sum_{j=1}^{n}{e^{y_i}}}softmax(yi)=∑j=1neyieyi
这样就把模型的输出也变成了一个概率分布,从而可以用交叉熵来计算预测值和真实值之间的距离了。
信息熵、相对熵与交叉熵相关推荐
- 信息熵,条件熵,相对熵,交叉熵
转自详解机器学习中的熵.条件熵.相对熵和交叉熵 信息是一个很抽象的概念,百度百科中的定义: 信息是指音讯.消息.通讯系统传输和处理的对象,泛指人类社会传播的一切内容 那信息可以被量化么?可以的!香农提 ...
- 从信息熵、相对熵到交叉熵损失函数
信息熵.相对熵和交叉熵是机器学习中非常重要的概念,它们都是用来衡量不同概率分布之间的差异.在这篇博客中,我们将分别介绍这些概念,并用通俗易懂的语言以及实例的方式来阐述它们的含义. 信息熵 信息熵(En ...
- 信息熵、相对熵、交叉熵公式及tensorflow代码
最近在学习卷积神经网络,其中遇到了信息熵和交叉熵,对此理解的一知半解,现记录一下信息熵.相对熵.交叉熵公式及tensorflow代码,供以后参考. 假设概率分布中,真实分布: 假设分布: 信息量公式 ...
- 联合熵、条件熵、互信息、相对熵、交叉熵的详解
本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...
- Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数
文章目录 一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解 二.利用极大似然估计进行参数估计 三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...
- 熵、相对熵、交叉熵等理解
** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...
- 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
- 数学期望、信息量、信息熵、相对熵、交叉熵
1.数学期望 数学期望就是总体的均值,或者各项的加权平均. 先看离散的情况,假设X为离散型随机变量,x1,x2,x3,--,xk为随机变量的所有可能取值,p1,p2,p3,--,pk为随机变量相应取值 ...
- 信息熵、相对熵和交叉熵
此文章为了解交叉熵的小记,具体详细讲解可移至文末处参考文章 信息熵 信息的本质:信息是用来消除随机不确定性的东西: 信息量的大小与信息发生的概率成反比.概率越大,信息量越小.概率越小,信息量越大. 某 ...
- 信息熵、条件熵、信息增益、相对熵 、交叉熵 解析
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...
最新文章
- php laravel用的多不,php-Laravel多个可选参数不起作用
- Linux network source code
- 一个网站项目的开始,定位有多重要?
- DIV与SPAN之间有什么区别
- “microsoft ace oledb 12.0 未注册”疑云
- spring aop源码实现分析
- 从ThoughtWorks 2017技术雷达看微软技术
- 软件工程概论个人作业02(四则运算2)
- 游戏中用户升级的设计
- Building a Better Vocabulary: Lecture 1 Five Principles for Learning Vocabulary
- JAVA实现电路布线问题
- softmax 激活函数
- A. 运维体系 --- SLA理论体系
- 20个高效阅读小技巧
- 通过身份证号码获取年龄和出生日期
- “Word文件设置了多级列表,却还是不能创建目录”的解决办法
- ElasticSearch~received plaintext http traffic on an https channel, closing connection Netty4HttpChan
- C中strchr()函数用法
- wordpress中Google Map V3 for IDN 插件的使用
- 小规模企业如何做账 e-mail_小规模纳税人内资企业如何入帐?