目录

  • 1. 信息熵
  • 2. 相对熵
  • 3. 交叉熵
  • 4. 交叉熵与softmax

1. 信息熵

  熵是一个信息论中的概念,表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。信息熵公式如下:
H(p)=−∑i=1np(xi)logp(xi)H(p)=-\sum_{i=1}^{n}{p(x_i)logp(x_i)}H(p)=−i=1∑n​p(xi​)logp(xi​)
关于熵的详细解释可参考最大熵阈值分割法

2. 相对熵

  相对熵又称KL散度,用于衡量对于同一个随机变量x的两个分布p(x)p(x)p(x)和q(x)q(x)q(x)之间的差异。p(x)p(x)p(x)表示样本真实分布,q(x)q(x)q(x)表示模型预测分布,模型训练就是不断让q(x)q(x)q(x)分布拟合分布p(x)p(x)p(x)。KL散度的值越小表示两个分布越接近。KL散度公式如下:
DKL(p∣∣q)=∑i=1np(xi)logp(xi)q(xi)D_{KL}(p||q)=\sum_{i=1}^{n}{p(x_i)log\frac{p(x_i)}{q(x_i)}}DKL​(p∣∣q)=i=1∑n​p(xi​)logq(xi​)p(xi​)​

3. 交叉熵

  将KL散度变形得到如下表达式:
DKL(p∣∣q)=∑i=1np(xi)logp(xi)−∑i=1np(xi)logq(xi)=−H(p(x))+[−∑i=1np(xi)logq(xi)]\begin{aligned} D_{KL}(p||q)&=\sum_{i=1}^{n}{p(x_i)logp(x_i)}-\sum_{i=1}^{n}{p(x_i)logq(x_i)} \\ &=-H(p(x))+[-\sum_{i=1}^{n}{p(x_i)logq(x_i)}] \end{aligned} DKL​(p∣∣q)​=i=1∑n​p(xi​)logp(xi​)−i=1∑n​p(xi​)logq(xi​)=−H(p(x))+[−i=1∑n​p(xi​)logq(xi​)]​
  第一项就是p(x)p(x)p(x)的信息熵,第二项就是交叉熵cross entropy。我们常用KL散度来评估真实标签和预测标签的差别,由于KL散度第一项是个常量,所以直接将第二项的交叉熵作为损失函数也是一样的。

4. 交叉熵与softmax

  分类问题中常用交叉熵作为模型的损失函数。样本标签 y 的值为1或者0可以看做是概率,而模型的输出是一个实数值,如何将这个实数值转换成概率呢?这就要用到 softmax 函数了(所以面试官会经常问为什么交叉熵要和 softmax 一起用)。假设模型输出为y1,y2,...,yny_1,y_2,...,y_ny1​,y2​,...,yn​,经过 softmax 后的输出为:
softmax(yi)=eyi∑j=1neyisoftmax(y_i)=\frac{e^{y_i}}{\sum_{j=1}^{n}{e^{y_i}}}softmax(yi​)=∑j=1n​eyi​eyi​​
  这样就把模型的输出也变成了一个概率分布,从而可以用交叉熵来计算预测值和真实值之间的距离了。

信息熵、相对熵与交叉熵相关推荐

  1. 信息熵,条件熵,相对熵,交叉熵

    转自详解机器学习中的熵.条件熵.相对熵和交叉熵 信息是一个很抽象的概念,百度百科中的定义: 信息是指音讯.消息.通讯系统传输和处理的对象,泛指人类社会传播的一切内容 那信息可以被量化么?可以的!香农提 ...

  2. 从信息熵、相对熵到交叉熵损失函数

    信息熵.相对熵和交叉熵是机器学习中非常重要的概念,它们都是用来衡量不同概率分布之间的差异.在这篇博客中,我们将分别介绍这些概念,并用通俗易懂的语言以及实例的方式来阐述它们的含义. 信息熵 信息熵(En ...

  3. 信息熵、相对熵、交叉熵公式及tensorflow代码

    最近在学习卷积神经网络,其中遇到了信息熵和交叉熵,对此理解的一知半解,现记录一下信息熵.相对熵.交叉熵公式及tensorflow代码,供以后参考. 假设概率分布中,真实分布:  假设分布: 信息量公式 ...

  4. 联合熵、条件熵、互信息、相对熵、交叉熵的详解

    本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...

  5. Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数

    文章目录 一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解 二.利用极大似然估计进行参数估计 三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...

  6. 熵、相对熵、交叉熵等理解

    ** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...

  7. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  8. 数学期望、信息量、信息熵、相对熵、交叉熵

    1.数学期望 数学期望就是总体的均值,或者各项的加权平均. 先看离散的情况,假设X为离散型随机变量,x1,x2,x3,--,xk为随机变量的所有可能取值,p1,p2,p3,--,pk为随机变量相应取值 ...

  9. 信息熵、相对熵和交叉熵

    此文章为了解交叉熵的小记,具体详细讲解可移至文末处参考文章 信息熵 信息的本质:信息是用来消除随机不确定性的东西: 信息量的大小与信息发生的概率成反比.概率越大,信息量越小.概率越小,信息量越大. 某 ...

  10. 信息熵、条件熵、信息增益、相对熵 、交叉熵 解析

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

最新文章

  1. php laravel用的多不,php-Laravel多个可选参数不起作用
  2. Linux network source code
  3. 一个网站项目的开始,定位有多重要?
  4. DIV与SPAN之间有什么区别
  5. “microsoft ace oledb 12.0 未注册”疑云
  6. spring aop源码实现分析
  7. 从ThoughtWorks 2017技术雷达看微软技术
  8. 软件工程概论个人作业02(四则运算2)
  9. 游戏中用户升级的设计
  10. Building a Better Vocabulary: Lecture 1 Five Principles for Learning Vocabulary
  11. JAVA实现电路布线问题
  12. softmax 激活函数
  13. A. 运维体系 --- SLA理论体系
  14. 20个高效阅读小技巧
  15. 通过身份证号码获取年龄和出生日期
  16. “Word文件设置了多级列表,却还是不能创建目录”的解决办法
  17. ElasticSearch~received plaintext http traffic on an https channel, closing connection Netty4HttpChan
  18. C中strchr()函数用法
  19. wordpress中Google Map V3 for IDN 插件的使用
  20. 小规模企业如何做账 e-mail_小规模纳税人内资企业如何入帐?

热门文章

  1. 3D 旋转相册 立方体的盒子 相册(源码分享)
  2. 实用软件—chipgenius芯片精灵
  3. 一款支持mqtt协议的数据网关
  4. ubuntu20.04WPS解决缺失字体的问题
  5. MVC5 + EF6 + Bootstrap3 (13) 查看详情、编辑数据、删除数据
  6. 微信公众号小程序微商城源码
  7. 触摸屏学习:利用状态机编程
  8. 联想电脑如何进入BIOS的方法汇总
  9. python计算机二级刷题软件(未来教育) 第十五套
  10. 基于dsp28035之Simulink实验系列(1)-点亮第一盏灯