作者 | Vijendra Singh

编译 | VK

来源 | Medium

整理 | 磐创AI

交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。

为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失

自信息

"你对结果感到惊讶的程度"

一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果是第i个结果的概率,那么我们可以把自信息s表示为:

现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e),如果有n个结果,则可以写成:

交叉熵

现在,如果每个结果的实际概率为却有人将概率估计为怎么办。在这种情况下,每个事件都将以的概率发生,但是公式里的自信息就要改成(因为人们以为结果的概率是)。现在,在这种情况下,加权平均自信息就变为了交叉熵c,它可以写成:

交叉熵总是大于熵,并且仅在以下情况下才与熵相同 ,你可以观看
https://www.desmos.com/calculator/zytm2sf56e的插图来帮助理解。

交叉熵损失

紫色线代表蓝色曲线下的面积,估计概率分布(橙色线),实际概率分布(红色线)

在上面我提到的图中,你会注意到,随着估计的概率分布偏离实际/期望的概率分布,交叉熵增加,反之亦然。因此,我们可以说,最小化交叉熵将使我们更接近实际/期望的分布,这就是我们想要的。这就是为什么我们尝试降低交叉熵,以使我们的预测概率分布最终接近实际分布的原因。因此,我们得到交叉熵损失的公式为:

在只有两个类的二分类问题的情况下,我们将其命名为二分类交叉熵损失,以上公式变为:


方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读:

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


让更多的人知道你“在看”

一文总结熵,交叉熵与交叉熵损失相关推荐

  1. 平均符号熵的计算公式_交叉熵(Cross Entropy)从原理到代码解读

    交叉熵(Cross Entropy)是Shannon(香浓)信息论中的一个概念,在深度学习领域中解决分类问题时常用它作为损失函数. 原理部分:要想搞懂交叉熵需要先清楚一些概念,顺序如下:==1.自信息 ...

  2. 熵、联和熵与条件熵、交叉熵与相对熵是什么呢?来这里有详细解读!

    熵是一个很常见的名词,在物理上有重要的评估意义,自然语言处理的预备知识中,熵作为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与大家分享. 信息论基本知识 1.熵 2.联和熵与条件熵 3 ...

  3. 熵、相对熵、交叉熵等理解

    ** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...

  4. 信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

    文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...

  5. 【交叉熵损失函数】关于交叉熵损失函数的一些理解

    目录 0. 前言 1.损失函数(Loss Function) 1.1 损失项 1.2 正则化项 2. 交叉熵损失函数 2.1 softmax 2.2 交叉熵 0. 前言 有段时间没写博客了,前段时间主 ...

  6. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  7. kl距离 java_信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息。

    一直就对机器学习中各种XX熵的概念比较模糊,现在总结一下自己的学习心得. 信息量 先说一下信息量的概念,其实熵就是信息量的集合. 摘抄个例子: 英文有26个字母,假设每个字母出现的概率是一样的,每个字 ...

  8. 钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(SOFC)材料

    钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(SOFC)材料 钙钛矿复合氧化物具有独特的晶体结构,尤其经掺杂后形成的晶体缺陷结构和性能,被应用或可被应用在固体燃料电池.固体 ...

  9. 【熵与特征提取】从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第一篇)——近似熵及其MATLAB实现

    在特征提取领域,近似熵.样本熵.排列熵和模糊熵是比较经常出现的概念. 首先一句话总结一下:这几个熵值都是用来表征信号序列复杂程度的无量纲指标,熵值越大代表信号复杂度越大.信号复杂程度的表征在机械设备状 ...

  10. 【熵与特征提取】从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第四篇)——“排列熵”及其MATLAB实现

    今天讲排列熵,之前用了三篇文章分别讲述了近似熵.样本熵和模糊熵: Mr.看海:[熵与特征提取]从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第一篇)--"近似熵"及其 ...

最新文章

  1. 创建域名Linux服务器,linux 构建域名服务器
  2. 【PC工具】GiliSoft Video Editor目测还可以的视频制作工具,视频裁剪、转换、合并、加水印、加特效...
  3. 递归下降分析法(编译原理)
  4. Java虚拟机运行流程
  5. NCspider项目总结
  6. 淘宝架构师为你揭秘2017双十一分布式缓存服务Tair
  7. DDIA笔记——数据复制
  8. Spring笔记——使用Spring进行面向切面(AOP)编程
  9. Java 虚拟机 最易理解的 全面解析
  10. ae预览不了多次_AE不能预览全部视频的原因分析及解决方案
  11. 【逆序对相关/数学】【P1966】【NOIP2013D1T2】 火柴排队
  12. confluence统计用户文章_首次,Flink公众号公开一些后台统计数据
  13. 洛克菲勒的逆商:如何在逆境中转换思维走向成功
  14. Qt5学习笔记之串口助手三:打包成Windows软件
  15. 格式化的硬盘数据恢复,硬盘格式化了怎么恢复数据恢复
  16. 工业机器人——机械手臂
  17. Vue中使用axio跨域请求外部WebService接口
  18. 机械制图之工程图线型
  19. 使用Docker安装Redis并设置自启动
  20. windows7点击安全删除硬件并弹出媒体无反应解决方法

热门文章

  1. hihocoder题目
  2. 《sqoop实现hdfs中的数据导出至mysql数据库》
  3. (转) 如何在JavaScript与ActiveX之间传递数据1
  4. 检测浏览器的关闭事件
  5. 20190820 On Java8 第十章 接口
  6. ccs中如何插入字体
  7. 分治算法——在真币中找出伪币
  8. Android—— Fragment 真正的完全解析(上)(转)
  9. 【Spring】学习SpringAOP
  10. JSP中乱码问题,你真的理解了么?