一文总结熵，交叉熵与交叉熵损失

作者 | Vijendra Singh

编译 | VK

来源 | Medium

整理 | 磐创AI

交叉熵损失是深度学习中应用最广泛的损失函数之一，这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时，我很难理解它背后的直觉。在google了不同材料后，我能够得到一个令人满意的理解，我想在这篇文章中分享它。

为了全面理解，我们需要按照以下顺序理解概念:自信息, 熵，交叉熵和交叉熵损失

自信息

"你对结果感到惊讶的程度"

一个低概率的结果与一个高概率的结果相比，低概率的结果带来的信息量更大。现在，如果是第i个结果的概率，那么我们可以把自信息s表示为:

熵

现在我知道一个事件产生某个结果的自信息，我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率，所以用概率作为权重是有意义的，因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e)，如果有n个结果，则可以写成:

交叉熵

现在，如果每个结果的实际概率为却有人将概率估计为怎么办。在这种情况下，每个事件都将以的概率发生，但是公式里的自信息就要改成（因为人们以为结果的概率是）。现在，在这种情况下，加权平均自信息就变为了交叉熵c，它可以写成：

交叉熵总是大于熵，并且仅在以下情况下才与熵相同，你可以观看
https://www.desmos.com/calculator/zytm2sf56e的插图来帮助理解。

交叉熵损失

紫色线代表蓝色曲线下的面积，估计概率分布（橙色线），实际概率分布（红色线）

在上面我提到的图中，你会注意到，随着估计的概率分布偏离实际/期望的概率分布，交叉熵增加，反之亦然。因此，我们可以说，最小化交叉熵将使我们更接近实际/期望的分布，这就是我们想要的。这就是为什么我们尝试降低交叉熵，以使我们的预测概率分布最终接近实际分布的原因。因此，我们得到交叉熵损失的公式为：

在只有两个类的二分类问题的情况下，我们将其命名为二分类交叉熵损失，以上公式变为：

方便交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

一文总结熵，交叉熵与交叉熵损失相关推荐

平均符号熵的计算公式_交叉熵(Cross Entropy)从原理到代码解读
交叉熵(Cross Entropy)是Shannon(香浓)信息论中的一个概念,在深度学习领域中解决分类问题时常用它作为损失函数. 原理部分:要想搞懂交叉熵需要先清楚一些概念,顺序如下:==1.自信息 ...
熵、联和熵与条件熵、交叉熵与相对熵是什么呢？来这里有详细解读！
熵是一个很常见的名词,在物理上有重要的评估意义,自然语言处理的预备知识中,熵作为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与大家分享. 信息论基本知识 1.熵 2.联和熵与条件熵 3 ...
熵、相对熵、交叉熵等理解
** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...
信息论复习笔记（1）：信息熵、条件熵，联合熵，互信息、交叉熵，相对熵
文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...
【交叉熵损失函数】关于交叉熵损失函数的一些理解
目录 0. 前言 1.损失函数(Loss Function) 1.1 损失项 1.2 正则化项 2. 交叉熵损失函数 2.1 softmax 2.2 交叉熵 0. 前言有段时间没写博客了,前段时间主 ...
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼目录一.熵二.联合熵三.相对熵(KL散度) 四.交叉熵五.JS散度六.互信息七.条件熵八.总结一.熵对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
kl距离 java_信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息。
一直就对机器学习中各种XX熵的概念比较模糊,现在总结一下自己的学习心得. 信息量先说一下信息量的概念,其实熵就是信息量的集合. 摘抄个例子: 英文有26个字母,假设每个字母出现的概率是一样的,每个字 ...
钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(ＳＯＦＣ)材料
钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(SOFC)材料钙钛矿复合氧化物具有独特的晶体结构,尤其经掺杂后形成的晶体缺陷结构和性能,被应用或可被应用在固体燃料电池.固体 ...
【熵与特征提取】从近似熵，到样本熵，到模糊熵，再到排列熵，究竟实现了什么？（第一篇）——近似熵及其MATLAB实现
在特征提取领域,近似熵.样本熵.排列熵和模糊熵是比较经常出现的概念. 首先一句话总结一下:这几个熵值都是用来表征信号序列复杂程度的无量纲指标,熵值越大代表信号复杂度越大.信号复杂程度的表征在机械设备状 ...
【熵与特征提取】从近似熵，到样本熵，到模糊熵，再到排列熵，究竟实现了什么？（第四篇）——“排列熵”及其MATLAB实现
今天讲排列熵,之前用了三篇文章分别讲述了近似熵.样本熵和模糊熵: Mr.看海:[熵与特征提取]从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第一篇)--"近似熵"及其 ...

一文总结熵，交叉熵与交叉熵损失

自信息

熵

交叉熵

交叉熵损失

一文总结熵，交叉熵与交叉熵损失相关推荐

最新文章

热门文章