一文总结熵,交叉熵与交叉熵损失
作者 | Vijendra Singh
编译 | VK
来源 | Medium
整理 | 磐创AI
交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。
为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失
自信息
"你对结果感到惊讶的程度"
一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果是第i个结果的概率,那么我们可以把自信息s表示为:
熵
现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e),如果有n个结果,则可以写成:
交叉熵
现在,如果每个结果的实际概率为却有人将概率估计为怎么办。在这种情况下,每个事件都将以的概率发生,但是公式里的自信息就要改成(因为人们以为结果的概率是)。现在,在这种情况下,加权平均自信息就变为了交叉熵c,它可以写成:
交叉熵总是大于熵,并且仅在以下情况下才与熵相同 ,你可以观看
https://www.desmos.com/calculator/zytm2sf56e的插图来帮助理解。
交叉熵损失
紫色线代表蓝色曲线下的面积,估计概率分布(橙色线),实际概率分布(红色线)
在上面我提到的图中,你会注意到,随着估计的概率分布偏离实际/期望的概率分布,交叉熵增加,反之亦然。因此,我们可以说,最小化交叉熵将使我们更接近实际/期望的分布,这就是我们想要的。这就是为什么我们尝试降低交叉熵,以使我们的预测概率分布最终接近实际分布的原因。因此,我们得到交叉熵损失的公式为:
在只有两个类的二分类问题的情况下,我们将其命名为二分类交叉熵损失,以上公式变为:
方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐阅读:
【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文
【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
【一分钟论文】Semi-supervised Sequence Learning半监督序列学习
【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing
详解Transition-based Dependency parser基于转移的依存句法解析器
经验 | 初入NLP领域的一些小建议
学术 | 如何写一篇合格的NLP论文
干货 | 那些高产的学者都是怎样工作的?
一个简单有效的联合模型
近年来NLP在法律领域的相关研究工作
让更多的人知道你“在看”
一文总结熵,交叉熵与交叉熵损失相关推荐
- 平均符号熵的计算公式_交叉熵(Cross Entropy)从原理到代码解读
交叉熵(Cross Entropy)是Shannon(香浓)信息论中的一个概念,在深度学习领域中解决分类问题时常用它作为损失函数. 原理部分:要想搞懂交叉熵需要先清楚一些概念,顺序如下:==1.自信息 ...
- 熵、联和熵与条件熵、交叉熵与相对熵是什么呢?来这里有详细解读!
熵是一个很常见的名词,在物理上有重要的评估意义,自然语言处理的预备知识中,熵作为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与大家分享. 信息论基本知识 1.熵 2.联和熵与条件熵 3 ...
- 熵、相对熵、交叉熵等理解
** 信息量 ** 假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈. 事件B:中国队进入了2018世界杯决赛圈. 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大. ...
- 信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵
文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...
- 【交叉熵损失函数】关于交叉熵损失函数的一些理解
目录 0. 前言 1.损失函数(Loss Function) 1.1 损失项 1.2 正则化项 2. 交叉熵损失函数 2.1 softmax 2.2 交叉熵 0. 前言 有段时间没写博客了,前段时间主 ...
- 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
- kl距离 java_信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息。
一直就对机器学习中各种XX熵的概念比较模糊,现在总结一下自己的学习心得. 信息量 先说一下信息量的概念,其实熵就是信息量的集合. 摘抄个例子: 英文有26个字母,假设每个字母出现的概率是一样的,每个字 ...
- 钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(SOFC)材料
钙钛矿型复合氧化物高熵陶瓷/过渡金属碳氮化物高熵陶瓷/固体氧化物燃料电池(SOFC)材料 钙钛矿复合氧化物具有独特的晶体结构,尤其经掺杂后形成的晶体缺陷结构和性能,被应用或可被应用在固体燃料电池.固体 ...
- 【熵与特征提取】从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第一篇)——近似熵及其MATLAB实现
在特征提取领域,近似熵.样本熵.排列熵和模糊熵是比较经常出现的概念. 首先一句话总结一下:这几个熵值都是用来表征信号序列复杂程度的无量纲指标,熵值越大代表信号复杂度越大.信号复杂程度的表征在机械设备状 ...
- 【熵与特征提取】从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第四篇)——“排列熵”及其MATLAB实现
今天讲排列熵,之前用了三篇文章分别讲述了近似熵.样本熵和模糊熵: Mr.看海:[熵与特征提取]从近似熵,到样本熵,到模糊熵,再到排列熵,究竟实现了什么?(第一篇)--"近似熵"及其 ...
最新文章
- 创建域名Linux服务器,linux 构建域名服务器
- 【PC工具】GiliSoft Video Editor目测还可以的视频制作工具,视频裁剪、转换、合并、加水印、加特效...
- 递归下降分析法(编译原理)
- Java虚拟机运行流程
- NCspider项目总结
- 淘宝架构师为你揭秘2017双十一分布式缓存服务Tair
- DDIA笔记——数据复制
- Spring笔记——使用Spring进行面向切面(AOP)编程
- Java 虚拟机 最易理解的 全面解析
- ae预览不了多次_AE不能预览全部视频的原因分析及解决方案
- 【逆序对相关/数学】【P1966】【NOIP2013D1T2】 火柴排队
- confluence统计用户文章_首次,Flink公众号公开一些后台统计数据
- 洛克菲勒的逆商:如何在逆境中转换思维走向成功
- Qt5学习笔记之串口助手三:打包成Windows软件
- 格式化的硬盘数据恢复,硬盘格式化了怎么恢复数据恢复
- 工业机器人——机械手臂
- Vue中使用axio跨域请求外部WebService接口
- 机械制图之工程图线型
- 使用Docker安装Redis并设置自启动
- windows7点击安全删除硬件并弹出媒体无反应解决方法