0、sigmoid、softmax和交叉熵损失函数的概念理解

sigmoid、softmax和交叉熵损失函数

1、使用场景

在二分类问题中,神经网络输出层只有一个神经元,表示预测输出

是正类
的概率
,
:目标值
预测值

2、Softmax 回归

2.1 什么是 Softmax?

  • softmax 的作用是把 一个序列,变成概率。

它能够保证:

  • 1、所有的值都是

    之间的(因为概率必须是
  • 2、所有的值加起来等于
  • 3、从概率的角度解释 softmax 的话,就是

2.2 在多分类中的应用

对于多分类问题,用 N表示种类个数,那么神经网络的输出层的神经元个数必须为

, 每个神经元的输出依次对应属于N个类别当中某个具体类别的概率,即

图示理解

输出层即:

​​,Z的输出值个数为类别个数

需要对所有的输出结果进行一下softmax公式计算:

,我们来看一下计算案例:

图示理解

3、交叉熵(Cross-Entropy)损失

对于softmax回归(逻辑回归代价函数的推广,都可称之为交叉熵损失,只是一个用于二分类一个同于多分类),它的代价函数公式为:

(一个样本)

总损失函数可以记为

(多个样本)

逻辑回归的损失也可以这样表示,

示意图

所以与softmax是一样的,一个二分类一个多分类衡量。

对于真实值会进行一个one-hot编码,每一个样本的所属类别都会在某个类别位置上标记。

上图改样本的损失值为:

注:关于one_hot编码

3、Softmax 和 Cross-Entropy(交叉熵) 的关系

  • 先说结论: softmax 和 cross-entropy 本来太大的关系,只是把两个放在一起实现的话,算起来更快,也更数值稳定。
  • cross-entropy 不是机器学习独有的概念,本质上是用来衡量两个概率分布的相似性的。简单理解(只是简单理解!)就是这样: 如果有两组变量:
  • 如果你直接求 L2 距离,两个距离就很大了,但是你对这俩做 cross entropy,那么距离就是0。所以 cross-entropy 其实是更“灵活”一些。

那么我们知道了,cross entropy 是用来衡量两个概率分布之间的距离的,softmax能把一切转换成概率分布,那么自然二者经常在一起使用。但是你只需要简单推导一下,就会发现,softmax + cross entropy 就好像“往东走五米,再往西走十米”,我们为什么不直接“往西走五米”呢?cross entropy 的公式是

4、循环神经网络中的交叉熵损失

总损失定义:

  • 一整个序列(一个句子)作为一个训练实例,总误差就是各个时刻词的误差之和。

在这里,

是时刻
上正确的词,
是预测出来的词

图示

为什么使用交叉熵代替二次代价函数_Softmax回归与交叉熵损失的理解相关推荐

  1. 【深度学习】sigmoid - 二次代价函数 - 交叉熵 - logistic回归 - softmax

    1. sigmoid函数:σ(z) = 1/(1+e^(-z)) sigmoid函数有个性质:σ'(z) =σ(z) * ( 1 - σ(z) ) sigmoid函数一般是作为每层的激活函数,而下边的 ...

  2. 【机器学习】 二次损失函数的不足及交叉熵损失softmax详解

    二次代价函数的不足: 以sigmoid激活函数为例,由于初始化是随机的,假设目标值为0,第一次随机初始化使得输入为0.82,那么还可以,多次迭代之后可以收敛到0.09,但如果第一次随机初始化到0.98 ...

  3. sigmoid函数求导_交叉熵损失函数的求导(Logistic回归)

    目录 前言 交叉熵损失函数 交叉熵损失函数的求导 前言 最近有遇到些同学找我讨论sigmoid训练多标签或者用在目标检测中的问题,我想写一些他们的东西,想到以前的博客里躺着这篇文章(2015年读研时机 ...

  4. softmax回归与交叉熵损失

    前言 回归与分类是机器学习中的两个主要问题,二者有着紧密的联系,但又有所不同.在一个预测任务中,回归问题解决的是多少的问题,如房价预测问题,而分类问题用来解决是什么的问题,如猫狗分类问题.分类问题又以 ...

  5. 深度学习-Tensorflow2.2-深度学习基础和tf.keras{1}-逻辑回归与交叉熵概述-05

    线性回归预测的是一个连续值,逻辑回归给出的"是"和"否"的答案一个二元分类的问题. sigmoid函数是一个概率分布函数,给定某个输入,它将输出为一个概率值. ...

  6. matlab图像信息熵交叉熵,【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)...

    首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,以前很是著名的那篇LSTM讲解的文章也是他写的.这篇文章详细讲解了信息 ...

  7. 图像的一维熵和二维熵

    图像的一维熵和二维熵 图像的熵是一种特征的统计形式,它反映了图像中平均信息量的多少.图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图象的 ...

  8. 联合熵、条件熵、互信息、相对熵、交叉熵的详解

    本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...

  9. 大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

                                                   第十八节逻辑回归之交叉熵损失函数梯度求解过程(2) 上一节中,我们讲解了交叉熵损失函数的概念,目标是要找到 ...

最新文章

  1. CVPR发布禁令:盲评的论文不能在社交平台上讨论!LeCun:这政策简直疯了
  2. Android性能测试-分析工具
  3. UFLDL教程: Exercise:Learning color features with Sparse Autoencoders
  4. 滴滴不倒闭,世界和中国的奇迹!
  5. mysql 分组查出来横向展示_MySQL汇总分析(group by)
  6. android http 慢,android httpurlconnection數據連接速度慢
  7. F5紧急修复严重的 BIG-IP 预认证 RCE 漏洞
  8. GIS-空间分析(4)
  9. PX4从放弃到精通(二十七):固定翼姿态控制
  10. 轻量人像分割SINet
  11. kafka 复制因子_选择正确的分区计数复制因子apache kafka
  12. 2345王牌浏览器如何使用小窗播放?
  13. 【E2E】E2E通信保护协议学习1
  14. 用html制作表白网站制作 超炫酷的七夕情人节表白网页代码
  15. Excel-数据分析-线性回归判断及预测分析
  16. html如何画出抽奖的转盘,HTML5之CANVAS学习,实现抽奖转盘
  17. C# Html转PDF 用itextsharp把Html转PDF 完整版
  18. Oracle存储过程编译卡死或者运行卡死的解决方法
  19. HTML中利用404将老域名重定向到新域名
  20. (转载)爽口凉菜——凉拌豆腐皮

热门文章

  1. mysql回表查询uuid_MySQL数据库回表与索引
  2. [20180123]测试SQLNET.EXPIRE_TIME参数.txt
  3. 如何尽量规避XSS(跨站点脚本)攻击
  4. 业务运维:站在企业转型风口上的云智慧
  5. [浪风JQuery开发]jquery最有意思的IFrame类似应用--值得深入研究
  6. 2753:走迷宫(dfs+初剪)//可以说是很水了。。。
  7. android 相对布局例子代码
  8. 【BZOJ3132】【TYVJ1716】上帝造题的七分钟 二维树状数组
  9. 四周第五次课(1月6日) 6.5 zip压缩工具 6.6 tar打包 6.7 打包并压缩
  10. vue.js基础知识篇(5):过渡、Method和Vue实例方法