为什么使用交叉熵代替二次代价函数_Softmax回归与交叉熵损失的理解
0、sigmoid、softmax和交叉熵损失函数的概念理解
sigmoid、softmax和交叉熵损失函数
1、使用场景
在二分类问题中,神经网络输出层只有一个神经元,表示预测输出
:目标值预测值
2、Softmax 回归
2.1 什么是 Softmax?
- softmax 的作用是把 一个序列,变成概率。
它能够保证:
- 1、所有的值都是
之间的(因为概率必须是)
- 2、所有的值加起来等于
- 3、从概率的角度解释 softmax 的话,就是
2.2 在多分类中的应用
对于多分类问题,用 N表示种类个数,那么神经网络的输出层的神经元个数必须为
图示理解
输出层即:
需要对所有的输出结果进行一下softmax公式计算:
图示理解
3、交叉熵(Cross-Entropy)损失
对于softmax回归(逻辑回归代价函数的推广,都可称之为交叉熵损失,只是一个用于二分类一个同于多分类),它的代价函数公式为:
总损失函数可以记为
逻辑回归的损失也可以这样表示,
示意图
所以与softmax是一样的,一个二分类一个多分类衡量。
对于真实值会进行一个one-hot编码,每一个样本的所属类别都会在某个类别位置上标记。
上图改样本的损失值为:
注:关于one_hot编码
3、Softmax 和 Cross-Entropy(交叉熵) 的关系
- 先说结论: softmax 和 cross-entropy 本来太大的关系,只是把两个放在一起实现的话,算起来更快,也更数值稳定。
- cross-entropy 不是机器学习独有的概念,本质上是用来衡量两个概率分布的相似性的。简单理解(只是简单理解!)就是这样: 如果有两组变量:
- 如果你直接求 L2 距离,两个距离就很大了,但是你对这俩做 cross entropy,那么距离就是0。所以 cross-entropy 其实是更“灵活”一些。
那么我们知道了,cross entropy 是用来衡量两个概率分布之间的距离的,softmax能把一切转换成概率分布,那么自然二者经常在一起使用。但是你只需要简单推导一下,就会发现,softmax + cross entropy 就好像“往东走五米,再往西走十米”,我们为什么不直接“往西走五米”呢?cross entropy 的公式是
4、循环神经网络中的交叉熵损失
总损失定义:
- 一整个序列(一个句子)作为一个训练实例,总误差就是各个时刻词的误差之和。
在这里,
图示
为什么使用交叉熵代替二次代价函数_Softmax回归与交叉熵损失的理解相关推荐
- 【深度学习】sigmoid - 二次代价函数 - 交叉熵 - logistic回归 - softmax
1. sigmoid函数:σ(z) = 1/(1+e^(-z)) sigmoid函数有个性质:σ'(z) =σ(z) * ( 1 - σ(z) ) sigmoid函数一般是作为每层的激活函数,而下边的 ...
- 【机器学习】 二次损失函数的不足及交叉熵损失softmax详解
二次代价函数的不足: 以sigmoid激活函数为例,由于初始化是随机的,假设目标值为0,第一次随机初始化使得输入为0.82,那么还可以,多次迭代之后可以收敛到0.09,但如果第一次随机初始化到0.98 ...
- sigmoid函数求导_交叉熵损失函数的求导(Logistic回归)
目录 前言 交叉熵损失函数 交叉熵损失函数的求导 前言 最近有遇到些同学找我讨论sigmoid训练多标签或者用在目标检测中的问题,我想写一些他们的东西,想到以前的博客里躺着这篇文章(2015年读研时机 ...
- softmax回归与交叉熵损失
前言 回归与分类是机器学习中的两个主要问题,二者有着紧密的联系,但又有所不同.在一个预测任务中,回归问题解决的是多少的问题,如房价预测问题,而分类问题用来解决是什么的问题,如猫狗分类问题.分类问题又以 ...
- 深度学习-Tensorflow2.2-深度学习基础和tf.keras{1}-逻辑回归与交叉熵概述-05
线性回归预测的是一个连续值,逻辑回归给出的"是"和"否"的答案一个二元分类的问题. sigmoid函数是一个概率分布函数,给定某个输入,它将输出为一个概率值. ...
- matlab图像信息熵交叉熵,【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)...
首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,以前很是著名的那篇LSTM讲解的文章也是他写的.这篇文章详细讲解了信息 ...
- 图像的一维熵和二维熵
图像的一维熵和二维熵 图像的熵是一种特征的统计形式,它反映了图像中平均信息量的多少.图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图象的 ...
- 联合熵、条件熵、互信息、相对熵、交叉熵的详解
本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...
- 大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)
第十八节逻辑回归之交叉熵损失函数梯度求解过程(2) 上一节中,我们讲解了交叉熵损失函数的概念,目标是要找到 ...
最新文章
- CVPR发布禁令:盲评的论文不能在社交平台上讨论!LeCun:这政策简直疯了
- Android性能测试-分析工具
- UFLDL教程: Exercise:Learning color features with Sparse Autoencoders
- 滴滴不倒闭,世界和中国的奇迹!
- mysql 分组查出来横向展示_MySQL汇总分析(group by)
- android http 慢,android httpurlconnection數據連接速度慢
- F5紧急修复严重的 BIG-IP 预认证 RCE 漏洞
- GIS-空间分析(4)
- PX4从放弃到精通(二十七):固定翼姿态控制
- 轻量人像分割SINet
- kafka 复制因子_选择正确的分区计数复制因子apache kafka
- 2345王牌浏览器如何使用小窗播放?
- 【E2E】E2E通信保护协议学习1
- 用html制作表白网站制作 超炫酷的七夕情人节表白网页代码
- Excel-数据分析-线性回归判断及预测分析
- html如何画出抽奖的转盘,HTML5之CANVAS学习,实现抽奖转盘
- C# Html转PDF 用itextsharp把Html转PDF 完整版
- Oracle存储过程编译卡死或者运行卡死的解决方法
- HTML中利用404将老域名重定向到新域名
- (转载)爽口凉菜——凉拌豆腐皮
热门文章
- mysql回表查询uuid_MySQL数据库回表与索引
- [20180123]测试SQLNET.EXPIRE_TIME参数.txt
- 如何尽量规避XSS(跨站点脚本)攻击
- 业务运维:站在企业转型风口上的云智慧
- [浪风JQuery开发]jquery最有意思的IFrame类似应用--值得深入研究
- 2753:走迷宫(dfs+初剪)//可以说是很水了。。。
- android 相对布局例子代码
- 【BZOJ3132】【TYVJ1716】上帝造题的七分钟 二维树状数组
- 四周第五次课(1月6日) 6.5 zip压缩工具 6.6 tar打包 6.7 打包并压缩
- vue.js基础知识篇(5):过渡、Method和Vue实例方法