softmax、softmax损失函数、cross-entropy损失函数
softmax
softmax ,顾名思义,就是 soft 版本的 max。
在了解 softmax 之前,先看看什么是 hardmax。
hardmax 就是直接选出一个最大值,例如 [1,2,3] 的 hardmax 就是 3,而且只选出最大值,非黑即白,但是实际中这种方式往往是不合理的,例如对于文本分类来说,一篇文章或多或少包含着各种主题信息,我们更期望得到文章属于各种主题的概率值,而不是简单直接地归类为某一种唯一的主题。这里就需要用到soft的概念,即不再唯一地确定某一个最大值,而是为每个输出分类的结果都赋予一个概率值,表示属于每个类别的可能性。
hardmax 简单直观,但是有很严重的梯度问题,求最大值这个函数本身的梯度是非常非常稀疏的,例如神经网络中的 max pooling,经过 hardmax 后,只有被选中的那个变量上才有梯度,其他变量都没有梯度。
那么,什么是 softmax?
softmax 就是把原始的变量做一个数学变换,变换公式为
例如原始变量为 [1,2,3],经过 softmax 后就变成了
[ e^1 / ( e1+e2+e^3 ) ,e^2 / ( e1+e2+e^3 ) ,e^3 / ( e1+e2+e^3 ) ]
=[ 2.718/(2.718+7.389+20.085), 7.389/(2.718+7.389+20.085), 20.085/(2.718+7.389+20.085)]
=[ 0.09, 0.245, 0.665 ]
可以看到,softmax 有以下特征:
- 所有值都在 [0,1] 之间;
- 所有值的和加起来等于1;
而上述特征刚好跟概率的概念相符合,因此,可以把它当作概率值。
softmax 不会像 hardmax 那样有严重的梯度问题,能够很方便地求梯度,很适合用于神经网络的反向传播,进行梯度更新。
总的来说,softmax可以将任意一组变量变为概率分布的形式。
softmax 损失函数
由上面可知,softmax函数的表达式为:
其中i表示输出节点的编号。
假设此时第i个输出节点为正确类别对应的输出节点,则Pi是正确类别对应输出节点的概率值。添加log运算不影响函数的单调性,首先为Pi添加log运算:
此时Pi是正确类别对应的输出节点的概率,当然希望此时的Pi越大越好。通常情况下使用梯度下降法来迭代求解,因此只需要为 logPi 加上一个负号变成损失函数,变成了希望损失函数越小越好:
对上面的式子进一步处理:
上式就是 softmax 损失函数。
softmax 损失函数只针对正确类别的对应的输出节点,将这个位置的softmax值最大化。
卷积神经网络系列之softmax,softmax loss和cross entropy的讲解
cross-entropy 交叉熵损失函数
简单的交叉熵损失函数,你真的懂了吗?
cross-entropy 不是机器学习独有的概念,本质上是用来衡量两个概率分布的相似性的。
上式中,p代表正确答案,q代表的是预测值。交叉熵值越小,两个概率分布越接近。
需要注意的是,交叉熵刻画的是两个概率分布之间的距离,然而神经网络的输出却不一定是一个概率分布,很多情况下是实数。如何将神经网络前向传播得到的结果也变成概率分布,Softmax回归就是一个非常有用的方法。
Softmax将神经网络的输出变成了一个概率分布,这个新的输出可以理解为经过神经网络的推导,一个样例为不同类别的概率分别是多大。这样就把神经网络的输出也变成了一个概率分布,从而可以通过交叉熵来计算预测的概率分布和真实答案的概率分布之间的距离了。
神经网络多分类任务的损失函数——交叉熵
交叉熵损失函数表达式为:
上述式子中 yc 是指真实样本的标签值,Pc 是指 实际的输出 经过 softmax 计算 后得到的概率值,该式子能够衡量真实分布和实际输出的分布之间的距离,
由于 softmax 可以将一组变量转换为概率分布,而 cross-entropy 又能够衡量两个概率分布之间的距离,因此,softmax 和 cross-entropy 经常结合在一起使用
总的来说,交叉熵损失函数刻画了两个概率分布之间的距离,通常用在神经网络的多分类任务中,可以表示 真实标签值 与 神经网络输出经softmax计算后得到的预测概率值 之间的损失大小
一文详解Softmax函数
你 真的 懂 Softmax 吗?
交叉熵(Cross-Entropy)
softmax、softmax损失函数、cross-entropy损失函数相关推荐
- python损失函数实现_pytorch 实现cross entropy损失函数计算方式
均方损失函数: 这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,i 是下标. 很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数.因为一般损失函 ...
- 卷积神经网络系列之softmax,softmax loss和cross entropy的讲解
我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...
- softmax,softmax loss和cross entropy
我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...
- 卷积神经网络系列之softmax,softmax loss和cross entropy
全连接层到损失层间的计算 先理清下从全连接层到损失层之间的计算. 这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征. 从图上可以看出特征X是N ...
- 目标检测分类损失函数——Cross entropy、Focal loss
一.Cross Entropy Loss 交叉熵是用来判定实际的输出与期望的输出的接近程度,刻画的是实际输出与期望输出的距离,也就是交叉熵的值越小,两个概率分布就越接近. 1. CE Loss的定义 ...
- 多分类问题的soft cross entropy 损失函数
在做多分类问题的时候,分类结果的损失函数经常使用交叉熵损失函数,对于预测结果,先经过softmax,然后经过log,然后再根据One hot向量只取得其中的一个值作为损失函数的吸收值,比如,logso ...
- 损失函数 - 交叉熵损失函数
Cross Entropy Error Function(交叉熵损失函数) 例子 表达式 函数性质 学习过程 优缺点 这篇文章中,讨论的Cross Entropy损失函数常用于分类问题中,但是为什么它 ...
- pytorch:交叉熵(cross entropy)
1.entropy entropy中文叫做熵,也叫不确定性,某种程度上也叫惊喜度(measure of surprise) = 如果p(x)采用0-1分部,那么entropy=1log1=0 而对于e ...
- 【深度学习】——分类损失函数、回归损失函数、交叉熵损失函数、均方差损失函数、损失函数曲线、
目录 代码 回归问题的损失函数 分类问题的损失函数 1. 0-1损失 (zero-one loss) 2.Logistic loss 3.Hinge loss 4.指数损失(Exponential l ...
最新文章
- Windows在结构Eclipse+Android4.0开发环境
- IOS开发 ARC forbids explicit message send of 'autorelease'错误解决办法
- 陈中华:李彦宏候选工程院院士,是全中国人民的大耻辱
- UA MATH566 统计理论 QE练习 位置变换后的指数分布
- MSDE 1433端口
- c语言多进程架构改go语言,golang多进程并发
- 关于mysql的error-based injection payload
- 生产管理erp系统源码_仁和ERP企业管理系统提高生产管理流程
- jquery-文档操作
- 关于RICHEDIT的两个问题
- linux双系统启动项grub,grub双系统启动顺序更改
- 【图像处理】图像灰度级减少, 图像缩放(Reducing the Number of Gray Levels, Zooming and Shrinking)
- MeScroll 移动端刷新,分页
- 收藏!豆瓣9.0分TOP100职场终极必读书单!大萌哥整理
- mysql 修改校对规则,整合MYSQL校对规则
- 16.集合框架(ArrayList,Vector,LinkedList,泛型(Generic),可变参数,增强for循环)
- 想做电商没产品?四个选品方向,让你进入电商行业
- 关于千牛移动端纯H5插件和QAP应用中H5页面的概念
- dfs与bsf问题合集
- 在ios桌面添加web站点图标及增加启动画面