Softmax Loss

一、Softmax

作用：softmax的目标是尽可能最大化正确分类的概率，它会忽略掉一些比较难分辨的图片；也就是低质量的图片，而优先拟合高质量的图片，因此把特征强行归一化会使得低范数的图片变得高范数，也会获得更多的网络注意力。可以发现，只在相似度上做变化，跟||w||与||f||无关系，所以可以直接将这两者归一化，相当于单位向量。
公式入下：
Sj=eaj∑k=1Neak(1)S_j=\frac{e^{a_j}}{\sum_{k=1}^N e^{a_k}}\tag{1} Sj=∑k=1Neakeaj(1)
上面公式中,aja_jaj表示当前输入的类别特征

二、Softmax Loss

核心思想：Softmax Loss无法确保类内的紧凑和类间的疏离
不同类别的样本分布会紧凑挨在一起（不同类别之间的夹角很小），这位模型预测样本的类别带来了一定的困难和模糊性。二使用L-Softmax Loss后，可以看到不同类别之间的分界更为清晰，不同类别之间的夹角增大，同时同类分布也更为紧凑。
公式入下：
L1=−∑j=1Nyjlogsj(2)L1=-\sum_{j=1}^N y_jlogs_j \tag{2} L1=−j=1∑Nyjlogsj(2)
上面公式中，sjs_jsj表示每个类别属于真实类别的概率
SoftmaxLoss公式如下：（在softmax的基础上加入了-log形成损失函数）
L2=−∑i=1mlogeWyiTxi+byi∑j=1neWjTxi+bj(3)L2=-\sum_{i=1}^m log\frac{e^{W^{T}_{y_i}x_i+b_{y_i}}}{\sum_{j=1}{n}e^{W^{T}_{j}x_i+b_j}}\tag{3} L2=−i=1∑mlog∑j=1neWjTxi+bjeWyiTxi+byi(3)
上面公式中，yiy_iyi属于真实类别
由于一般多分类问题，我们会对标签进行one-hot处理（yiy_iyi是0和1），因此公式可简化为如下公式：
L3=−logsj(4)L3=-logs_j\tag{4} L3=−logsj(4)
Softmax Loss训练的效果图如下，随便找一个网络，将特征层的结果滑到

三、总结

【注意】softmax loss是一个损失函数，是概率的负对数，当x在0-1之间的时候，是一个下降的函数
SiSiSi表示的是一个概率，信息是概率的负对数，而信息往往是不稳定的；信息的期望是稳定的——熵。
标准的Softmax Loss，不同类别的样本随着分类样本的增加不同类别样本的分布会紧挨在一起（不同类别之间的夹角很小），这为模型预测样本的类别带来了一定的困难和模糊性。
网上一篇文章上做了如下提示：(博主直接使用)：

[损失设计]2.Softmax Loss相关推荐

人脸识别-Loss-2010：Softmax Loss（Softmax激活函数 + “交叉熵损失函数”）【样本3真实标签为c_5，则样本3的损失：loss_3=-log(\hat{y}_5^3)】
一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等. 全连接层:等号左边部分就是全连接层做的事, W W W 是全连接层的参数,我们也称为权值, X X X 是全连接层的输 ...
large-margin softmax loss for convolutional neural networks
损失函数改进之Large-Margin Softmax Loss_AI之路-CSDN博客_large margin softmax最近几年网络效果的提升除了改变网络结构外,还有一群人在研究损失层的改进 ...
L2-constrained Softmax Loss for Discriminative Face Veriﬁcation
https://arxiv.org/abs/1703.09507 摘要近年来,利用深度卷积神经网络(DCNNs),人脸验证系统的性能得到了显著改善.一个典型的人脸验证流程包括:使用softmax ...
机器学习中的损失函数（着重比较：hinge loss vs softmax loss）
https://blog.csdn.net/u010976453/article/details/78488279 1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f( ...
Softmax和softmax loss的理解
转载博客链接:https://blog.csdn.net/u014380165/article/details/77284921 下图展示的是全连接层的计算: 这张图的等号左边部分就是全连接层做的事, ...
卷积神经网络系列之softmax，softmax loss和cross entropy
全连接层到损失层间的计算先理清下从全连接层到损失层之间的计算. 这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征. 从图上可以看出特征X是N ...
【损失函数系列】softmax loss损失函数详解
1.损失函数: 损失函数(loss function)是用来评测模型的预测值f(x)与真实值Y的相似程度,损失函数越小,就代表模型的鲁棒性越好,损失函数指导模型学习.根据损失函数来做反 ...
卷积神经网络中全连接层、softmax与softmax loss理解
1.全连接层假设全连接层前面连接的是一个卷积层,这个卷积层的num output是100,就是卷积之后输出一百张不同的特征图.每个特征的大小是4X4,那么在将这些特征输入给全连接层之前会将这些特征f ...
卷积神经网络系列之softmax，softmax loss和cross entropy的讲解
我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...

[损失设计]2.Softmax Loss

Softmax Loss

一、Softmax

二、Softmax Loss

三、总结

[损失设计]2.Softmax Loss相关推荐

最新文章

热门文章