Softmax Loss

一、Softmax

  • 作用:softmax的目标是尽可能最大化正确分类的概率,它会忽略掉一些比较难分辨的图片;也就是低质量的图片,而优先拟合高质量的图片,因此把特征强行归一化会使得低范数的图片变得高范数,也会获得更多的网络注意力。可以发现,只在相似度上做变化,跟||w||与||f||无关系,所以可以直接将这两者归一化,相当于单位向量。
  • 公式入下:
    Sj=eaj∑k=1Neak(1)S_j=\frac{e^{a_j}}{\sum_{k=1}^N e^{a_k}}\tag{1} Sj​=∑k=1N​eak​eaj​​(1)
    上面公式中,aja_jaj​表示当前输入的类别特征

二、Softmax Loss

  • 核心思想:Softmax Loss无法确保类内的紧凑和类间的疏离
  • 不同类别的样本分布会紧凑挨在一起(不同类别之间的夹角很小),这位模型预测样本的类别带来了一定的困难和模糊性。二使用L-Softmax Loss后,可以看到不同类别之间的分界更为清晰,不同类别之间的夹角增大,同时同类分布也更为紧凑。
  • 公式入下:
    L1=−∑j=1Nyjlogsj(2)L1=-\sum_{j=1}^N y_jlogs_j \tag{2} L1=−j=1∑N​yj​logsj​(2)
    上面公式中,sjs_jsj​表示每个类别属于真实类别的概率
  • SoftmaxLoss公式如下:(在softmax的基础上加入了-log形成损失函数)
    L2=−∑i=1mlogeWyiTxi+byi∑j=1neWjTxi+bj(3)L2=-\sum_{i=1}^m log\frac{e^{W^{T}_{y_i}x_i+b_{y_i}}}{\sum_{j=1}{n}e^{W^{T}_{j}x_i+b_j}}\tag{3} L2=−i=1∑m​log∑j=1​neWjT​xi​+bj​eWyi​T​xi​+byi​​​(3)
    上面公式中,yiy_iyi​属于真实类别
  • 由于一般多分类问题,我们会对标签进行one-hot处理(yiy_iyi​是0和1),因此公式可简化为如下公式:
    L3=−logsj(4)L3=-logs_j\tag{4} L3=−logsj​(4)
  • Softmax Loss训练的效果图如下,随便找一个网络,将特征层的结果滑到

三、总结

  • 【注意】softmax loss是一个损失函数,是概率的负对数,当x在0-1之间的时候,是一个下降的函数
    SiSiSi表示的是一个概率,信息是概率的负对数,而信息往往是不稳定的;信息的期望是稳定的——熵。

  • 标准的Softmax Loss,不同类别的样本随着分类样本的增加不同类别样本的分布会紧挨在一起(不同类别之间的夹角很小),这为模型预测样本的类别带来了一定的困难和模糊性。

  • 网上一篇文章上做了如下提示:(博主直接使用):

[损失设计]2.Softmax Loss相关推荐

  1. 人脸识别-Loss-2010:Softmax Loss(Softmax激活函数 + “交叉熵损失函数”)【样本3真实标签为c_5,则样本3的损失:loss_3=-log(\hat{y}_5^3)】

    一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等. 全连接层:等号左边部分就是全连接层做的事, W W W 是全连接层的参数,我们也称为权值, X X X 是全连接层的输 ...

  2. large-margin softmax loss for convolutional neural networks

    损失函数改进之Large-Margin Softmax Loss_AI之路-CSDN博客_large margin softmax最近几年网络效果的提升除了改变网络结构外,还有一群人在研究损失层的改进 ...

  3. L2-constrained Softmax Loss for Discriminative Face Verification

    https://arxiv.org/abs/1703.09507 摘要   近年来,利用深度卷积神经网络(DCNNs),人脸验证系统的性能得到了显著改善.一个典型的人脸验证流程包括:使用softmax ...

  4. 机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)

    https://blog.csdn.net/u010976453/article/details/78488279 1. 损失函数 损失函数(Loss function)是用来估量你模型的预测值 f( ...

  5. Softmax和softmax loss的理解

    转载博客链接:https://blog.csdn.net/u014380165/article/details/77284921 下图展示的是全连接层的计算: 这张图的等号左边部分就是全连接层做的事, ...

  6. 卷积神经网络系列之softmax,softmax loss和cross entropy

    全连接层到损失层间的计算 先理清下从全连接层到损失层之间的计算. 这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征. 从图上可以看出特征X是N ...

  7. 【损失函数系列】softmax loss损失函数详解

    1.损失函数:         损失函数(loss function)是用来评测模型的预测值f(x)与真实值Y的相似程度,损失函数越小,就代表模型的鲁棒性越好,损失函数指导模型学习.根据损失函数来做反 ...

  8. 卷积神经网络中全连接层、softmax与softmax loss理解

    1.全连接层 假设全连接层前面连接的是一个卷积层,这个卷积层的num output是100,就是卷积之后输出一百张不同的特征图.每个特征的大小是4X4,那么在将这些特征输入给全连接层之前会将这些特征f ...

  9. 卷积神经网络系列之softmax,softmax loss和cross entropy的讲解

    我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...

最新文章

  1. 看微软 Windows 30年发展简史,你用过最早的系统版本是什么?
  2. 获取执行计划的N种方式
  3. 6.17 dokcer(一)Compose 简介
  4. LeetCode 385. 迷你语法分析器(栈)
  5. python numpy array中维度的区别 array.shape
  6. 三、主流区块链技术特点及Hyperledger Fabric V1.0版本特点
  7. 用lstm模型做预测_深度学习模型 CNN+LSTM 预测收盘价
  8. 【背包问题】基于matlab遗传算法求解多背包问题【含Matlab源码 122期】
  9. 全民WIFI上网计划
  10. windows 微信手机端退出登录,pc电脑端不退出的奇淫技巧
  11. rocketmq获取消息id_贞炸了!上线之后,消息收不到了
  12. 微博相册下载助手v7.2 微博图片批量下载神器
  13. QTTabBar安装与使用: 更胜浏览器的Windows平台浏览文件方式
  14. pdf编辑软件哪个好?编辑pdf的软件分享一款,像word一样好用!
  15. 毕业设计(课程设计)—个人博客系统(微博)的设计与实现—计算机类专业课程设计(毕业设计)
  16. [Editing] TP-LINK740N v5 firmware Crack
  17. Greenplum6 JDBC insert性能媲美MySQL
  18. java遍历文件夹下的文件
  19. 使用eNSP搭建的小型校园网
  20. PHP将带有下划线多元数组键值转为驼峰式

热门文章

  1. Gmail和Orkut邀请自助发送[共享]
  2. xpad如何改变字体主题
  3. 使用parted创建大分区时 mkpart Warning: The resulting partition is not properly aligned for best performance.
  4. gitee配置流水线实现自动打包vue
  5. 从西安到深圳——一路向南
  6. Let's go home 【2-sat 经典作图】+【scc判定有无解】
  7. uni-app 二维码扫描识别功能
  8. 蜂窝数据app只剩两个_蜂窝和无线网络探戈需要两个时间
  9. JAVA综合性实验——猜姓氏游戏
  10. [转] 明年,你还爱我吗?