1. 全连接层到损失层间的计算
先理清下从全连接层到损失层之间的计算。
这张图的等号左边部分就是全连接层做的事,W是全连接层的参数,我们也称为权值,X是全连接层的输入,也就是特征
从图上可以看出特征X是N*1的向量,这是怎么得到的呢?
       X:  这个特征就是由全连接层前面多个卷积层和池化层处理后得到的,假设全连接层前面连接的是一个卷积层,这个卷积层的输出是100个特征(也就是我们常说的feature map的channel为100),每个特征的大小是4*4,那么在将这些特征输入给全连接层之前会将这些特征flat成N*1的向量(这个时候N就是100*4*4=1600)
W: 解释完X,再来看W,W是全连接层的参数,是个T*N的矩阵,这个N和X的N对应,T表示类别数,比如你是7分类,那么T就是7。我们所说的训练一个网络,对于全连接层而言就是寻找最合适的W矩阵。
因此全连接层就是执行WX得到一个T*1的向量(也就是图中的logits[T*1]),这个向量里面的每个数都没有大小限制的,也就是从负无穷大到正无穷大
如果网络是多分类问题,一般会在全连接层后面接一个softmax层这个softmax的输入是T*1的向量,输出也是T*1的向量(也就是图中的prob[T*1],这个向量的每个值表示这个样本属于每个类的概率),只不过输出的向量的每个值的大小范围为0到1。 softmax的输出向量是就是概率,该样本属于各个类的概率!
  1. softmax计算
那么softmax执行了什么操作可以得到0到1的概率呢?先来看看softmax的公式:
前面说过softmax的输入是WX,假设模型的输入样本是I,讨论一个3分类问题(类别用1,2,3表示),样本I的真实类别是2,那么这个样本I经过网络所有层到达softmax层之前就得到了WX,也就是说WX是一个3*1的向量,那么上面公式中的aj就表示这个3*1的向量中的第j个值(最后会得到S1,S2,S3);而分母中的ak则表示3*1的向量中的3个值,所以会有个求和符号(这里求和是k从1到T,T和上面图中的T是对应相等的,也就是类别数的意思,j的范围也是1到T)。因为e^x恒大于0,所以分子永远是正数,分母又是多个正数的和,所以分母也肯定是正数,因此Sj是正数,而且范围是(0,1)。如果现在不是在训练模型,而是在测试模型,那么当一个样本经过softmax层并输出一个T*1的向量时,就会取这个向量中值最大的那个数的index作为这个样本的预测标签。 因此我们训练全连接层的W的目标就是使得其输出的WX在经过softmax层计算后其对应于真实标签的预测概率要最高。
  1. softmax loss
弄懂了softmax,就要来说说softmax loss了。 
那softmax loss是什么意思呢?如下:
首先L是损失。Sj是softmax的输出向量S的第j个值,前面已经介绍过了,表示的是这个样本属于第j个类别的概率。yj前面有个求和符号,j的范围也是1到类别数T,因此y是一个1*T的向量,里面的T个值,而且只有1个值是1,其他T-1个值都是0。那么哪个位置的值是1呢?答案是真实标签对应的位置的那个值是1,其他都是0。所以这个公式其实有一个更简单的形式:
当然此时要限定j是指向当前样本的真实标签。
来举个例子吧。假设一个5分类问题,然后一个样本I的标签y=[0,0,0,1,0],也就是说样本I的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6),也就是当这个样本经过这样的网络参数产生这样的预测p时,它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数,而且log函数是递增函数,所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大,预测错得离谱比预测错得轻微的损失要大。
  1. cross entropy
理清了softmax loss,就可以来看看cross entropy了。 
corss entropy是交叉熵的意思,它的公式如下:
是不是觉得和softmax loss的公式很像。当cross entropy的输入P是softmax的输出时,cross entropy等于softmax loss。Pj是输入的概率向量P的第j个值,所以如果你的概率是通过softmax公式得到的,那么cross entropy就是softmax loss。

转载:https://blog.csdn.net/u014380165/article/details/77284921

很抱歉好长时间没有登陆账号,请关注公共号,共同学习AI算法知识或与我进行沟通

卷积神经网络系列之softmax,softmax loss和cross entropy相关推荐

  1. 卷积神经网络系列之softmax,softmax loss和cross entropy的讲解

    我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...

  2. 卷积神经网络系列之softmax loss对输入的求导推导

    我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...

  3. softmax,softmax loss和cross entropy

    我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...

  4. 卷积神经网络系列之卷积/池化后特征图大小怎么计算??

    1.卷积后的大小: W:矩阵宽,H:矩阵高,F:卷积核宽和高,P:padding(需要填充的0的个数),N:卷积核的个数,S:步长 width:卷积后输出矩阵的宽,height:卷积后输出矩阵的高 w ...

  5. 深度学习笔记 第四门课 卷积神经网络 第四周 特殊应用:人脸识别和神经风格转换...

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  6. 如何使用TensorFlow实现卷积神经网络

    2019独角兽企业重金招聘Python工程师标准>>> 卷积神经网络简介 卷积神经网络(Convolutional Neural Network,CNN)最初是为解决图像识别等问题设 ...

  7. 卷积神经网络四:人脸识别和风格变迁

    1 什么是人脸识别 现在的人脸识别包含两个部分,人脸识别和活体检测.后一项技术确认你是一个活人.事实上,活体检测可以使用监督学习来实现,去预测是不是一个真人,这个方面我就不多说了.我主要想讲的是,如何 ...

  8. GCN-图卷积神经网络算法讲解(通俗版)

    由于博主学疏才浅,经过一段时间学习,只能做到基础层面的理解,本文就较为通俗地讲解一下图卷积神经网络算法,下篇文章会讲解代码实现部分! 文章目录 GCN-图卷积神经网络算法介绍和算法原理 1. GCN从 ...

  9. 4.2 One-Shot 学习-深度学习第四课《卷积神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 4.1 什么是人脸识别? 回到目录 4.3 Siamese 网络 One-Shot 学习 (One-Shot Learning) 人脸识别所面临的一个挑战就是你需要解决一次学 ...

最新文章

  1. ECCV2020 oral | 基于语义流的快速而准确的场景解析
  2. Oracle查询某一天日期数据的SQL语句的几种写法
  3. python股票涨势_stock
  4. StarlingMVC Framework中文教程
  5. NYOJ 252 01串 dp
  6. 博科光纤交换机java_带有光纤的可扩展,健壮和标准的Java Web服务
  7. [html] 你最喜欢html的哪个标签?为什么?
  8. 【CodeForces - 485A】Factory (水题,抽屉原理,tricks)
  9. AllocateAndInitializeSid function
  10. android activity滑动切换,Android 向右滑动切换Activity, 随着手势的滑动而滑动的效果...
  11. banner信息是什么_Spring Boot 2 尝鲜-动态 Banner
  12. 输入一个正整数数组,输入一个正整数数组,把数,打印能拼接出的所有数字中最小的一个。例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323。
  13. webgame php源码,最WEB游戏源码服务端(完整修改版).doc
  14. 互联网知识变现,不起眼利润高的冷门行业有哪些?
  15. 中科院计算机技术研究所张浩,中国科学院计算技术研究所 韩 琥 博士
  16. typescript 高阶类型 Exclude 和 Extract
  17. 麦弗逊悬架硬点布置 根据设计输入,布置麦弗逊悬架硬点坐标,匹配转向拉杆断开点,匹配车轮外倾角和前束值,从而获得硬点初版坐标
  18. firefox os资源
  19. 小程序利用canvas实现波浪动态图,原生canvas的部分限制
  20. ROS节点开机自启动

热门文章

  1. 搭建nfs,实现linux之间共享存储
  2. 简单async/wait使用样例
  3. Javascript实现计数器,定时警告和停止
  4. 三个ImageView 实现无线轮播 方法
  5. zabbix专题:第七章 添加图像Graphs,添加聚合图形Screens
  6. ssh登录日志,ssh登录记录,最近ssh登录
  7. mysql format 格式化 返回值
  8. JAVA环境配置 ECLIPSE配置(转)
  9. OJ1077: 字符串加密(C语言)
  10. OJ1084: 计算两点间的距离(多实例测试)(C语言)