Softmax的含义:Softmax简单的说就是把一个N*1的向量归一化为(0,1)之间的值,由于其中采用指数运算,使得向量中数值较大的量特征更加明显。

如图所示,在等号左边部分就是全连接层做的事。

  1. W是全连接层的参数,我们也称为权值;W是全连接层的参数,是个T*N的矩阵,这个N和X的N对应,T表示类别数,比如你进行手写数字识别,就是10个分类,那么T就是10。
  2. X是全连接层的输入,也就是特征。从图上可以看出特征X是N1的向量,他就是由全连接层前面多个卷积、激活和池化层处理后得到的;
    举一个例子,假设全连接层前面连接的是一个卷积层,这个卷积层的输出是64个特征,每个特征的大小是7X7,那么在将这些特征输入给全连接层之前会将这些特征通过tf.reshape转化为成N
    1的向量(这个时候N就是64X7X7=3136)。
    我们所说的训练一个网络,对于全连接层而言就是寻找最合适的W矩阵。因此全连接层就是执行WX得到一个T1的向量(也就是图中的logits[T1]),这个向量里面的每个数都没有大小限制的,也就是从负无穷大到正无穷大。然后如果你是多分类问题,一般会在全连接层后面接一个softmax层,这个softmax的输入是T1的向量,输出也是T1的向量(也就是图中的prob[T*1],这个向量的每个值表示这个样本属于每个类的概率),只不过输出的向量的每个值的大小范围为0到1。

softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量A “压缩”到另一个K维实向量 A' 中,使得A' 每一个元素的范围都在(0,1)之间,并且所有元素的和为1。

该函数的形式可以按下面的式子给出:

可能大家一看到公式就有点晕了,别被吓跑,我来简单解释一下。这个公式的意思就是说得到的A'向量中的每个元素的值,是由A中对应元素的指数值除以A中所有元素的指数值的总和。

举个例子:假设你的A =[1,2,3],那么经过softmax函数后就会得到A' = [0.09, 0.24, 0.67],A'的三个元素分别是怎么来的呢?

A'的第1个元素  = exp(1) / (exp(1) + exp(2) + exp(3)) = 0.09(这里exp即为e)

A'的第2个元素  = exp(2) / (exp(1) + exp(2) + exp(3)) = 0.24

A'的第3个元素  = exp(3) / (exp(1) + exp(2) + exp(3)) = 0.67

由于Softmax函数的这个特点,经常会被用在神经网络来解决分类问题中,得到的结果就可以认为是满足各种分类的概率。

弄懂了softmax,就要来说说softmax loss了。
那softmax loss是什么意思呢?如下:

首先L是损失。Sj是softmax的输出向量S的第j个值,前面已经介绍过了,表示的是这个样本属于第j个类别的概率。yj前面有个求和符号,j的范围也是1到类别数T,因此y是一个1*T的向量,里面的T个值,而且只有1个值是1,其他T-1个值都是0。那么哪个位置的值是1呢?答案是真实标签对应的位置的那个值是1,其他都是0。所以这个公式其实有一个更简单的形式:

当然此时要限定j是指向当前样本的真实标签。

来举个例子吧。假设一个5分类问题,然后一个样本I的标签y=[0,0,0,1,0],也就是说样本I的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6),也就是当这个样本经过这样的网络参数产生这样的预测p时,它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数,而且log函数是递增函数,所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大,预测错得离谱比预测错得轻微的损失要大。

理清了softmax loss,就可以来看看cross entropy了。
corss entropy是交叉熵的意思,它的公式如下:

是不是觉得和softmax loss的公式很像。当cross entropy的输入P是softmax的输出时,cross entropy等于softmax loss。Pj是输入的概率向量P的第j个值,所以如果你的概率是通过softmax公式得到的,那么cross entropy就是softmax loss。

转载内容,根据自己理解稍作修改,原文连接为:
https://blog.csdn.net/u014380165/article/details/77284921

参考自:https://blog.csdn.net/wgj99991111/article/details/83586508

https://blog.csdn.net/kevindree/article/details/87365355

对tf.nn.softmax的理解相关推荐

  1. KLD Loss( tf.nn.softmax, torch.nn.functional.softmax, log_softmax, kl_div) 计算技巧(一)

    最近在比较不同模型的性能,发现虽然文献中使用的相同的指标,比如KLD.但是数据的处理方式却存在着差异,这会导致最后的数据并不具有直接可比性. 这里记录下,其中的一些值得记住的细节.主要涉及的API包括 ...

  2. tf.nn.softmax参数详解以及作用

    tf.nn.softmax参数详解以及作用 参考地址:https://zhuanlan.zhihu.com/p/93054123 tf.nn.softmax(logits,axis=None,name ...

  3. 成功解决return tf.nn.softmax(x, axis=axis) TypeError: softmax() got an unexpected keyword argument 'axis

    成功解决return tf.nn.softmax(x, axis=axis) TypeError: softmax() got an unexpected keyword argument 'axis ...

  4. tf.nn.softmax

    通过Softmax回归,将logistic的预测二分类的概率的问题推广到了n分类的概率的问题.通过公式    可以看出当月分类的个数变为2时,Softmax回归又退化为logistic回归问题. 下面 ...

  5. 深度学习中的tf.nn.softmax(logits, axis=1)以及tf.argmax(prob, axis=1)两个函数的参数以及用法

    参考了下面的两个链接: softmax: https://blog.csdn.net/q2519008/article/details/107086024?utm_medium=distribute. ...

  6. 【TensorFlow】tf.nn.softmax_cross_entropy_with_logits中的“logits”到底是个什么意思?

    tf.nn.softmax_cross_entropy_with_logits中的"logits"到底是个什么意思?_玉来愈宏的随笔-CSDN博客 https://blog.csd ...

  7. tf.keras.layers.Attention 理解总结

    官方链接:https://tensorflow.google.cn/versions/r2.1/api_docs/python/tf/keras/layers/Attention tf.keras.l ...

  8. 深度学习原理与框架-CNN在文本分类的应用 1.tf.nn.embedding_lookup(根据索引数据从数据中取出数据) 2.saver.restore(加载sess参数)...

    1. tf.nn.embedding_lookup(W, X) W的维度为[len(vocabulary_list), 128], X的维度为[?, 8],组合后的维度为[?, 8, 128] 代码说 ...

  9. tf.nn.softmax_cross_entropy_with_logits()笔记及交叉熵

    交叉熵 交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性.交叉熵作为损失函数还有一个好处是使用sigmoid函 ...

最新文章

  1. AI圈真魔幻!谷歌最新研究表明卷积在NLP预训练上竟优于Transformer?LeCun暧昧表态...
  2. 项目部署mysql安装_Tomcat7+jdk+mysql安装及项目部署
  3. PHP中几种加密形式
  4. ListView常用属性、方法
  5. Linux下的less命令
  6. Java Swing中键盘事件的处理
  7. PDE2 three fundamental examples
  8. [数据库]日期格式相关参数传递
  9. 【BZOJ4196】[Noi2015]软件包管理器 树链剖分
  10. 易语言 使用精易皮肤模块的 方法
  11. 离散数学 - 04 图论
  12. vmware使用自带工具vmware-vdiskmanager精简占用磁盘空间
  13. 非度量多维标度_非度量多维尺度分析
  14. 地球人口承载力估计(YZOJ-1021)
  15. 《有限元分析基础教程》(曾攀)笔记一-二维杆单元有限元程序(基于Python)...
  16. 加油站都需要什么手续_开办加油站需要办哪些手续?
  17. 神卓互联是什么?优秀的内网穿透
  18. win10启用远程服务器访问,win10 如何打开远程服务_win10如何打开远程连接服务
  19. KVM虚拟化介绍和安装使用方法
  20. 写不出好的策划方案?大神手把手教你写策划

热门文章

  1. mysql 5.6加用户_Mysql 5.6添加修改用户名和密码的方法
  2. mysql挂载数据卷_记一次生产数据库数据文件进行分区转移
  3. 从mysql到大数据(一)--开宗明义
  4. get mysql options_mysql命令的选项options
  5. php架在底部页面,页脚始终保持在页面底部的网页布局方法
  6. JDBC——编程式事务的实现逻辑
  7. LeetCode算法入门- String to Integer (atoi)-day7
  8. 蓝桥杯大赛基础之--数列排序
  9. c语言程序设计的几种循环,C语言程序设计教案 第六章 循环程序设计.doc
  10. php 编译原理,编译原理