softmax函数_反向传播之一：softmax函数

最好的学习方法就是把内容给其他人讲明白。

如果你看了我的文章感觉一头雾水，那是因为我还没学透。

我目前的理解是：反向传播是神经网络的精要，没搞明白反向传播，神经网络就还没入门。

我的学习计划是：

（1）推导一遍公式；

（2）写一遍纯numpy代码；

（3）看一遍源码。

本系列所有文章都不是原创，只是收集网上前期那些认真的牛人的文章于一处，手撸一遍推导，以求入门。于大家也是方便，于自己是一遍学习。

本文来源

帐号登录blog.csdn.net

softmax函数

numpy代码：

import numpy as np
def softmax(x):x = np.exp(x)/np.sum(np.exp(x))return x
print(softmax([2,3]))

结果：[ 0.26894142 0.73105858]

2.softmax函数求导

(1)当

时

(2)当

时

综上所述：

所以

(当Y的shape为（1，n）时)

3.softmax 函数的一个性质

这里X是向量，c是一个常数。下面证明左右两边的每一个分量相等。

实际应用：为了防止溢出，事先把x减去最大值。最大值是有效数据，其他值溢不溢出可管不了，也不关心。

import numpy as np
def softmax(x):#减去最大值x-=np.max(x)x = np.exp(x)/np.sum(np.exp(x))return x
print(softmax([2,3]))

结果还是：[ 0.26894142 0.73105858]

4.作为中间层的激活函数

经过上面的讨论，已经可以把softmax激活层的代码写出来：

class Softmax(object):def __init__(self):passdef forward(self, x):self.out = np.copy(x)self.out -= np.max(self.out)self.out = np.exp(self.out)s = np.sum(self.out)self.out= self.out / sreturn  self.outdef backward(self, eta):dout=np.diag(self.out)-np.outer(self.out,self.out)return np.dot(dout,eta)

结果怎样呢？可以说是非常糟糕，开始表现还不错，准确率可以冲到80%，但很快又回到原点。当然只要想想，一堆全部小于1的数不停的数乘来乘去，结果会怎样！而且可以看出，它求导的计算量也非常大，所以softmax很特殊，没有谁把它作为中间层的激活函数。都是放在最后一层，而且都是和交叉熵损失函数结合起来用。

5.softmax函数+交叉熵（log似然）代价函数

这里的

是真实值，是训练的目标，取0或1.在求导的时候是常量。

是softmax函数的输出值，是训练结果，是变量。

log似然代价函数C对每一个

求偏导，结果都是

当使用独热（onehot）编码时，

只有一个位置为1，其他位置都是0。

也不需要用一个向量来存储，只要

即可。

毫无疑问，这是一个无比优美的结果！！！

6.交叉熵是个什么鬼？为什么用交叉熵作为代价函数可以起到训练作用？

简单来说，训练的目的是让

。

但等于的可能性不大，至少

趋近即可。

而交叉熵的最小值是信息熵，当

时，C就是信息熵。怎么证明？后面有一篇专门谈这个证明。

反过来讲，当我们训练使得C达到最小值的时候，

就逐步趋近于

了。

就是说方法是求C的最小值，目的是

逐步趋近于

。这个是个间接的关系。当然，其他损失函数也是这样。

7.源码：fmscole/backpropagation

softmax函数_反向传播之一：softmax函数相关推荐

0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU
numpy实现神经网络系列工程地址:https://github.com/yizt/numpy_neuron_network 基础知识 0_1-全连接层.损失函数的反向传播 0_2_1-卷积层的反向 ...
softmax函数_干货 | 浅谈 Softmax 函数
点击上方"视学算法",马上关注来自 | 知乎作者 | LinT链接丨https://zhuanlan.zhihu.com/p/79585726编辑 | 深度学习这件小事公众号仅 ...
并注册烧写钩子获取启动介质类型_PyTorch中对张量登记注册反向传播的钩子函数,并展示调用顺序...
总结说明:代码实验表面,反向传播计算梯度时的执行顺序是和前向计算相反的.这一点由钩子函数的执行顺序可以观察到,并且由保存梯度的列表中的内容顺序可以推断出来. 代码实验展示: import torch ...
cnn 反向传播推导_反向传播算法推导过程（非常详细）
1. 前向传播假设为的矩阵(其中, 为样本个数(batch size), 为特征维数): 与的维数为为的矩阵, 与的维数为为的矩阵, 与的维数为为的矩阵, 前向算法: 假设输出 ...
手写单隐藏层神经网络_反向传播(Matlab实现)
文章目录要点待优化效果代码 mian train_neural_net 待优化(1)已完成要点 1.sigmoid函数做为激活函数,二分类交叉熵函数做损失函数 2.可以同时对整个训练集进行训 ...
反向传播算法_反向传播算法：定义，概念，可视化
定义向前传播通常,当我们使用神经网络时,我们输入某个向量x,然后网络产生一个输出y,这个输入向量通过每一层隐含层,直到输出层.这个方向的流动叫做正向传播. 在训练阶段,输入最后可以计算出一个代价标 ...
hive substr函数_数据分析工具篇——HQL函数及逻辑
本篇文章我们梳理一下hive常用的函数,对于hive而言,常用的函数并不是特别多,往往记住关键几个,就可以解决80%的问题,这也是大家喜欢hive的原因,那么,常用的函数有哪些呢? 时间函数 1)时间 ...
decode函数_「实践」云函数 + API，你也可以做个天气信息系统
为什么要把云函数 SCF 与 API 网关进行结合?本文告诉你答案! 通常,我们用云函数 SCF 写一个函数应用,这个应用可能多种多样.例如之前介绍过的 OJ 系统判题功能,通过 NLP 实现文本摘要 ...

softmax函数_反向传播之一：softmax函数

softmax函数_反向传播之一：softmax函数相关推荐

最新文章

热门文章