hung-yi lee_p13_反向传播

文章目录

背景
链式法则
计算思路
梯度计算过程/反向传播
总结

背景

回顾神经网络中计算梯度，更新梯度的过程

这里面的问题是，梯度是一个上百万维的向量，计算出来并非易事
这就引出了反向传播
可以说反向传播是梯度下降在神经网络中的实现。

链式法则

本节将要用到的数学知识
对于case2，可以看成是s通过影响x和y这两条路径来影响z

计算思路

如图所示，本文引入反向传播的思想，运用链式法则，通过将A的计算转化为B，进一步转化为C，进一步转化为D1和D2来求梯度。其中D1和D2的求解分为在输出层和非输出层两种情况讨论。

梯度计算过程/反向传播

以下只关注1不关注2，因为1求出2也就求出
取出一个神经元作为研究对象

关注其一个权重，记作w（在总图中的w1或是w2）
如何计算损失函数对w的偏微分，这就要用到链式法则

我们将因子1 @z/@w 称作forward pass，因子2 @C/@z 称作backward pass

先看如何计算forward pass（@代表偏微分符号）
发现秒杀

网络上所有**@z/@w都等于和w对应的输入值

接着看如何计算 backward pass
可以再次使用链式法则
其中 @a/@z 就是sigmoid函数的微分

sigmoid函数及其微分如图所示

@C/@a应该如何计算呢
注意到a可以通过z’和z’'来影响后面的
可再度利用链式法则

进一步计算@C/@a

@C/@z’ 和 @C/@z’’ 假设已经算出
则综合上面的计算可以得到 @C/@z 为

我们换个角度看这个式子
将 @C/@z’ 和 @C/@z’’ 看成是输入，而 sigma pf z ’ 由forward pass决定，可看成一个常数
注意：“新的神经元”和之前的神经元运作模式并不一样

问题只剩下计算出 @C/@z’ 和 @C/@z’'
如果下一层就是输出层**，根据链式法则，可以写出如下式子
其中 @y1/@z’ 即为激活函数的导数，@C/@y1 取决于损失函数是如何定义的
z’'和y2是类似的

如果下一层不是输出层，则需要递归计算

也就是根据这个式子

在这样一张神经网络中，如果想知道C对z1的偏微分，就要知道C对z3和z4的偏微分，想知道z3的的偏微分，就要知道C对z5和z6的偏微分……直至最后一层

想要计算地更有效率，我们不妨从输出层往里计算

总结

forward pass和backward pass的命名原因就是前者用正向（输入到输出）思维计算，后者用逆向（输出到输入）思维计算，两者相乘就是我们要计算的梯度