[026] 深度学习--学习笔记（4）Back-propagation反向传播链式法则理论推导

1、梯度下降（Gradients Descent）

概念：构建Loss（预测值与实际值之间的偏差）与相关权值变量θ(0)和θ(1)的函数关系J(θ(0), θ(1))，在函数图像上随机取初值点，然后求初值点的导数（也就是梯度），并沿着导数最倾斜的方向按照一定的步长更新J点，以及类推总能找到J（min）的局部最优解，也就是预测值与实际值偏差最小的状态。

2、常用函数的求导公式

3、单层感知机（Perceptron）的梯度

不看灰色部分。感知机的输入输出关系为 z = ω · x，那么输出z对权值ω的导数就是输入x。

4、神经网络的前向数据传递

传递方式：上一层节点的输出ξ乘以权值ω，二者之积经过激活函数σ的非线性变换之后，再输入到下一层节点。

5、链式法则

概念：复合函数的导数是子函数导数的乘积，就像锁链一样一环套一环，故称链式法则。

6、激活函数

概念：在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数（激励函数）。

作用：不使用激活函数的话，神经网络的每层都只是做线性变换，多层输入叠加后也还是线性变换。因为线性模型的表达能力通常不够，所以这时候就体现了激活函数的作用了，激活函数可以引入非线性因素。

常用激活函数：有sigmoid、ReLu等。

7、Sigmoid激活函数

作用域：输入x的范围为（-∞，+∞），输出σ(x)的范围为（0，1）。

优势：全范围可导，可做梯度下降运算。

不足：输入x如果过大，其函数导数趋于0。所以输入x一般要做归一化处理，把范围压缩到（-1，1）之间。

Sigmoid函数的导数：

8、神经网络的“层”

层：层 = 某一层所有节点 + 输入 + 权值 +输入，但要注意输入层不算层。如下方图片是一个两层的神经网络。

隐含层：隐含层 = 层数 - 输出层 = 层数 - 1。如下方图片的神经网络有一层隐含层。

9、神经网络的数学描述

输入：用x表示，x的上标表示第 l 层，下标表示层中的第 j 个节点。如图中x(l, j)表示第 l 层第 j 个节点的输入（加权求和后的值）。

权值：用W表示，W上标表示第几层，下标表示连线为“从上一层第 i 个节点到当前层第 j 个节点”的连线。如图中W(l, ij)表示从（l - 1）层的 i 节点到 l 层的 j 节点之间的权值。

激活函数：用σ(x)表示，常用Sigmoid和ReLu函数作为激活函数。

偏置：用θ表示，θ的上标表示第 l 层，下标表示层中的第 j 个节点。如图中θ(l, j)表示第 l 层第 j 个节点的偏置。添加偏置项是为了使拟合产生平移，增强网络学习能力。

输出：用O表示，上下标含义参考输入。

目标值：只用输出层有目标值（label），用 t 表示。t(j)表示输出层第 j 个节点的目标值。

10、损失函数（Loss Function）

概念：也称为误差函数，是输出层的输出O与目标值t之间的偏差函数。这个偏差值有多种表示方式，如均方误差MSE、CEL等。

均方误差MSE：

11、梯度函数的推导

工作原理：从输出层开始，向后逐层构建损失函数E对权值W的梯度函数，随着多次迭代，就能将权值W逐层优化为最优值。

① 输出层的梯度：

可以看出，输出层的梯度与输出层的输出O，输出层的目标t，以及上一次的输出O有关系。

② 隐含层的梯度：

可以看出，隐含层的梯度函数，与本层的输出O，下一次的梯度δ，以及下一层的权值W有关系。

③ 损失函数 E 对偏置 θ 的偏导

12、神经网络反向传播的过程

① 神经网络从输入到输出前向运行一遍，各层都产生输出O；

② 计算误差Error = 输出O 与目标t 之间的偏差，多数情况下使用均方差MSE计算这个偏差；

③ 计算误差Error对输出层的权值W的导数（梯度）。由于使用了Sigmoid激活函数，所以此处的导数很好求；

④ 来到输出层的上一层，计算误差Error对倒数第二层的权值W的导数；

⑤ 以此类推，从后往前计算每一层的梯度。由于每一层的梯度都与下一层有关，所以误差Error对每一层都有影响；

⑥ 每一层的权值W的更新量 △W = 学习率η * 梯度δ * 上一层的输出O；

⑦ 每一层的偏置θ的更新量 △θ = 学习率η * 梯度δ；

⑧ 根据 △W 和 △θ 更新每一层的权值和偏置；

⑨ 经过多次迭代训练，最终误差Error达到满意值，权值W和偏置θ趋于某个最优值。