台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

当网络结构很复杂时，会有大量的参数。∇L(θ)\nabla L(\theta)是百万维的向量。如何高效地计算百万维的参数，使用反向传播算法来计算。BP并非是一个和GD不同的训练方法，BP就是GD，只是是一种比较有效率的计算方法。

数学知识铺垫：微积分中的链式法则，很简单。

还是以上节中手写数字识别为例。

xnx^n是一张输入图片，yny^n是网络的输出labellabel向量，y^n\hat y^n是该图片的真值labellabel向量。CnC^n是输出值和真实值的交叉熵损失。定义L(θ)L(\theta)为损失函数。

L(θ)=∑n=1NCn(θ)

L(\theta)=\sum_{n=1}^NC^n(\theta)
损失函数对参数的导数为：

∂L(θ)∂w=∑n=1N∂Cn(θ)∂w

\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}
如下图所示： ∂C∂w=∂z∂w∂C∂z\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial C}{\partial z}， BackpropagationBackpropagation算法分为两个过程。

Forward pass

首先计算前向传播中的∂z∂w\frac{\partial z}{\partial w}。以上图为例。

∂z∂w1=x1

\frac{\partial z}{\partial w_1}=x_1

∂z∂w2=x2

\frac{\partial z}{\partial w_2}=x_2
显然这一步比较简单，某一参数的微分值就是其对应的输入值。注意要把所有 ∂z∂w\frac{\partial z}{\partial w}的值计算出来。

Backward pass

然后计算反向传播中损失函数对于激活函数输入值的偏微分∂C∂z\frac{\partial C}{\partial z}。
如下图中所示：∂C∂z=∂a∂z∂C∂a\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}，∂a∂z=σ′(z)\frac{\partial a}{\partial z}=\sigma'(z)。

利用链式法则计算∂C∂a\frac{\partial C}{\partial a}.

稍微整理一下，成为下图这样。

下图中很形象地展示了反向传播的概念，σ′(z)\sigma'(z)类似模拟电路中的放大器。

最后一步是计算∂C∂z′\frac{\partial C}{\partial z'}和∂C∂z′′\frac{\partial C}{\partial z''}。这分两种情况：1)z′z'和z′′z''的下一层是输出层；2)z′z'和z′′z''的下一层不是输出层。
Case1:Case1:输出层

Case2:Case2:非输出层
不断地递归计算∂C∂z\frac{\partial C}{\partial z}，直至输出层，如下图。

注意：在backward pass过程中也需要对所有的zz，计算出∂C∂z\frac{\partial C}{\partial z}.

Summary

一图胜千言。