正向传播、反向传播和计算图

1. 正向传播

正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。假设输入是一个特征为x∈Rdx \in R^dx∈Rd的样本，且不考虑偏差项，那么中间变量：
z=W(1)x(1)z = W^{(1)}x \tag 1 z=W(1)x(1)
其中W(1)∈Rh×dW^{(1)} \in R^{h \times d}W(1)∈Rh×d是隐藏层的权重参数。把中间变量z∈Rhz \in R^hz∈Rh输入按元素运算的激活函数ϕ\phiϕ后，将得到向量长度为hhh的隐藏层变量：
h=ϕ(z)(2)h=\phi(z) \tag 2 h=ϕ(z)(2)
隐藏层变量hhh也是一个中间变量。假设输出层参数只有权重W(2)∈Rq×hW^{(2)} \in R^{q \times h}W(2)∈Rq×h，可以得到向量长度为qqq的输出层变量：
o=W(2)h(3)o = W^{(2)}h \tag 3 o=W(2)h(3)
假设损失函数为lll，且样本标签为yyy，可以计算出单个数据样本的损失项：
L=l(o,y)(4)L=l(o,y) \tag 4 L=l(o,y)(4)
根据L2L_2L2范数正则化的定义，给定超参数λ\lambdaλ，正则化项即：
s=λ2(∣∣W(1)∣∣F2+∣∣W(2)∣∣F2)(5)s=\frac{\lambda}{2} (||W^{(1)}||_F^2+||W^{(2)}||_F^2) \tag 5 s=2λ(∣∣W(1)∣∣F2+∣∣W(2)∣∣F2)(5)
其中矩阵的Frobenius范数等价于将矩阵变平为向量后计算L2L_2L2范数。最终，模型在给定的数据样本上带正则化的损失为：
J=L+s(6)J = L + s \tag 6 J=L+s(6)

2. 正向传播的计算图

通常绘制计算图来可视化运算符和变量在计算中的依赖关系，一般来说，计算图中左下角是输入，右上角是输出。其中方框代表变量，圆圈代表运算符，箭头表示从输入到输出之间的依赖关系。

3. 反向传播

反向传播指的是计算神经网络参数梯度的方法。总的来说，反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。对输入或输出X,Y,ZX,Y,ZX,Y,Z为任意形状张量的函数Y=f(X)Y=f(X)Y=f(X)和Z=g(Y)Z=g(Y)Z=g(Y)，通过链式法则，有：
∂Z∂X=∏(∂Z∂Y,∂Y∂X)(7)\frac{\partial Z}{\partial X} = \prod(\frac{\partial Z}{\partial Y}, \frac{\partial Y}{\partial X}) \tag 7 ∂X∂Z=∏(∂Y∂Z,∂X∂Y)(7)
其中prod运算将根据两个输入的形状，在必要的操作（如转置和互换输入位置）后对两个输入做乘法。

本例中的模型，它的参数是W(1)W^{(1)}W(1)和W(2)W^{(2)}W(2)，因此反向传播的目标是计算∂J∂W(1)\frac{\partial J}{\partial W^{(1)}}∂W(1)∂J和∂J∂W(2)\frac{\partial J}{\partial W^{(2)}}∂W(2)∂J。应用链式法则则依次计算各中间变量和参数的梯度，其计算次序与前向传播中相应中间变量的计算次序恰恰相反。

首先，分别计算目标函数J=L+sJ=L+sJ=L+s有关损失项LLL和正则项sss的梯度：
∂J∂L=1,∂J∂s=1(8)\frac{\partial J}{\partial L} = 1, \frac{\partial J}{\partial s}=1 \tag 8 ∂L∂J=1,∂s∂J=1(8)
其次，依据链式法则计算目标函数有关输出层变量的梯度∂J∂o∈Rq\frac{\partial J}{\partial o} \in R^q∂o∂J∈Rq：
∂J∂o=∏(∂J∂L,∂L∂o)=∂L∂o(9)\frac{\partial J}{\partial o}=\prod(\frac{\partial J}{\partial L}, \frac{\partial L}{\partial o})=\frac{\partial L}{\partial o} \tag 9 ∂o∂J=∏(∂L∂J,∂o∂L)=∂o∂L(9)
接下来，计算正则项有关两个参数的梯度：
∂s∂W(1)=λW(1),∂s∂W(2)=λW(2)(10)\frac{\partial s}{\partial W^{(1)}}=\lambda W^{(1)}, \frac{\partial s}{\partial W^{(2)}}=\lambda W^{(2)} \tag {10} ∂W(1)∂s=λW(1),∂W(2)∂s=λW(2)(10)
现在，我们可计算最靠近输出层的模型参数的梯度∂J∂W(2)∈Rq×h\frac{\partial J}{\partial W^{(2)}} \in R^{q \times h}∂W(2)∂J∈Rq×h。依据链式法则，得到：
∂J∂W(2)=∏(∂J∂o,∂o∂W(2))+∏(∂J∂s,∂s∂W(2))=∂J∂ohT+λW(2)(11)\frac{\partial J}{\partial W^{(2)}}=\prod(\frac{\partial J}{\partial o}, \frac{\partial o}{\partial W^{(2)}})+\prod(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial W^{(2)}})=\frac{\partial J}{\partial o}h^T + \lambda W^{(2)} \tag {11} ∂W(2)∂J=∏(∂o∂J,∂W(2)∂o)+∏(∂s∂J,∂W(2)∂s)=∂o∂JhT+λW(2)(11)
沿着输出层向隐藏层继续反向传播，隐藏层变量的梯度∂J∂h∈Rh\frac{\partial J}{\partial h} \in R^h∂h∂J∈Rh：
∂J∂h=∏(∂J∂o,∂o∂h)=W(2)T∂J∂o(12)\frac{\partial J}{\partial h}=\prod(\frac{\partial J}{\partial o}, \frac{\partial o}{\partial h})=W^{{(2)}^T} \frac{\partial J}{\partial o} \tag {12} ∂h∂J=∏(∂o∂J,∂h∂o)=W(2)T∂o∂J(12)
由于激活函数ϕ\phiϕ是按元素运算的，中间变量zzz的梯度∂J∂z∈Rh\frac{\partial J}{\partial z} \in R^h∂z∂J∈Rh的计算需要使用按元素乘法符⊙\odot⊙：
∂J∂z=∏(∂J∂h,∂h∂z)=∂J∂h⊙ϕ′(z)(13)\frac{\partial J}{\partial z}=\prod(\frac{\partial J}{\partial h}, \frac{\partial h}{\partial z})=\frac{\partial J}{\partial h} \odot \phi^{'}(z) \tag {13} ∂z∂J=∏(∂h∂J,∂z∂h)=∂h∂J⊙ϕ′(z)(13)
最终，可以得到最靠近输入层的模型参数的梯度∂J∂W(1)∈Rh×d\frac{\partial J}{\partial W^{(1)}} \in R^{h \times d}∂W(1)∂J∈Rh×d。依据链式法则，得到：
∂J∂W(1)=∏(∂J∂z,∂z∂W(1))+∏(∂J∂s,∂s∂W(1))=∂J∂zxT+λW(1)(14)\frac{\partial J}{\partial W^{(1)}}=\prod(\frac{\partial J}{\partial z}, \frac{\partial z}{\partial W^{(1)}})+\prod(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial W^{(1)}})=\frac{\partial J}{\partial z}x^T+\lambda W^{(1)} \tag {14} ∂W(1)∂J=∏(∂z∂J,∂W(1)∂z)+∏(∂s∂J,∂W(1)∂s)=∂z∂JxT+λW(1)(14)

在训练模型时，正向传播与反向传播互相依赖。