周志华—-第5章神经网络（误差逆传播算法）

简介

多层网络的训练需要一种强大的学习算法，其中BP（errorBackPropagation）算法就是成功的代表，它是迄今最成功的神经网络学习算法。简单来说，它可总结为两种模式：信息的正向传播和误差的反向传播。

正向传播：输入的样本从输入层经过隐单元一层一层进行处理，通过所有的隐层之后，则传向输出层，在逐层处理的过程中，每一层神经元的状态只会对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较，如果现行输出不等于期望输出，则进入反向传播过程

反向传播：反向传播时，把原来正向传播的通路反向传回，并对每个隐层的各个神经元的权系数进行修改，以望误差信号趋向最小。

BP误差逆传播算法的数学推导

对训练例(xk,yk)(xk,yk)(x_k,y_k),假定神经网络的输出为y¯¯¯k=(y1¯¯¯¯¯k,y2¯¯¯¯¯k,⋯,yl¯¯¯¯k)y¯k=(y1¯k,y2¯k,⋯,yl¯k) \overline y_k=(\overline{y_1}^k,\overline{y_2}^k,\cdots,\overline{y_l}^k ),即yj¯¯¯¯k=f(βj−θj)yj¯k=f(βj−θj)\overline{y_j}^k=f(\beta_j-\theta_j),其中βjβj\beta_j是第j个输出层神经元的输入值，θjθj\theta_j是第j个输出层神经元的阙值，这里的f(x)是激活函数，常用sigmoid函数。

则网络在(xk,yk)(xk,yk)(x_k,y_k)上的均方误差为：Ek=12∑lj=1(yj¯¯¯¯k−yjk)2Ek=12∑j=1l(yj¯k−yjk)2E_k=\frac{1}{2} \sum_{j=1}^{l} (\overline{y_j}^k-{y_j}^k)^2

BP误差逆传播算法的核心其实就是误差最小化的过程，它的主要策略是负梯度方向的梯度下降算法，即设定参数的初始值，通过一个学习速率ηη\eta和当前梯度，来逐渐步进参数，以求拟合一个局部最优的参数。

一般的参数迭代过程如下：

V:ΔV=V+ΔV=η∗grad(V)V:=V+ΔVΔV=η∗grad(V)

\begin{split} V:&=V+ \Delta V \\\Delta V&=\eta*grad(V)& \end{split}
我们以隐藏层中第h个神经元为参照对象，求解它的输入权重v和输出权重w，以及阙值Y,以输出层第J个神经元为输出参照，求解它的阙值 θθ\theta.

隐藏层到输出层的权重WhjWhjW_{hj}:

ΔWhj=−η∗dEkdWhjΔWhj=−η∗dEkdWhj

\Delta W_{hj}=-\eta *\frac{d{E_k}}{d{W_{hj}}}

由复合函数求导公式可得，即链式法则，可归纳为h（a）=f(g(x))h（a）=f(g(x))h（a）=f(g(x)), 则h′(a)=f′(g(x))g′(x)h′(a)=f′(g(x))g′(x)h'(a)=f'(g(x))g'(x),WhjWhjW_{hj}先影响到第jjj个输出层神经元的输入值βj" role="presentation" style="position: relative;">βjβj\beta_j，再影响到其输出值yj¯¯¯¯kyj¯k\overline {y_j}^k，最后影响到误差EkEkE_k：(也就是说它们分别存在对应的函数关系)

dEkdWhj=dEkdyj¯¯¯¯k∗dyj¯¯¯¯kdβj∗dβjdWhj dEkdWhj=dEkdyj¯k∗dyj¯kdβj∗dβjdWhj

\begin{split} \frac{d{E_k}}{d{W_{hj}}} &=\frac{d{E_k}}{d{\overline {y_j}^k }}*\frac{d{\overline {y_j}^k}}{d{\beta_{j}}}*\frac{d{\beta_{j}}}{d{W_{hj}}} \\ & \end{split}\

另外，由于sigmoid函数的性质：f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))f'(x)=f(x)(1-f(x))，又sigmoid(net)=11+e−netsigmoid(net)=11+e−netsigmoid(net)=\frac{1}{1+e^{-net}}

注：上述性质推导公式如下：

sigmoid′(net)=e−net(1+e−net)2=1+e−net−1(1+e−net)2=11+e−net−1(1+e−net)2=sigmoid(net)−sigmoid2(net) sigmoid′(net)=e−net(1+e−net)2=1+e−net−1(1+e−net)2=11+e−net−1(1+e−net)2=sigmoid(net)−sigmoid2(net)

\begin{split} sigmoid'(net)&=\frac{e^{-net}}{(1+e^{-net})^2} \\ &=\frac{1+e^{-net}-1}{(1+e^{-net})^2}\\ &=\frac{1}{1+e^{-net}}-\frac{1}{(1+e^{-net})^2}\\ &=sigmoid(net)-{sigmoid^2(net)} \end{split}\

又，由于yj¯¯¯¯k=f(βj−θj)yj¯k=f(βj−θj)\overline{y_j}^k=f(\beta_j-\theta_j)，则有（因为θjθj\theta_j相当于常数，故可以在βjβj\beta_j处添加，因为求导后常数的部分结果为0，不影响最终结果）：

dyj¯¯¯¯kdβj=df(βj−θj)d（βj−θj)=f(βj−θj)(1−f(βj−θj))=yj¯¯¯¯k(1−yj¯¯¯¯k) dyj¯kdβj=df(βj−θj)d（βj−θj)=f(βj−θj)(1−f(βj−θj))=yj¯k(1−yj¯k)

\begin{split} \frac{d{\overline {y_j}^k}}{d{\beta_{j}}}&= \frac{d{f(\beta_j-\theta_j)}}{d{（\beta_j-\theta_j)}} \\ &=f(\beta_j-\theta_j)(1-f(\beta_j-\theta_j))\\ &=\overline{y_j}^k(1-\overline{y_j}^k) \end{split}\

又(注：只有j=j时，函数求导才有意义，其他j等于非j的时候，求导相当于常数求导等于0)：

dEkdyj¯¯¯¯k=d12∑lj=1(yj¯¯¯¯k−yjk)2dyj¯¯¯¯k=d12(yj¯¯¯¯k−yjk)2dyj¯¯¯¯k=yj¯¯¯¯k−yjk dEkdyj¯k=d12∑j=1l(yj¯k−yjk)2dyj¯k=d12(yj¯k−yjk)2dyj¯k=yj¯k−yjk

\begin{split} \frac{d{E_k}}{d{\overline {y_j}^k}}&= \frac{d{\frac{1}{2} \sum_{j=1}^{l} (\overline{y_j}^k-{y_j}^k)^2}}{d{\overline {y_j}^k}} \\ &=\frac{d{\frac{1}{2} (\overline{y_j}^k-{y_j}^k)^2}}{d{\overline {y_j}^k}}\\ &=\overline{y_j}^k-{y_j}^k \end{split}\

同理(注：sumsumsum_{}能删掉是因为WijWijW_{ij},当i不等于h时，相当于常数项导数为0),其中bhbhb_h为隐藏层第h个神经元的输出：

dβjdWhj=d∑mi=1WijbidWhj=bhdβjdWhj=d∑i=1mWijbidWhj=bh \frac{d{\beta_j}}{d{W_{hj}}}=\frac{d{\sum_{i=1}^{m}W_{ij}b_i}}{d{W_{hj}}}=b_h

故：

ΔWhj=−η∗dEkdWhj=−η∗dEkdyj¯¯¯¯k∗dyj¯¯¯¯kdβj∗dβjdWhj$=−bhη∗(yj¯¯¯¯k−yjk)∗yj¯¯¯¯k(1−yj¯¯¯¯k)ΔWhj=−η∗dEkdWhj=−η∗dEkdyj¯k∗dyj¯kdβj∗dβjdWhj$=−bhη∗(yj¯k−yjk)∗yj¯k(1−yj¯k)

\begin{split}\Delta W_{hj}=-\eta *\frac{d{E_k}}{d{W_{hj}}}&=-\eta*\frac{d{E_k}}{d{\overline {y_j}^k }}*\frac{d{\overline {y_j}^k}}{d{\beta_{j}}}*\frac{d{\beta_{j}}}{d{W_{hj}}}$\\ &=-b_h\eta*(\overline{y_j}^k-{y_j}^k)*\overline{y_j}^k(1-\overline{y_j}^k)\\ & \end{split}