反向传播算法的详细解释（上）

最近在看NG的视频的时候，学习反向传播算法时遇到了不小的困难。一是因为NG并没有把太多的精力放在讲解反向传播原理上，可能NG自己也觉得这部分如果要细讲，真的会耗费不少时间。二是NG在开课初就很照顾数学基础差的学生，偏偏反向传播算法这部分很考验数学基本功，所以他选择性忽略了很多原理。

遇到困难当然要解决困难了。所以我就搜索了很多资料。发现这篇知乎回答算是讲的稍微通俗易懂。

原文出处：知乎 https://zhuanlan.zhihu.com/p/25081671

作者：晓雷
链接：https://zhuanlan.zhihu.com/p/25081671
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1 用计算图来解释几种求导方法：

1.1 计算图

1.2 两种求导模式：前向模式求导( forward-mode differentiation) 反向模式求导(reverse-mode differentiation)

1.3 反向求导模式（反向传播算法）的重要性

声明：本文内容来自 Calculus on Computational Graphs: Backpropagation 。算是翻译加上自己理解。水平有限，理解错误欢迎指正。

反向传播算法(Backpropagation)已经是神经网络模型进行学习的标配。但是有很多问题值得思考一下：

反向传播算法的作用是什么？ 神经网络模型的学习算法一般是SGD。SGD需要用到损失函数C关于各个权重参数 $w_{jk},b_j$ 的偏导数 $\frac{ \partial C }{ \partial w_{jk} } , \frac{ \partial C }{ \partial b_j}$ 。一个模型的参数w,b是非常多的，故而需要反向传播算法快速计算 $\frac{ \partial C }{ \partial w_{jk} } , \frac{ \partial C }{ \partial b_j}$ 。也就是说反向传播算法是一种计算偏导数的方法。

为什么要提出反向传播算法？在反向传播算法提出之前人们应该想到了使用SGD学习模型，也想到了一些办法求解网络模型的偏导数，但这些算法求解效率比较低，所以提出反向传播算法来更高效的计算偏导数。（那时的网络模型还比较浅只有2-3层，参数少。估计即便不适用反向传播这种高效的算法也能很好的学习。一旦有人想使用更深的网络自然会遇到这个偏导数无法高效计算的问题，提出反向传播也就势在必行了）

反向传播怎么样实现高效计算偏导数的？请先回顾一下当初我们学习微积分时是如何计算偏导数的？（链式法则，具体看下面）

1 用计算图来解释几种求导方法：

1.1 计算图

式子 $e=(a+b)*(b+1)$ 可以用如下计算图表达：

令a=2,b=1则有：

如何在计算图上表达“求导”呢？导数的含义是因变量随自变量的变化率，例如 $\frac{\partial y }{\partial x} = 3$ 表示当x变化1个单位，y会变化3个单位。微积分中已经学过：加法求导法则是 $\frac{\partial}{\partial a}(a+b) = \frac{\partial a}{\partial a} + \frac{\partial b}{\partial a} = 1$ 乘法求导法则是 $\frac{\partial}{\partial u}uv = u\frac{\partial v}{\partial u} + v\frac{\partial u}{\partial u} = v$ 。我们在计算图的边上表示导数或偏导数： $\frac{ \partial e }{ \partial c } , \frac{ \partial e }{ \partial d }, \frac{ \partial c }{ \partial a }, \frac{ \partial c }{ \partial b }, \frac{ \partial d }{ \partial b }$ 如下图

那么 $\frac{ \partial e }{ \partial b }$ 如何求呢？ $\frac{\partial c }{ \partial b} = 1$ 告诉我们1个单位的b变化会引起1个单位的c变换， $\frac{\partial e }{ \partial c} = 2$ 告诉我们 1 个单位的c变化会引起2个单位的e变化。所以 $\frac{ \partial e }{ \partial b } = \frac{ \partial c }{ \partial b } * \frac{ \partial e }{ \partial c } = 1*2 =2$ 吗？答案必然是错误。因为这样做只考虑到了下图橙色的路径，所有的路径都要考虑： $\frac{ \partial e }{ \partial b } = \frac{ \partial c }{ \partial b } * \frac{ \partial e }{ \partial c } + \frac{ \partial d }{ \partial b } * \frac{ \partial e }{ \partial d } =1*2 + 1 * 3 = 5$

所以上面的求导方法总结为一句话就是：路径上所有边相乘，所有路径相加。不过这里需要补充一条很有用的合并策略：

例如：下面的计算图若要计算 $\frac{\partial Z}{\partial X}$ 就会有9条路径： $\frac{\partial Z}{\partial X} = \alpha\delta + \alpha\epsilon + \alpha\zeta + \beta\delta + \beta\epsilon + \beta\zeta + \gamma\delta + \gamma\epsilon + \gamma\zeta$

如果计算图再复杂一些，层数再多一些，路径数量就会呈指数爆炸性增长。但是如果采用合并策略： $\frac{\partial Z}{\partial X} = (\alpha + \beta + \gamma)(\delta + \epsilon + \zeta)$ 就不会出现这种问题。这种策略不是对每一条路径都求和，而是 “合并同类路径”，“分阶段求解”。先求X对Y的总影响 $(\alpha + \beta + \gamma)$ 再求Y对Z的总影响 $(\delta + \epsilon + \zeta)$ 最后综合在一起。

1.2 两种求导模式：前向模式求导( forward-mode differentiation) 反向模式求导(reverse-mode differentiation)

上面提到的求导方法都是前向模式求导( forward-mode differentiation) ：从前向后。先求X对Y的总影响 $(\alpha + \beta + \gamma)$ 再乘以Y对Z的总影响 $(\delta + \epsilon + \zeta)$ 。

另一种，反向模式求导(reverse-mode differentiation) 则是从后向前。先求Y对Z的影响再乘以X对Y的影响。

前向求导模式追踪一个输入如何影响每一个节点（对每一个节点进行 $\frac{\partial}{\partial X}$ 操作）反向求导模式追踪每一个节点如何影响一个输出（对每一个节点进行 $\frac{\partial Z}{\partial}$ 操作）。

1.3 反向求导模式（反向传播算法）的重要性：

让我们再次考虑前面的例子：

如果用前向求导模式：关于b向前求导一次

如果用反向求导模式：向后求导

前向求导模式只得到了关于输入b的偏导 $\frac{\partial e}{\partial b}$ ，还需要再次求解关于输入a的偏导 $\frac{\partial e}{\partial a}$ （运算2遍）。而反向求导一次运算就得到了e对两个输入a,b的偏导 $\frac{\partial e}{\partial a}, \frac{\partial e}{\partial b}$ （运算1遍）。上面的比较只看到了2倍的加速。但如果有1亿个输入1个输出，意味着前向求导需要操作1亿遍才得到所有关于输入的偏导，而反向求导则只需一次运算，1亿倍的加速。

当我们训练神经网络时，把“损失“ 看作 ”权重参数“ 的函数，需要计算”损失“关于每一个”权重参数“的偏导数（然后用梯度下降法学习）。神经网络的权重参数可以是百万甚至过亿级别。因此反向求导模式（反向传播算法）可以极大的加速学习。

参考：

Calculus on Computational Graphs: Backpropagation
Neural networks and deep learning

反向传播算法的详细解释（上）相关推荐

反向传播算法的详细解释（下）
上一篇文章算是用"链式法则"给我们开了个头,下一篇文章则是将反向传播算法应用到神经网络. 原文出处:知乎 https://zhuanlan.zhihu.com/p/25081671 ...
第二章反向传播算法如何工作的？
更好的公式展现请去gitbook 连接阅读在上一章,我们看到了神经网络如何使用梯度下降算法来学习他们自身的权重和偏差.但是,这里还留下了一个问题:我们并没有讨论如何计算代价函数的梯度.这是很大的缺失 ...
零基础入门深度学习(3) - 神经网络和反向传播算法
无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...
深度学习(4) - 神经网络和反向传播算法
神经元神经元和感知器本质上是一样的,只不过我们说感知器的时候,它的激活函数是阶跃函数:而当我们说神经元时,激活函数往往选择为sigmoid函数或tanh函数.如下图所示: 计算一个神经元的输出的方法 ...
用反向传播算法解释大脑学习过程？Hinton 等人新研究登上 Nature 子刊
机器之心报道魔王.Jamin.杜伟反向传播可以解释大脑学习吗?近日 Hinton 等人的研究认为,尽管大脑可能未实现字面形式的反向传播,但是反向传播的部分特征与理解大脑中的学习具备很强的关联性.该 ...
【历史上的今天】10 月 8 日：Netflix 创始人诞生；反向传播算法经典论文发表；Android 4.0 发布
整理 | 王启隆透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 10 月 8 日,家喻户晓的三国时期杰出人物诸葛亮在今天逝世,他对丰功伟绩被许多文献记载,他对巴蜀的 ...
LSTM前向传播与反向传播算法推导（非常详细）
1.长短期记忆网络LSTM LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN.长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学 ...
RNN与其反向传播算法——BPTT(Backward Propogation Through Time)的详细推导
前言一点感悟: 前几天简单看了下王者荣耀觉悟AI的论文,发现除了强化学习以外,也用到了熟悉的LSTM.之后我又想起了知乎上的一个问题:"Transformer会彻底取代RNN吗?" ...
cnn 反向传播推导_反向传播算法推导过程（非常详细）
1. 前向传播假设为的矩阵(其中, 为样本个数(batch size), 为特征维数): 与的维数为为的矩阵, 与的维数为为的矩阵, 与的维数为为的矩阵, 前向算法: 假设输出 ...

反向传播算法的详细解释（上）

1 用计算图来解释几种求导方法：

参考：

反向传播算法的详细解释（上）相关推荐

最新文章

热门文章