PyTorch 一文入门

PyTorch 入坑四：计算图与反向传播
- 导数、梯度与最优化
- - 方向导数与梯度
  - 最优化
- 复合函数求梯度
- 计算图
- PyTorch实战
- PyTorch中的动态图机制

PyTorch 入坑四：计算图与反向传播

导数、梯度与最优化

方向导数与梯度

笔者认为，梯度的概念是深度学习及最优化中核心的概念之一，精确的理解梯度的概念，对于理解反向传播的过程、优化过程及各种深度学习优化器的改进版具有很大的帮助，因此，本节将会用通俗的语言描述相关概念。
首先是导数，对于一元函数来说，导数即为自变量单位变化时，函数值的变化量。比如距离对时间的导数为速度(单位时间的距离)，速度对时间的导数为加速度(单位时间内速度的变化量)
多元函数的情况复杂一些，以二元函数为例(高纬函数可类比)，二元函数的图像可以在3D坐标系中可视化。因此：

偏导数：分别沿着x、y方向单位变化时，函数的变化量
方向导数：沿着xy平面某一方向变化时，函数的变化量
所谓梯度，是指这样的一个向量，他的方向等于方向导数中取到最大值的方向，梯度的模为方向导数的最大值。
换言之， 方向导数 ＝梯度与 方向余弦 的数量积 (梯度和方向余弦分别是向量，方向导数是标量)

接下来，有两个疑问：

为什么所有方向导数中会存在并且只存在一个最大值？而不是有多个最大值、或者说没有最大值？
这个最大值在哪个方向取得？值是多少？
详见：参考如何直观形象地理解方向导数与梯度以及它们之间的关系？

最优化

最优化问题的简洁介绍是什么
常见最优化方法总结
ADAm
深度学习中的优化算法
最常见的最优化方法：梯度下降法，即沿着梯度的方向更新待优化的变量。

复合函数求梯度

单变量与多变量的函数求梯度

神经网络中，x、y类似于网络待学习的参数，u、v为中间变量；z为loss。

计算图

计算图是用来描述运算的有向无环图
计算图有两个主要元素：结点（Node）和边（Edge）；结点表示数据，如向量、矩阵、张量；边表示运算，如加减乘除卷积等

用计算图表示： y = ( x + w ) ∗ ( w + 1 ) y = (x + w) * (w + 1) y=(x+w)∗(w+1)
令 a = x + w a=x+w a=x+w， b = w + 1 b=w+1 b=w+1， y = a ∗ b y=a*b y=a∗b，那么得到的计算图如下所示：

采用计算图来描述运算的好处不仅仅是让运算更加简洁，还有一个更加重要的作用是使梯度求导更加方便。举个例子，看一下y对w求导的一个过程。

PyTorch实战

使用PyTorch求解上述梯度问题为：

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
a = torch.add(w, x)     # a = w + x
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播print(w.grad)   #输出w的梯度

得到的结果为5，证明了上面的结论。

在第一篇博文中讲张量的属性的时候，讲到与梯度相关的四个属性的时候，有一个is_leaf，也就是叶子节点，叶子节点的功能是指示张量是否是叶子节点。

叶子节点：用户创建的结点称为叶子结点，如X与W；
is_leaf：指示张量是否为叶子节点
设置叶子节点主要是为了节省内存，在梯度反向传播结束之后，非叶子节点的梯度都会被释放掉(如果想使用非叶子结点梯度，可以使用pytorch中的retain_grad())

例如对上面代码中的a执行相关操作a.retain_grad()，则a的梯度会被保留下来，具体的代码如下所示：

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为Truea = torch.add(w, x)     # a = w + x
a.retain_grad()   #保存非叶子结点a的梯度，输出为tensor([5.]) tensor([2.]) tensor([2.]) None None
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度#查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)#查看梯度
print("gradient:\n", w.grad, x.grad, a.grad, b.grad, y.grad)

torch.Tensor中还有一个属性为grad_fn，grad_fn的作用是记录创建该张量时所用的方法（函数），该属性在梯度反向传播的时候用到。例如在上面提到的例子中，y.grad_fn = ，y在反向传播的时候会记录y是用乘法得到的，所用在求解a和b的梯度的时候就会用到乘法的求导法则去求解a和b的梯度。同样，对于a有a.grad_fn=，对于b有b.grad_fn=，由于a和b是通过加法得到的，所以grad_fn都是AddBackword0。可以通过代码观看各个变量的属性。w和x的grad_fn都是None，因为w和x都是用户创建的，没有通过任何方法任何函数去生成这两个张量，所以两个叶子节点的属性为None.

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为Truea = torch.add(w, x)     # a = w + x
a.retain_grad()
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度# 查看 grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)#上面代码的输出结果为
grad_fn:None None <AddBackward0 object at 0x000001EEAA829308> <AddBackward0 object at 0x000001EE9C051548> <MulBackward0 object at 0x000001EE9C29F948>

PyTorch中的动态图机制

动态图：pytorch使用的，运算与搭建同时进行；灵活，易调节。
静态图：tensorflow使用的，先搭建图，后运算；高效，不灵活。

PyTorch 入坑四梯度、链式法则、计算图与反向传播相关推荐

PyTorch入坑(一)~(三): Tensor的概念，基本操作和线性回归
PyTorch 一文入门 PyTorch 入坑一:数据类型与Tensor的概念 PyTorch数据类型 Tensor的概念 Tensor与Variable Variable Tensor Tensor ...
PyTorch 入坑七：模块与nn.Module学习
PyTorch 入坑七模型创建概述 PyTorch中的模块 torch模块 torch.Tensor模块 torch.sparse模块 torch.cuda模块 torch.nn模块 torch.n ...
小白带你入坑四旋翼无人机——物料篇
之前就想写了,但是比赛挺忙,就搁置下来了,现在比完了刚好在记录一下. 就在一个月前,我真正开始了和四旋翼无人机打交道.当时,我还是一个小白,对无人机什么都不了解,而现在..我还是一个小白... 现在就 ...
机器学习入门（14）— 神经网络学习整体流程、误差反向传播代码实现、误差反向传播梯度确认、误差反向传播使用示例
1. 神经网络学习整体流程神经网络学习的步骤如下所示. 前提神经网络中有合适的权重和偏置,调整权重和偏置以便拟合训练数据的过程称为学习.神经网络的学习分为下面 4 个步骤. 步骤1(mini-ba ...
PyTorch 入坑五 autograd与逻辑回归
torch.autograd 深度学习模型的训练就是不断更新权值,权值的更新需要求解梯度,梯度在模型训练中是至关重要的. 然而求解梯度十分繁琐,pytorch提供自动求导系统.我们不需要手 ...
PyTorch 入坑十一：损失函数、正则化----深刻剖析softmax+CrossEntropyLoss
这里写目录标题概念 Loss Function Cost Function Objective Function 正则化损失函数交叉熵损失函数nn.CrossEntropyLoss() 自信息 ...
PyTorch 入坑九：权重初始化
这里写目录标题 Pytorch提供的十种权值初始化方法为什么要进行权重初始化设计:从梯度消失与爆炸说起常用的几种权重初始化方法不考虑激活函数饱和型激活函数 xavier_uniform方法非 ...
PyTorch 入坑八：卷积与转置卷积
卷积操作略输入输出尺寸变化略 PyTorch实现 nn.Conv2d(in_channels,out_channels,kernel_size,stride=1.padding=0,dilat ...
PyTorch 入坑六数据处理模块Dataloader、Dataset、Transforms
深度学习中的数据处理概述深度学习三要素:数据.算力和算法在工程实践中,数据的重要性越来越引起人们的关注.在数据科学界流传着一种说法,"数据决定了模型的上限,算法决定了模型的下限" ...

PyTorch 入坑四梯度、链式法则、计算图与反向传播

PyTorch 一文入门

PyTorch 入坑四：计算图与反向传播

导数、梯度与最优化

方向导数与梯度

最优化

复合函数求梯度

计算图

PyTorch实战

PyTorch中的动态图机制

PyTorch 入坑四梯度、链式法则、计算图与反向传播相关推荐

最新文章

热门文章

PyTorch 入坑四 梯度、链式法则、计算图与反向传播

PyTorch 一文入门

PyTorch 入坑四：计算图与反向传播

导数、梯度与最优化

方向导数与梯度

最优化

复合函数求梯度

计算图

PyTorch实战

PyTorch中的动态图机制

PyTorch 入坑四 梯度、链式法则、计算图与反向传播相关推荐

最新文章

热门文章

PyTorch 入坑四梯度、链式法则、计算图与反向传播

PyTorch 入坑四梯度、链式法则、计算图与反向传播相关推荐