PyTorch 一文入门

  • PyTorch 入坑四:计算图与反向传播
    • 导数、梯度与最优化
      • 方向导数与梯度
      • 最优化
    • 复合函数求梯度
    • 计算图
    • PyTorch实战
    • PyTorch中的动态图机制

PyTorch 入坑四:计算图与反向传播

导数、梯度与最优化

方向导数与梯度

笔者认为,梯度的概念是深度学习及最优化中核心的概念之一,精确的理解梯度的概念,对于理解反向传播的过程、优化过程及各种深度学习优化器的改进版具有很大的帮助,因此,本节将会用通俗的语言描述相关概念。
      首先是导数,对于一元函数来说,导数即为自变量单位变化时,函数值的变化量。比如距离对时间的导数为速度(单位时间的距离),速度对时间的导数为加速度(单位时间内速度的变化量)
      多元函数的情况复杂一些,以二元函数为例(高纬函数可类比),二元函数的图像可以在3D坐标系中可视化。因此:

  • 偏导数:分别沿着x、y方向单位变化时,函数的变化量
  • 方向导数:沿着xy平面某一方向变化时,函数的变化量
          所谓梯度,是指这样的一个向量,他的方向等于方向导数中取到最大值的方向,梯度的模为方向导数的最大值。
  • 换言之, 方向导数梯度方向余弦 的数量积 (梯度和方向余弦分别是向量,方向导数是标量)

接下来,有两个疑问:

  • 为什么所有方向导数中会存在并且只存在一个最大值?而不是有多个最大值、或者说没有最大值?
  • 这个最大值在哪个方向取得?值是多少?
    详见:参考如何直观形象地理解方向导数与梯度以及它们之间的关系?

最优化

最优化问题的简洁介绍是什么
常见最优化方法总结
ADAm
深度学习中的优化算法
最常见的最优化方法:梯度下降法,即沿着梯度的方向更新待优化的变量。

复合函数求梯度

单变量与多变量的函数求梯度

神经网络中,x、y类似于网络待学习的参数,u、v为中间变量;z为loss。

计算图

  • 计算图是用来描述运算的有向无环图
  • 计算图有两个主要元素:结点(Node)和边(Edge);结点表示数据,如向量、矩阵、张量;边表示运算,如加减乘除卷积等

用计算图表示: y = ( x + w ) ∗ ( w + 1 ) y = (x + w) * (w + 1) y=(x+w)∗(w+1)
令 a = x + w a=x+w a=x+w, b = w + 1 b=w+1 b=w+1, y = a ∗ b y=a*b y=a∗b,那么得到的计算图如下所示:


采用计算图来描述运算的好处不仅仅是让运算更加简洁,还有一个更加重要的作用是使梯度求导更加方便。举个例子,看一下y对w求导的一个过程。

PyTorch实战

使用PyTorch求解上述梯度问题为:

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
a = torch.add(w, x)     # a = w + x
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播print(w.grad)   #输出w的梯度

得到的结果为5,证明了上面的结论。

在第一篇博文中讲张量的属性的时候,讲到与梯度相关的四个属性的时候,有一个is_leaf,也就是叶子节点,叶子节点的功能是指示张量是否是叶子节点。

  • 叶子节点:用户创建的结点称为叶子结点,如X与W;
  • is_leaf:指示张量是否为叶子节点
  • 设置叶子节点主要是为了节省内存,在梯度反向传播结束之后,非叶子节点的梯度都会被释放掉(如果想使用非叶子结点梯度,可以使用pytorch中的retain_grad())

例如对上面代码中的a执行相关操作a.retain_grad(),则a的梯度会被保留下来,具体的代码如下所示:

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为Truea = torch.add(w, x)     # a = w + x
a.retain_grad()   #保存非叶子结点a的梯度,输出为tensor([5.]) tensor([2.]) tensor([2.]) None None
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度#查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)#查看梯度
print("gradient:\n", w.grad, x.grad, a.grad, b.grad, y.grad)

torch.Tensor中还有一个属性为grad_fn,grad_fn的作用是记录创建该张量时所用的方法(函数),该属性在梯度反向传播的时候用到。例如在上面提到的例子中,y.grad_fn = ,y在反向传播的时候会记录y是用乘法得到的,所用在求解a和b的梯度的时候就会用到乘法的求导法则去求解a和b的梯度。同样,对于a有a.grad_fn=,对于b有b.grad_fn=,由于a和b是通过加法得到的,所以grad_fn都是AddBackword0。可以通过代码观看各个变量的属性。w和x的grad_fn都是None,因为w和x都是用户创建的,没有通过任何方法任何函数去生成这两个张量,所以两个叶子节点的属性为None.

import torchw = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为Truea = torch.add(w, x)     # a = w + x
a.retain_grad()
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * by.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度# 查看 grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)#上面代码的输出结果为
grad_fn:None None <AddBackward0 object at 0x000001EEAA829308> <AddBackward0 object at 0x000001EE9C051548> <MulBackward0 object at 0x000001EE9C29F948>

PyTorch中的动态图机制

  • 动态图:pytorch使用的,运算与搭建同时进行;灵活,易调节。
  • 静态图:tensorflow使用的,先搭建图,后运算;高效,不灵活。

PyTorch 入坑四 梯度、链式法则、计算图与反向传播相关推荐

  1. PyTorch入坑(一)~(三): Tensor的概念,基本操作和线性回归

    PyTorch 一文入门 PyTorch 入坑一:数据类型与Tensor的概念 PyTorch数据类型 Tensor的概念 Tensor与Variable Variable Tensor Tensor ...

  2. PyTorch 入坑七:模块与nn.Module学习

    PyTorch 入坑七 模型创建概述 PyTorch中的模块 torch模块 torch.Tensor模块 torch.sparse模块 torch.cuda模块 torch.nn模块 torch.n ...

  3. 小白带你入坑四旋翼无人机——物料篇

    之前就想写了,但是比赛挺忙,就搁置下来了,现在比完了刚好在记录一下. 就在一个月前,我真正开始了和四旋翼无人机打交道.当时,我还是一个小白,对无人机什么都不了解,而现在..我还是一个小白... 现在就 ...

  4. 机器学习入门(14)— 神经网络学习整体流程、误差反向传播代码实现、误差反向传播梯度确认、误差反向传播使用示例

    1. 神经网络学习整体流程 神经网络学习的步骤如下所示. 前提 神经网络中有合适的权重和偏置,调整权重和偏置以便拟合训练数据的过程称为学习.神经网络的学习分为下面 4 个步骤. 步骤1(mini-ba ...

  5. PyTorch 入坑五 autograd与逻辑回归

    torch.autograd 深度学习模型的训练就是不断更新权值,权值的更新需要求解梯度,梯度在模型训练中是至关重要的.       然而求解梯度十分繁琐,pytorch提供自动求导系统.我们不需要手 ...

  6. PyTorch 入坑十一: 损失函数、正则化----深刻剖析softmax+CrossEntropyLoss

    这里写目录标题 概念 Loss Function Cost Function Objective Function 正则化 损失函数 交叉熵损失函数nn.CrossEntropyLoss() 自信息 ...

  7. PyTorch 入坑九:权重初始化

    这里写目录标题 Pytorch提供的十种权值初始化方法 为什么要进行权重初始化设计:从梯度消失与爆炸说起 常用的几种权重初始化方法 不考虑激活函数 饱和型激活函数 xavier_uniform方法 非 ...

  8. PyTorch 入坑八:卷积与转置卷积

    卷积 操作 略 输入输出尺寸变化 略 PyTorch实现 nn.Conv2d(in_channels,out_channels,kernel_size,stride=1.padding=0,dilat ...

  9. PyTorch 入坑六 数据处理模块Dataloader、Dataset、Transforms

    深度学习中的数据处理概述 深度学习三要素:数据.算力和算法 在工程实践中,数据的重要性越来越引起人们的关注.在数据科学界流传着一种说法,"数据决定了模型的上限,算法决定了模型的下限" ...

最新文章

  1. 海思3559A上编译libyuv源码操作步骤
  2. Scrapy学习教程
  3. opengl加载多个3ds模型失败记
  4. [摘自MSDN] ASP.Net2.0学习 [1] 母版页 2 : 创建和使用 ASP.NET 母版页
  5. 交错字符串Python解法
  6. RPC远程过程调用之Hessian 基于HTTP
  7. Idea和redis的坑
  8. 深入浅出三剑客之awk必杀技一例
  9. printf利用转译字符在终端显示进度条(时钟)-zhuan
  10. 图像处理之给定任意四点不规则放缩
  11. linux中删除用户显示已登录,linux下用户及用户组:查看,新增,删除
  12. 经典教程 | 基于Spark GraphX实现微博二度关系推荐
  13. xen服务器不能挂载iso文件,Citrix XenCenter安装VM:挂载ISO详解
  14. 计算机函数if公式的使用,if函数的嵌套计算公式的使用
  15. 串口485接法图_485通讯接线方式
  16. Java 逐行读写 TXT 文件
  17. lanyu 激活idea
  18. 【前端】html如何添加icon
  19. Book Sharing
  20. LLJ-100HS; LLJ-500HS漏电继电器

热门文章

  1. 并操作、差操作、广义积操作
  2. bzoj 3631: [JLOI2014]松鼠的新家(LCA+树上差分)
  3. 深度学习中常用优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
  4. [Python] argparse命令行解析器的使用
  5. 知名互联网公司系统架构图[第1期]
  6. jpg/png格式图片转eps格式
  7. 数电渣渣的一点学习感想(更新中)
  8. 汇编语言上机考试三星题——判断一个不超过65535的整数是否为质数
  9. Crackme014
  10. ucoreOS_lab8 实验报告