在Pytorch中,默认情况下,非叶节点的梯度值在反向传播过程中使用完后就会被清除,不会被保留。只有叶节点的梯度值能够被保留下来。

对于任意一个张量来说,我们可以用 tensor.is_leaf 来判断它是否是叶子张量(leaf tensor)

在Pytorch神经网络中,我们反向传播backward()就是为了求叶子节点的梯度。在pytorch中,神经网络层中的权值w的tensor均为叶子节点。它们的require_grad都是True,但它们都属于用户创建的,所以都是叶子节点。而反向传播backward()也就是为了求它们的梯度

在调用backward()时,只有当requires_grad和is_leaf同时为真时,才会计算节点的梯度值

为什么需要叶子节点?

那些非叶子节点,是通过用户所定义的叶子节点的一系列运算生成的,也就是这些非叶子节点都是中间变量,一般情况下,用户不回去使用这些中间变量的导数,所以为了节省内存,它们在用完之后就被释放了

在Pytorch的autograd机制中,当tensor的requires_grad值为True时,在backward()反向传播计算梯度时才会被计算。在所有的require_grad=True中,

  • 默认情况下,非叶子节点的梯度值在反向传播过程中使用完后就会被清除,不会被保留(即调用loss.backward() 会将计算图的隐藏变量梯度清除)。
  • 默认情况下,只有叶子节点的梯度值能够被保留下来。
  • 被保留下来的叶子节点的梯度值会存入tensor的grad属性中,在 optimizer.step()过程中会更新叶子节点的data属性值,从而实现参数的更新。

这样可以节省很大部分的显存

上面的话,也就是说,并不是每个requires_grad()设为True的tensor都会在backward的时候得到相应的grad.它还必须为leaf。这就说明. is_leaf=True 成为了在 requires_grad()下判断是否需要保留 grad的前提条件

只有是叶张量的tensor在反向传播时才会将本身的grad传入的backward的运算中.。如果想得到当前自己创建的,requires_grad为True的tensor在反向传播时的grad, 可以用retain_grad()这个属性(或者是hook机制)

detach()将节点剥离成叶子节点

如果需要使得某一个节点成为叶子节点,只需使用detach()即可将它从创建它的计算图中分离开来。即detach()函数的作用就是把一个节点从计算图中剥离,使其成为叶子节点

什么样节点会是叶子节点

①所有requires_grad为False的张量,都约定俗成地归结为叶子张量 

就像我们训练模型的input,它们都是require_grad=False,因为他们不需要计算梯度(我们训练网络训练的是网络模型的权重,而不需要训练输入)。它们是一个计算图都是起始点,如下图的a

②requires_grad为True的张量, 如果他们是由用户创建的,则它们是叶张量(leaf Tensor)

例如各种网络层,nn.Linear(), nn.Conv2d()等, 他们是用户创建的,而且其网络参数也需要训练,所以requires_grad=True

这意味着它们不是运算的结果,因此gra_fn为None

b是因为b是被cast操作创建的(从cpu cast一个tensor到gpu)

要和这里区分开

这里是说,单纯从数值关系上b=a+1,b确实依赖a(b是由a经过某个操作创建的)。但是从pytorch的看来,一切是为了反向求导,a的requires_grad属性为False,其不要求获得梯度,那么a这个tensor在反向传播时其实是“无意义”的,可认为是游离在计算图之外的,故b仍然为叶子节点,如下图

就连一个简单的不涉及梯度的操作也会使叶节点变成非叶节点

import torchx = torch.tensor(2.0, requires_grad=True)
y = x ** 2
z = y + 1
z.backward()
print(x.grad)
print(y.grad)
print(x.is_leaf)
print(y.is_leaf)
print(x.grad_fn)
print(y.grad_fn)

从这里可以看出,只有叶子节点有梯度值grad,非叶节点为None

只有非叶节点有grad_fn,叶节点为None

这里是的不出z本身的梯度的,因为z是非叶节点

另一个例子,如图中绿色的点都是叶子节点

非叶节点的梯度在反传后会被释放

import torch
a = torch.Tensor([1,2]).requires_grad_()
b = torch.Tensor([3,4]).requires_grad_()
d = torch.Tensor([2]).requires_grad_()
c = a + b
e = c * d
o = e.sum()     o.backward()
print(a.grad)
print(b.grad)
print(c.grad)
print(d.grad)
print(e.grad)
print(o.grad)

可以从程序的输出中看到,a,b,d作为叶子节点,经过反向传播后梯度值仍然保留,而其它非叶子节点的梯度已经被自动释放了,要想得到它们的梯度值,就需要使用hook了

获得非叶节点的梯度 retain_grad()

import torchx=torch.arange(10,dtype=torch.float32,requires_grad=True).reshape(10,1)
w=torch.arange(10,dtype=torch.float32,requires_grad=True).reshape(1,10)
y=w@x
x.retain_grad()
w.retain_grad()
y.backward()
print(x.is_leaf)
print(w.is_leaf)
print(x.grad)
print(w.grad)

可以看到x和w都不是叶节点,但是用retain_grad()可以使它们获得梯度。

注意retain_grad()一定要写在y.backward()前面

或者可以用hook

​​​​​​Pytorch(十四) —— hook_hxxjxw的博客-CSDN博客

Pytorch 叶子张量 leaf tensor (叶子节点) (detach)相关推荐

  1. leaf 叶子(张量)

    在pytorch的tensor类中,有个is_leaf的属性,姑且把它作为叶子节点. is_leaf 为False的时候,则不是叶子节点, is_leaf为True的时候为叶子节点(或者叶张量) 所以 ...

  2. PyTorch 的 Autograd、计算图、叶子张量、inplace 操作、动态图,静态图(来自知乎)

    本博文来自:https://zhuanlan.zhihu.com/p/69294347 非常感谢此博主! PyTorch 作为一个深度学习平台,在深度学习任务中比 NumPy 这个科学计算库强在哪里呢 ...

  3. PyTorch基础(一)-----张量(Tensor)

    前言 很多人都会拿PyTorch和Google的Tensorflow进行比较,这个肯定是没有问题的,因为他们是最火的两个深度学习框架了.但是说到PyTorch,其实应该先说Torch. 什么是Torc ...

  4. pytorch 实现张量tensor,图片,CPU,GPU,数组等的转换

    pytorch 实现张量tensor,图片,CPU,GPU,数组等的转换 1, 创建pytorch 的Tensor张量: torch.rand((3,224,224)) #创建随机值的三维张量,大小为 ...

  5. [PyTroch系列-3]:PyTorch基础 - Hello World程序与张量(Tensor)概述

    作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article ...

  6. pytorch 创建张量tensor

    pytorch 创建张量tensor 先看下面一张图 通过上图有了一个直观了解后,我们开始尝试创建一下. 先创建一个标量和一个向量 a = torch.tensor([1]) #标量 print(a) ...

  7. Pytorch张量(Tensor)复制

    tensor复制可以使用clone()函数和detach()函数即可实现各种需求. clone clone()函数可以返回一个完全相同的tensor,新的tensor开辟新的内存,但是仍然留在计算图中 ...

  8. PyTorch | (3)Tensor及其基本操作

    PyTorch | (1)初识PyTorch PyTorch | (2)PyTorch 入门-张量 PyTorch | (3)Tensor及其基本操作 Tensor attributes: 在tens ...

  9. Pytorch学习——张量

    目录 一.张量基本概念 二.Tensor 2.1 Variable 2.2.Tensor 三.张量的创建 3.1 直接创建 3.2 依据数值创建 3.3 依据概率分布创建张量 四.张量操作 4.1 张 ...

最新文章

  1. JQuery Autocomplete实战
  2. 大学毕业后,我将何去何从?
  3. NLP中的自监督表示学习,全是动图,很过瘾的
  4. 案例驱动python编程入门-Python程序设计任务驱动式学习教程
  5. Android 动态刷新listview中的数据
  6. php 怎么查看原生方法源码_怎么看电脑内存频率?这里有3种方法可以查看,新手分享...
  7. Android Java 自定义异常
  8. 数字内置方法详解(int/long/float/complex)
  9. mac 用惠普扫描仪扫描提示将对您的电脑造成伤害_惠普全能打印神器测评:15秒智能闪充、打一张仅需5分钱...
  10. 【程序猿必备】数据结构与算法精选面试题
  11. IIS和APACHE共用80端口的方法
  12. Android:手把手教你打造可缩放移动的ImageView(下)
  13. 79. 基于 PHP 的用户认证
  14. SQL中GROUP BY用法示例
  15. python文本文件对比工具_python实现比较文件内容异同
  16. 【滤波器】最小均方(LMS)自适应滤波器
  17. magicbook16使用心得,小技巧
  18. org.springframework.mail.MailAuthenticationException: Authentication failed; nested exception is jav
  19. oracle大数据量查询超时排查
  20. 疫情已经2年半,中国IT厂商该有一些经验教训和改变了

热门文章

  1. UVa 10382 - Watering Grass
  2. CocoaMQTT v2.0:首个支持 MQTT 5.0 的 iOS 客户端
  3. iOS 增量代码覆盖率检测实践
  4. win10怎么移动软件的位置信息服务器,win10系统移动软件到其他盘的操作方法
  5. C4K Power supply failed?
  6. 6号团队-团队任务5:项目总结会
  7. 手把手教你申请EVUS美国十年签证!11月29日以后要收费了!
  8. mysql查看数据库的日志文件_怎么查看mysql数据库的日志文件
  9. 豆豆趣事[2013年02月]
  10. R语言使用符号函数计算数据的正负特性、sign函数计算数据的正负符号返回0、1、-1