Pytorch基础（二）初始自动微分

torch.tensor是包的核心类，若将其属性.requires_grad设置为True，则会开始跟踪tensor的所有操作，完成计算后，可以调用.backward()来自动计算所有梯度。该张量的梯度将累积到.grad属性中。

如果需要停止tensor历史记录的跟踪，可以调用.detach()，它将其余计算历史记录分离，并防止将来的计算被跟踪。要停止跟踪历史记录(和使用内存），可以将代码块使用with torch.no_grad()包装起来，在评估模型时，这特别有用，因为模型在训练阶段具有requires_grad=True的可训练参数有利于调参，而在评估阶段不需要梯度。还有一个类对于autograd实现非常重要那就是Function。Tensor和Function互相连接并构建一个非循环图，它保存整个完整的计算过程的历史信息。每个张量都有一个.grad_fn属性保存着创建了张量的Function的引用，（如果用户自己创建张量，则g_rad_fn是None）。如果想计算导数，可以调用Tensor.backward()，如果Tensor是标量（即它包含一个元素数据），则不需要指定任何参数backward()，但是如果他有更多元素，则需要指定一个gradient参数来指定张量的形状。

#!/usr/bin/env torch
# -*- coding:utf-8 -*-
# @Time  : 2021/1/30, 14:37
# @Author: Lee
# @File  : auto_grad.pyimport torch# 创建一个张量，设置requires_grad=True来跟踪它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print("x = ", x)
"""
x =  tensor([[1., 1.], [1., 1.]], requires_grad=True)
"""# 对该张量做一个操作
y = x + 2
print("y = ", y)
print(y.grad_fn)  # y作为操作的结果被创建，所以它有grad_fn
"""
y =  tensor([[3., 3.],[3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x0000026B0564D220>
"""# 针对y做更多的操作
z = y * y * 3
out = z.mean()
print("z = ", z, "\nout = ", out)
"""
z =  tensor([[27., 27.],[27., 27.]], grad_fn=<MulBackward0>)
out =  tensor(27., grad_fn=<MeanBackward0>)
"""# .requires_grad_(...)会改变张量的requires_grad标记，输入的标记默认为False，
# 如果没有提供相应的参数
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print("a.requires_grad = ", a.requires_grad)
"""
a.requires_grad =  False
"""
a.requires_grad_(True)
print("after True, a.requires_grad = ", a.requires_grad)
"""
after True, a.requires_grad =  True
"""
b = (a * a).sum()
print("b.grad_fn = ", b.grad_fn)
"""
b.grad_fn =  <SumBackward0 object at 0x000001FFFB8AE310>
"""# 现在向后传播，因为输出包含了一个标量，out.backward()等同于out.backward(torch.tensor(1.))
out.backward()
print("x.grad = ", x.grad)  # 打印梯度d(out)/dx
"""
x.grad =  tensor([[4.5000, 4.5000],[4.5000, 4.5000]])
"""# 雅克比向量积
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:y = y * 2
print("y = ", y)
"""
y =  tensor([ 105.4538, -508.8583, 1537.1407], grad_fn=<MulBackward0>)
"""# 现在在这种情况下，y不再是一个标量。torch.autograd不能够直接计算整个雅克比，但是如果我们
# 只想要雅克比向量积，只需要简单的传递向量给backward作为参数
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)
print("x.grad = ", x.grad)
"""
x.grad =  tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])
"""# 可以将代码包裹在with torch.no_grad()，来停止对从跟中历史中的.requires_grad=True的张量自动求导
print(" x.requires_grad = ", x.requires_grad)
print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
with torch.no_grad():print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
"""
x.requires_grad = True
(x ** 2).requires_grad = True
(x ** 2).requires_grad = False
"""

以上代码中，需要明白out.backward()，对x求导的结果x.grad = tensor([[4.5000, 4.5000], [4.5000, 4.5000]])是如何得到的。根据代码中的计算过程可知：

$out=\frac{1}{4}\sum_{i}z_{i},z_{i}=3(x_{i}+1)^2 and z_{i}|_{x_{i}=1}=27$

$\frac{\partial {out}}{\partial {x_{i}}}=\frac{3}{2}(x_{i}+2)\rightarrow \frac{\partial {out}}{\partial {x_{i}}}|_{x_{i}=1}=\frac{9}{2}=4.5$
在数学上，如果有 $\vec{y}=f(\vec{x})$ ，那么 $\vec{y}$ 对于 $\vec{x}$ 的导数是一个雅克比矩阵：

$J=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}$

总的来说，torch.autograd是一个对于雅克比矩阵向量积的计算工具。对于任一向量 $v =\begin{bmatrix} v_{1} & v_{2} & \cdots & v_{m} \end{bmatrix}^T$ ，计算向量积 $J\cdot v$ ，如果 $v$ 恰好是一个标量函数 $l=g(\vec{y})$ ，也就是说， $v = \begin{bmatrix} {\frac{\partial l}{\partial {y_{1}}}} & {\cdots } & {\frac{\partial l}{\partial {y_{m}}}} \end{bmatrix}^T$ ，再由链式法则，这个雅克比向量向量积可以被表示成 $l$ 关于 $\vec{x}$ 的梯度：

$J\cdot v=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}\begin{bmatrix} {\frac{\partial {l}}{\partial {y_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {y_{m}}}} \end{bmatrix}=\begin{bmatrix} {\frac{\partial {l}}{\partial {x_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {x_{n}}}} \end{bmatrix}$

Pytorch基础（二）初始自动微分相关推荐

速成pytorch学习——3天自动微分机制
神经网络通常依赖反向传播求梯度来更新网络参数,求梯度过程通常是一件非常复杂而容易出错的事情. 而深度学习框架可以帮助我们自动地完成这种求梯度运算. Pytorch一般通过反向传播 backward 方 ...
PyTorch随笔 - Automatic Differentiation 自动微分
面试题: 函数:f(1) = x, f(n+1) = 4*f(n)*(1-f(n)) 实现f(4)的函数,当x=2时,f(4)的值是多少,导数(微分)值是多少? 即: def func(x, k):. ...
如何在python中表示微分_Python实现自动微分(Automatic Differentiation)
什么是自动微分自动微分(Automatic Differentiation)是什么?微分是函数在某一处的导数值,自动微分就是使用计算机程序自动求解函数在某一处的导数值.自动微分可用于计算神经网络反向 ...
PyTorch深度学习基础之Reduction归约和自动微分操作讲解及实战（附源码超详细必看）
创作不易觉得有帮助请点赞关注收藏~~~ 一.PyTorch的Reduction操作 Reduction运算的特点是它往往对一个Tensor内的元素做归约操作,比如torch.max找极大值,torc ...
pytorch基础-使用 TORCH.AUTOGRAD 进行自动微分（5）
在训练神经网络时,最常用的算法是反向传播.PyTorch的反向传播(即tensor.backward())是通过autograd包来实现的,autograd包会根据tensor进行过的数学运算来自动计 ...
python学习框架图-从零搭建深度学习框架（二）用Python实现计算图和自动微分
我们在上一篇文章<从零搭建深度学习框架(一)用NumPy实现GAN>中用Python+NumPy实现了一个简单的GAN模型,并大致设想了一下深度学习框架需要实现的主要功能.其中,不确定性最 ...
一文详解pytorch的“动态图”与“自动微分”技术
前言众所周知,Pytorch是一个非常流行且深受好评的深度学习训练框架.这与它的两大特性"动态图"."自动微分"有非常大的关系."动态图" ...
《20天吃透Pytorch》Pytorch自动微分机制学习
自动微分机制 Pytorch一般通过反向传播 backward 方法实现这种求梯度计算.该方法求得的梯度将存在对应自变量张量的grad属性下. 除此之外,也能够调用torch.autograd.gr ...
【PyTorch基础教程2】自动求导机制（学不会来打我啊）
文章目录第一部分:深度学习和机器学习一.机器学习任务二.ML和DL区别 (1)数据加载 (2)模型实现 (3)训练过程第二部分:Pytorch部分一.学习资源二.自动求导机制 2.1 to ...

Pytorch基础（二）初始自动微分

Pytorch基础（二）初始自动微分相关推荐

最新文章

热门文章

Pytorch基础（二） 初始自动微分

Pytorch基础（二） 初始自动微分相关推荐

最新文章

热门文章

Pytorch基础（二）初始自动微分

Pytorch基础（二）初始自动微分相关推荐