翻译: 3.2. 从零开始实现线性回归 深入神经网络 pytorch
既然您了解了线性回归背后的关键思想,我们就可以开始在代码中动手实现。在本节中,我们将从头开始实现整个方法,包括数据管道、模型、损失函数和小批量随机梯度下降优化器。虽然现代深度学习框架可以自动化几乎所有这些工作,但从头开始实施是确保您真正了解自己在做什么的唯一方法。此外,当需要自定义模型、定义我们自己的层或损失函数时,了解事情的幕后工作方式将证明是方便的。在本节中,我们将仅依赖张量和自动微分。之后,我们将介绍一个更简洁的实现,利用深度学习框架的花里胡哨。
%matplotlib inline
import random
import torch
from d2l import torch as d2l
3.2.1。生成数据集
为简单起见,我们将根据带有加性噪声的线性模型构建一个人工数据集。我们的任务将是使用我们数据集中包含的有限示例集来恢复该模型的参数。我们将保持数据低维,以便我们可以轻松地对其进行可视化。在下面的代码片段中,我们生成了一个包含 1000 个示例的数据集,每个示例包含从标准正态分布中采样的
def synthetic_data(w, b, num_examples): #@save"""Generate y = Xw + b + noise."""X = torch.normal(0, 1, (num_examples, len(w)))y = torch.matmul(X, w) + by += torch.normal(0, 0.01, y.shape)return X, y.reshape((-1, 1))true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
请注意,其中的每一行都features包含一个二维数据示例,并且每一行都labels包含一个一维标签值(标量)。
print('features:', features[0],'\nlabel:', labels[0])
features: tensor([ 0.6860, -0.3904])
label: tensor([6.8769])
通过使用第二个特征和生成散点图,我们可以清楚地观察到两者之间的线性相关性。features[:, 1], labels
d2l.set_figsize()
# The semicolon is for displaying the plot only
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);
3.2.2. 读取数据集
回想一下,训练模型包括对数据集进行多次传递,一次抓取一小批示例,并使用它们来更新我们的模型。由于此过程对于训练机器学习算法非常重要,因此值得定义一个实用函数来打乱数据集并以小批量访问它。
在下面的代码中,我们定义data_iter函数来演示此功能的一种可能实现。该函数采用批量大小、特征矩阵和标签向量,产生大小为 的小批量batch_size。每个小批量由特征和标签的元组组成。
def data_iter(batch_size, features, labels):num_examples = len(features)indices = list(range(num_examples))# The examples are read at random, in no particular orderrandom.shuffle(indices)for i in range(0, num_examples, batch_size):batch_indices = torch.tensor(indices[i: min(i + batch_size, num_examples)])yield features[batch_indices], labels[batch_indices]
通常,请注意,我们希望使用合理大小的 minibatch 来利用 GPU 硬件,该硬件擅长并行化操作。因为每个示例都可以并行地通过我们的模型,并且每个示例的损失函数的梯度也可以并行获取,所以 GPU 允许我们处理数百个示例所花费的时间几乎不比处理一个示例所花费的时间多.
为了建立一些直觉,让我们阅读并打印第一批数据示例。每个小批量中特征的形状告诉我们小批量的大小和输入特征的数量。同样,我们的小批量标签将具有由 给出的形状batch_size。
batch_size = 10for X, y in data_iter(batch_size, features, labels):print(X, '\n', y)break
tensor([[ 6.0601e-01, -1.7352e-01],[-1.4425e+00, 2.5488e-03],[ 1.3511e+00, 8.1201e-01],[ 9.5844e-01, 2.1861e+00],[ 2.2073e+00, 1.3480e+00],[ 5.4952e-01, 1.2803e+00],[ 1.0107e+00, 5.0928e-01],[-4.9667e-01, 5.5764e-01],[-1.6612e+00, 1.2118e+00],[ 2.5645e+00, 9.1055e-01]])tensor([[ 5.9881],[ 1.3177],[ 4.1486],[-1.3216],[ 4.0401],[ 0.9547],[ 4.4913],[ 1.3209],[-3.2465],[ 6.2422]])
当我们运行迭代时,我们连续获得不同的小批量,直到整个数据集都用完(试试这个)。虽然上面实现的迭代有利于教学目的,但效率低下,可能会让我们在实际问题上遇到麻烦。例如,它要求我们将所有数据加载到内存中并执行大量随机内存访问。在深度学习框架中实现的内置迭代器效率更高,它们可以处理存储在文件中的数据和通过数据流馈送的数据。
3.2.3 初始化模型参数
在我们开始通过小批量随机梯度下降优化模型参数之前,我们首先需要有一些参数。在下面的代码中,我们通过从均值为 0、标准差为 0.01 的正态分布中采样随机数来初始化权重,并将偏差设置为 0。
w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
在初始化我们的参数之后,我们的下一个任务是更新它们,直到它们完全适合我们的数据。每次更新都需要获取我们的损失函数相对于参数的梯度。给定这个梯度,我们可以在可能减少损失的方向上更新每个参数。
由于没有人想明确地计算梯度(这很乏味且容易出错),我们使用 2.5 节中介绍的自动微分来计算梯度。
3.2.4。定义模型
接下来,我们必须定义我们的模型,将其输入和参数与其输出相关联。回想一下,为了计算线性模型的输出,我们简单地取输入特征的矩阵向量点积 X和模型权重w,并添加偏移量b到每个例子。请注意,下面Xw是一个向量并且b是一个标量。回忆一下第 2.1.3 节中描述的广播机制。当我们添加一个向量和一个标量时,标量被添加到向量的每个分量中。
def linreg(X, w, b): #@save"""The linear regression model."""return torch.matmul(X, w) + b
3.2.5 定义损失函数
由于更新我们的模型需要获取损失函数的梯度,我们应该首先定义损失函数。在这里,我们将使用第 3.1 节中描述的平方损失函数 。在实现中,我们需要将真实值y转换为预测值的形状 y_hat。以下函数返回的结果也将具有与 相同的形状y_hat。
def squared_loss(y_hat, y): #@save"""Squared loss."""return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
3.2.6。定义优化算法
正如我们在3.1 节中讨论的,线性回归有一个封闭形式的解决方案。然而,这不是一本关于线性回归的书:这是一本关于深度学习的书。由于本书介绍的其他模型都无法解析求解,因此我们将借此机会介绍您的第一个小批量随机梯度下降的工作示例。
在每一步,使用从我们的数据集中随机抽取的一个小批量,我们将估计损失相对于我们的参数的梯度。接下来,我们将在可能减少损失的方向上更新我们的参数。以下代码应用小批量随机梯度下降更新,给定一组参数、学习率和批量大小。更新步长的大小由学习率决定 lr。因为我们的损失是作为小批量示例的总和来计算的,所以我们通过批量大小 (· batch_size) 对步长进行归一化,因此典型步长的大小不会在很大程度上取决于我们对批量大小的选择。
def sgd(params, lr, batch_size): #@save"""Minibatch stochastic gradient descent."""with torch.no_grad():for param in params:param -= lr * param.grad / batch_sizeparam.grad.zero_()
3.2.7。训练
现在我们已经准备好所有的部分,我们已经准备好实现主训练循环了。理解这段代码至关重要,因为在您的深度学习职业生涯中,您将一遍又一遍地看到几乎相同的训练循环。
在每次迭代中,我们将抓取一小批训练样本,并将它们传递给我们的模型以获得一组预测。计算损失后,我们开始反向传递网络,存储每个参数的梯度。最后,我们将调用优化算法sgd来更新模型参数。
总之,我们将执行以下循环:
在每个epoch中,我们将遍历整个数据集(使用 data_iter函数),一旦通过训练数据集中的每个示例(假设示例的数量可以被批量大小整除)。时期数num_epochs和学习率lr都是超参数,我们在这里分别设置为 3 和 0.03。不幸的是,设置超参数很棘手,需要通过反复试验进行一些调整。我们暂时省略这些细节,但稍后在第 11 节中对其进行修改。
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_lossfor epoch in range(num_epochs):for X, y in data_iter(batch_size, features, labels):l = loss(net(X, w, b), y) # Minibatch loss in `X` and `y`# Compute gradient on `l` with respect to [`w`, `b`]l.sum().backward()sgd([w, b], lr, batch_size) # Update parameters using their gradientwith torch.no_grad():train_l = loss(net(features, w, b), labels)print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
epoch 1, loss 0.041512
epoch 2, loss 0.000157
epoch 3, loss 0.000050
在这种情况下,因为我们自己合成了数据集,所以我们准确地知道真正的参数是什么。因此,我们可以通过将真实参数与我们通过训练循环学到的参数进行比较来评估我们在训练中的成功。事实证明,他们彼此非常接近。
print(f'error in estimating w: {true_w - w.reshape(true_w.shape)}')
print(f'error in estimating b: {true_b - b}')
error in estimating w: tensor([ 0.0003, -0.0004], grad_fn=<SubBackward0>)
error in estimating b: tensor([0.0007], grad_fn=<RsubBackward1>)
请注意,我们不应该理所当然地认为我们能够完美地恢复参数。然而,在机器学习中,我们通常不太关心恢复真实的基础参数,而更关心导致高度准确预测的参数。幸运的是,即使在困难的优化问题上,随机梯度下降通常也能找到非常好的解决方案,部分原因在于,对于深度网络,存在许多导致高度准确预测的参数配置。
3.2.8 概括
我们看到了如何从头开始实现和优化深度网络,只使用张量和自动微分,而不需要定义层或花哨的优化器。
本节仅触及可能的表面。在接下来的部分中,我们将根据我们刚刚介绍的概念描述其他模型,并学习如何更简洁地实现它们。
3.2.9 练习
如果我们将权重初始化为零会发生什么。算法还能用吗?
假设您是Georg Simon Ohm,他试图在电压和电流之间建立一个模型。您可以使用自动微分来学习模型的参数吗?
您可以使用普朗克定律使用光谱能量密度来确定物体的温度吗?
如果要计算二阶导数,可能会遇到什么问题?你会如何修复它们?
为什么reshape函数中需要squared_loss 函数?
尝试使用不同的学习率来找出损失函数值下降的速度。
如果示例数不能除以批量大小,data_iter函数的行为会怎样?
参考
https://d2l.ai/chapter_linear-networks/linear-regression-scratch.html
翻译: 3.2. 从零开始实现线性回归 深入神经网络 pytorch相关推荐
- 翻译: 3.1 线性回归 深入神经网络 pytorch
回归是指一组用于对一个或多个自变量与因变量之间的关系进行建模的方法.在自然科学和社会科学中,回归的目的通常是描述输入和输出之间的关系.另一方面,机器学习最常与预测有关. 每当我们想要预测一个数值时,就 ...
- 线性回归的神经网络法——机器学习
一.算法思想 线性回归方程在神经网络深度学习中线性回归方程是需要掌握的最基础的式子,就是:y=wx+b,其中w,b是未知的. 神经网络就是可以通过收集大量的数据集,然后将这些数据集进行训练后得到几个较 ...
- 【Kaggle-MNIST之路】两层的神经网络Pytorch(改进版)(二)
简述 [Kaggle-MNIST之路]两层的神经网络Pytorch(四行代码的模型) 基于我的上一篇文章改进. 其实就是把损失函数调整了一下. 从CrossEntroyLoss到MultiMargin ...
- 深度学习 卷积神经网络-Pytorch手写数字识别
深度学习 卷积神经网络-Pytorch手写数字识别 一.前言 二.代码实现 2.1 引入依赖库 2.2 加载数据 2.3 数据分割 2.4 构造数据 2.5 迭代训练 三.测试数据 四.参考资料 一. ...
- 深度学习实战6-卷积神经网络(Pytorch)+聚类分析实现空气质量与天气预测
文章目录 一.前期工作 导入库包 导入数据 主成分分析(PCA) 聚类分析(K-means) 二.神经网络模型建立 三.检验模型 大家好,我是微学AI,今天给大家带来一个利用卷积神经网络(pytorc ...
- 神经网络 pytorch 分类二维矩阵图像和一维向量的方法
在网上找资料的过程中,发现并没有特别细致的讲解分类图像和分类一维向量的做法,导致我捅咕了有几天才弄明白,可能使我比较菜吧......现在在这里记录一下. 首先需要明确,前文我们已经讲解了包装数据集的方 ...
- 哪个才是解决回归问题的最佳算法?线性回归、神经网络还是随机森林?
编译 | AI科技大本营 参与 | 王珂凝 编辑 | 明 明 [AI科技大本营导读]现在,不管想解决什么类型的机器学习(ML)问题,都会有各种不同的算法可以供你选择.尽管在一定程度上,一种算法并不能总 ...
- 从零开始教你训练神经网络(附公式学习资源)
来源:机器之心 作者:Vitaly Bushaev 本文长度为8900字,建议阅读15分钟 本文从神经网络简单的数学定义开始,沿着损失函数.激活函数和反向传播等方法进一步描述基本的优化算法. 作者从神 ...
- 使用PyTorch从零开始构建Elman循环神经网络
摘要: 循环神经网络是如何工作的?如何构建一个Elman循环神经网络?在这里,教你手把手创建一个Elman循环神经网络进行简单的序列预测. 本文以最简单的RNNs模型为例:Elman循环神经网络,讲述 ...
- 线性回归-线性神经网络
线性神经网络 注: 该文章为作者学习深度学习笔记,共参考以下两大开源深度学习资料: 深度学习(花书) https://github.com/exacity/deeplearningbook-chine ...
最新文章
- java最终考核项目(实现商品管理系统)
- 重磅!阿里巴巴工程师获得 containerd 社区席位,与社区共建云时代容器标准
- C#线程调用带参数的方法,给控件赋值
- 大数据_Hbase-API访问_Java操作Hbase_MR-数据迁移-开发代码---Hbase工作笔记0016
- C++ 学习 之Struct
- excel中怎么把超链接的结果(图片)直接显示出来_把500张产品图片导入Excel里?用这个方法可超速完成,码住...
- 对于大批量赋值功能,使用if判断是否能提高性能
- ActionScript3文本框字体调整一法
- 安装centos7 Minimal后 开启远程SSH
- PDF转JPG的工具
- Abode Arcobat DC 解决IEEE会议论文审核字体未嵌入和打印PDF掉色问题
- 为人处世之道,与君共勉!
- html 页面数据显示不全,解决了一个Web网页显示不全的BUG
- python 调用scp命令 实践
- 沈航计算机学院杨华,BCD码的加法.doc
- ASTER GDEM V02(30m)、ASTER GDEM V03(30m)、TanDEM(90m)三种全球DEM数据的质量对比
- android开机动画多长时间_android开关机动画和铃声配置
- 四级地址库 国家标准的行政区划代码 省市区街道
- C语言趣味问题系列【1】 猜牌术
- 《iOS Human Interface Guidelines》——iCloud
热门文章
- 面向对象的超级面试题,涉及封装多态继承等多方面考核,异常烧脑,90%的面试官必问题目,不会这个的,只是会搬砖的码农
- 解决AJAX中使用UpdatePanel后再用Response.Write();等无法弹出对话框问题 3法
- Mysql InnoDB行锁实现方式
- HibernateProxy. Forgot to register a type adapter?
- 客户端 API 开发总结
- CentOS 6.5 shell中su切换自动输入密码
- HDU 2079 选课时间(母函数)
- word文档总让正文与目录分开在不同的页——分页符的使用
- [导入]一个Form验证的方案
- envi反演水质参数_一种基于航空高光谱数据的水库水质参数定量反演方法与流程...