十九、Pytorch中的数据加载

1. Pytorch中DataSet的使用方法

1.1 DataSet加载数据的方法

DataSet是Pytorch中用来表示数据集的一个抽象类，在torch中提供了数据集的基类torch.utils.data.Dataset，继承这个基类，我们能够快速地实现对数据的加载**.**

__len__：返回数据集大小; __getitem__:可以通过下标方式获取数据

1.2 DataSet类的源码

1.3 DataLoader使用方法

定义dataset实例
设置读取数据batch的大小，常用128,256等等
设置shuffle：bool类型，表示是否在每次获取数据的时候提前打乱数据

1.4 数据集介绍

数据集：setiment.test.data，情感分析二分类数据，数据包含两列，文本和标签.
地址：https://github.com/bojone/bert4keras/tree/master/examples/datasets.
数据集格式如下图所示：

1.5 代码

步骤一：导入工具库

from torch.utils.data import Dataset, DataLoader
import pandas as pd

步骤二：定义数据读取类

class SentimentDataset(Dataset):# 初始化def __init__(self, path_to_file):self.dataset = pd.read_csv(path_to_file, sep="\t", names=["text", "label"])# 返回数据的长度def __len__(self):return len(self.dataset)# 根据编号返回数据def __getitem__(self, idx):text = self.dataset.loc[idx, "text"]    # 文本label = self.dataset.loc[idx, "label"]  # 标签sample = {"text": text, "label": label} # 数据样本return sample

步骤三：定义主函数

if __name__ == "__main__":sentiment_dataset = SentimentDataset("sentiment.test.data")print(sentiment_dataset.__getitem__(0)) # 查看第一条数据

步骤四：使用DataLoader批量读取数据

count = 0
for idx, batch_samples in enumerate(sentiment_dataloader):text_batchs, text_labels = batch_samples["text"], batch_samples["label"]print(idx,text_batchs)count += 1if count == 3:break

十九、Pytorch中的数据加载相关推荐

Pytorch中的数据加载
Pytorch中的数据加载 1. 模型中使用数据加载器的目的在前面的线性回归模型中,使用的数据很少,所以直接把全部数据放到模型中去使用. 但是在深度学习中,数据量通常是都非常多,非常大的,如此大量的 ...
pytorch中的数据加载(dataset基类，以及pytorch自带数据集）
目录 pytorch中的数据加载模型中使用数据加载器的目的数据集类 Dataset基类介绍数据加载案例数据加载器类 pytorch自带的数据集 torchvision.datasets MIN ...
【学习系列7】Pytorch中的数据加载
目录 1. 模型中使用数据加载器的目的 2. 数据集类 3. 迭代数据集 1. 模型中使用数据加载器的目的在前面的线性回归横型中,我们使用的数据很少,所以直接把全部数据放到锁型中去使用. 但是在深度 ...
c语言文件加载内存吗,把文件中的数据加载到内存进行查找C语言实现.docx
把文件中的数据加载到内存进行查找C语言实现 #define _CRT_SECURE_NO_WARNINGS#include#include#includechar **pp=NULL;void ini ...
Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet（四）
对Spark _25 _读取Hive中的数据加载成DataFrame/DataSet(四) https://georgedage.blog.csdn.net/article/details/10309 ...
Spark _25 _读取Hive中的数据加载成DataFrame/DataSet（四）
由于Hive不在本地,操作略显麻烦.不过细心一点,分析错误,也还好,如果你搭建的hadoop是HA,需要多注意: 这里指出一个错误,如果你报了同类错误,可以参考:https://georgedage. ...
Pytorch CIFAR10图像分类数据加载与可视化篇
Pytorch CIFAR10图像分类数据加载与可视化篇文章目录 Pytorch CIFAR10图像分类数据加载与可视化篇 1.数据读取 2. 查看数据(格式,大小,形状) 3. 查看图片 np ...
第七章：在Spark集群上使用文件中的数据加载成为graph并进行操作（3）
你可以调整graph的构造参数来指定partition的数量. 当数据加载完毕的时候整个web-Googel.txt就缓存进了内存之中,如下所示: 可以看到数据被缓存成了edges. 下面我们使用把m ...
浅谈Entity Framework中的数据加载方式
如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...

十九、Pytorch中的数据加载

1. Pytorch中DataSet的使用方法

1.1 DataSet加载数据的方法

1.2 DataSet类的源码

1.3 DataLoader使用方法

1.4 数据集介绍

1.5 代码

十九、Pytorch中的数据加载相关推荐

最新文章

热门文章