1. Imdb影评的数据集介绍


这是用于二分类情感分类的数据集,其包含的数据比以前的基准数据集要多得多。 我们提供了25,000电影评论用于训练,而25,000条电影评论用于测试。 也有其他未标记的数据可供使用。 提供原始文本和已处理的单词格式袋。 有关更多详细信息,请参见发行版中的自述文件。

Imdb 影评的数据集包含有
25000 训练数据集
25000 测试数据集

2. 数据下载

数据集地址:http://ai.stanford.edu/~amaas/data/sentiment/

下载后解压,会看到有两个文件夹,test和train:

我们点进train中,会发现正样本和负样本已经分好类了:
neg和pos分别是负样本和正样本,unsup是未标注的样本,可用后续需要采用。其他的都自己去看看吧。

打开pos文件,看看里面啥样:

都是一个个文本。

注意到,这些文本一般都不短…

数据集中,共有5w条文本,test集和train集各半,每个集合中,pos和neg也是各半。

import os as os
import numpy as np
from sklearn.model_selection import train_test_splitdatapath = r'./aclImdb'
save_dir = r'./data'def get_data(datapath):pos_files = os.listdir(datapath + '/pos')neg_files = os.listdir(datapath + '/neg')print(len(pos_files))print(len(neg_files))pos_all = []neg_all = []for pf, nf in zip(pos_files, neg_files):with open(datapath + '/pos' + '/' + pf, encoding='utf-8') as f:s = f.read()pos_all.append(s)with open(datapath + '/neg' + '/' + nf, encoding='utf-8') as f:s = f.read()neg_all.append(s)X_orig= np.array(pos_all + neg_all)Y_orig = np.array([1 for _ in range(len(pos_all))] + [0 for _ in range(len(neg_all))])print("X_orig:", X_orig.shape)print("Y_orig:", Y_orig.shape)return X_orig, Y_origdef generate_train_data():X_orig, Y_orig = get_data(datapath+r'/train')X_test, Y__test = get_data(datapath+r'/test')X = np.concatenate([X_orig, X_test])Y = np.concatenate([Y_orig, Y__test])np.random.seed = 1random_indexs = np.random.permutation(len(X))X = X[random_indexs]Y = Y[random_indexs]X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1)print("X_train:", X_train.shape)print("y_train:", y_train.shape)print("X_test:", X_test.shape)print("y_test:", y_test.shape)print("x_val:", X_val.shape)print("y_val:", y_val.shape)np.savez(save_dir + '/imdb_train', x=X_train, y=y_train)np.savez(save_dir + '/imdb_test', x=X_test, y=y_test)np.savez(save_dir + '/imdb_val', x=X_val, y=y_val)if __name__ == '__main__':generate_train_data()

执行上述代码就可以得到下面三个文件,方便以后做训练
imdb_test.npz
imdb_train.npz
imdb_val.npz

Imdb影评的数据集介绍与下载相关推荐

  1. 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

    有三AI知识星球的"数据集板块"正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题! 有三AI知识星球- ...

  2. 深度学习常用的训练数据集介绍以及下载

    前言:数据是深度学习的血液,本文介绍一下当前非常常见的一些数据集. 1 ImageNet ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库.是美国斯坦福的计算机科学家李飞 ...

  3. 深度学习常用数据集介绍与下载(附网盘链接)

    摘要 这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类.目标检测及人脸识别任务,对每个数据集给出了简要介绍.官网下载网站以及公众号获取的关键字.因为有的数据集较大,官网的下载速度可能比较慢 ...

  4. 全球25米分辨率PALSAR镶嵌式和森林/非森林地图(FNF)。数据集介绍及下载

    一.概述 为了提高对全球环境变化影响的理解和应对,对全球土地覆盖的及时和一致的监测, 利用卫星遥感进行全球监测是检测土地表面变化的最有效方法之一,如森林砍伐和森林退化,因为卫星可以定期提供覆盖广泛地区 ...

  5. FVC指纹验证竞赛2004数据集介绍及下载地址

    下载链接1 http://bias.csr.unibo.it/fvc2004/databases.asp 下载链接2https://download.csdn.net/download/sereasu ...

  6. [NLP]基于IMDB影评情感分析之BERT实战-测试集上92.24%

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...

  7. 【知识星球】几个人像分割数据集简介和下载

    欢迎大家来到<知识星球>专栏,今天给大家介绍一下人像分割相关的几个数据集,并提供下载. 作者&编辑 | 言有三 有三AI知识星球的"数据集"板块中已经提供了非常 ...

  8. 运动想象 BCI IV-2a 数据集介绍

    一.数据集介绍及下载链接 http://www.bbci.de/competition/iv/#download 二.数据格式 1.数据一共有9名被试,每个被试在不同天做了两个session,每个se ...

  9. ML之NB、LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类

    ML之NB.LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类 注:LoR code waiting 目录 输出结果 核心代码 输出结果 数据集:Dat ...

最新文章

  1. Spring Cloud构建微服务架构:服务消费(基础)
  2. dubbo-go v3 版本 go module 踩坑记
  3. laravel框架制作缩略图和水印
  4. OpenCV学习笔记(五):线性滤波-方框、均值、高斯:boxFilter(),blur(),GaussianBlur()
  5. Charles抓包-解决显示乱码问题
  6. dataguard日志传输模式解析_日志系统:从ELK到EFK的演进
  7. 【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods
  8. Springboot thymeleaf i18n国际化多语言选择
  9. UCRT: VC 2015 Universal CRT, by Microsoft
  10. 小程序代码包大小超出限制的解决办法
  11. 中兴新支点操作系统——菜单小教程
  12. SQL Server2012企业版与标准版比较
  13. 《操作系统》考前秘籍
  14. 淘集集怎么就破产了呢?
  15. 决策树(ID3,C4.5和CART)介绍、说明、联系和区别
  16. CentOS6云服务器磁盘扩容方案
  17. uname命令的用法
  18. 学习笔记 | 2023 AAAI 对抗性权值扰动改善图神经网络的泛化性能
  19. 【高等数学】下册 第十二章 第一节 常数项级数的概念和性质
  20. Java朗致集团面试题

热门文章

  1. grep、sed命令使用记录
  2. Access is denied
  3. SSG 550 6条公网接入的解决方法
  4. 我是如何带领团队开发项目的
  5. Node Sass could not find a binding for your current environment: OS X 64-bit with Node.js 10.x
  6. MySQL学习——操作存储过程
  7. 一入前端深似海,从此红尘是路人系列第七弹之孤独的剑客-单例模式
  8. 【Vue-Router】模拟源码,解析 Vue-Router 的实现原理
  9. GoLang MySQL CRUD Example
  10. pymongo的使用