关于文本分类(情感分析)的英文数据集汇总

20 Newsgroups数据集

The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. The data is organized into 20 different newsgroups, each corresponding to a different topic.

数据集地址:http://qwone.com/~jason/20Newsgroups/

Reuters-21578 Text Categorization Collection Data Set数据集

This is a collection of documents that appeared on Reuters newswire in 1987. The documents were assembled and indexed with categories.

数据集地址
https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

Spambase Data Set数据集

Classifying Email as Spam or Non-Spam

数据集地址
https://archive.ics.uci.edu/ml/datasets/Spambase

1996 English Broadcast News Speech 数据集
The 1996 Broadcast News Speech Corpus contains a total of 104 hours of broadcasts from ABC, CNN and CSPAN television networks and NPR and PRI radio networks with corresponding transcripts. The primary motivation for this collection is to provide training data for the DARPA “HUB4” Project on continuous speech recognition in the broadcast domain.

数据集地址:https://catalog.ldc.upenn.edu/LDC97S44

谷歌云盘文本分类数据集
来自Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等,范围从二进制到 14个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。

数据集地址
https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

The Corpus of Linguistic Acceptability数据集
纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;

数据集地址:https://nyu-mll.github.io/CoLA/

SST数据集
斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);

数据集地址:https://nlp.stanford.edu/sentiment/index.html

MRPC数据集
由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;

数据集地址:https://www.microsoft.com/en-us/download/details.aspx?id=52398

STS-B数据集
主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;

数据集地址:http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

QQP数据集
由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;

数据集地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

MNLI数据集
由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。

数据集地址:http://www.nyu.edu/projects/bowman/multinli/

Large Movie Review Dataset数据集
This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well. Raw text and already processed bag of words formats are provided. See the README file contained in the release for more details.

数据集地址:http://ai.stanford.edu/~amaas/data/sentiment/

WebKB数据集
The documents in the WebKB are webpages collected by the World Wide Knowledge Base (Web->Kb) project of the CMU text learning group, and were downloaded from The 4 Universities Data Set Homepage. These pages were collected from computer science departments of various universities in 1997, manually classified into seven different classes: student, faculty, staff, department, course, project, and other.

数据集地址:http://www.webkb.org/

AG News数据集
The AG News corpus consists of news articles from the AG’s corpus of news articles on the web pertaining to the 4 largest classes. The dataset contains 30,000 training examples for each class 1,900 examples for each class for testing. Models are evaluated based on error rate (lower is better).

数据集地址
数据集-官网完整版:
http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

数据集-分类任务集
https://github.com/mhjabreel/CharCNN/tree/master/data/

DBpedia数据集
DBpedia provides three different classification schemata for things.

  • Wikipedia Categories are represented using the SKOS vocabulary and DCMI terms.
  • The YAGO Classification is derived from the Wikipedia category system using WordNet. Please refer to Yago: A Core of Semantic Knowledge – Unifying WordNet and Wikipedia (PDF) for more details.
  • WordNet Synset Links were generated by manually relating Wikipedia infobox templates and WordNet synsets, and adding a corresponding link to each thing that uses a specific template. In theory, this classification should be more precise then the Wikipedia category system.

数据集地址:https://wiki.dbpedia.org/services-resources/datasets/dbpedia-datasets#h434-6

关于文本分类(情感分析)的英文数据集汇总相关推荐

  1. 【Bert、T5、GPT】fine tune transformers 文本分类/情感分析

    [Bert.T5.GPT]fine tune transformers 文本分类/情感分析 0.前言 text classification emotions 数据集 data visualizati ...

  2. 文本分类--情感分析

    (纯属为了记录自己学习的点滴过程,引用资料都附在参考列表) 1 基本概念 情感分析 对于情感分析而言,只需要准备标注了正负情感的大量文档,就能将其视作普通的文本分类任务来解决.此外,一些带有评分的电影 ...

  3. 基于BERT做中文文本分类(情感分析)

    Bert: BERT是一种预训练语言表示的方法,这意味着我们在大型文本语料库(例如Wikipedia)上训练通用的"语言理解"模型,然后将该模型用于我们关心的下游NLP任务,BER ...

  4. 基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM、CNN)实现的中文情感分析,含数据集可直接运行

    基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM.CNN)实现的中文情感分析,含数据集可直接运行 完整代码下载地址:中文情感分析 中文情感分析 本项目旨在通过一个中文情感 ...

  5. 【英文文本分类实战】之二——数据集挑选与划分

    ·请参考本系列目录:[英文文本分类实战]之一--实战项目总览 ·下载本实战项目资源:神经网络实现英文文本分类.zip(pytorch) [1] 数据集平台   在阅读了大量的论文之后,由于每一篇论文都 ...

  6. 基于LSTM的中文多分类情感分析

    趁着国庆假期,玩了一下深度学习(主要是LSTM这个网络),顺便做了一个中文多分类的情感分析.中文情感分析相对英文来说,难度太大,所以最后分析的结果,准确度也不是太高,但基本还是没啥问题的. 对应的ap ...

  7. 如何做中文文本的情感分析?

    如何做中文文本的情感分析? 这是本学期在大数据哲学与社会科学实验室做的第三次分享了. 第一次分享的是:如何利用"wordcloud+jieba"制作中文词云? 第二次分享的是:如何 ...

  8. 基于深度学习的汽车行业评论文本的情感分析

    使用卷积神经网络对汽车行业评论文本进行情感分析. dateset 爬取汽车之家车主口碑评论文本,抽取口碑中最满意以及最不满意评论文本,分别作为正向情感语料库和负向情感语料库. 爬虫技术视频链接:htt ...

  9. Python实现A股股市情感分析,含数据集可直接运行

    Python实现A股股市情感分析,含数据集可直接运行 Stock Market Sentiment Analysis: 股市情感分析 完整代码下载地址:Python实现A股股市情感分析 情绪与股市 情 ...

  10. 情感分析实战(英文)-数据预处理篇

    情感分析实战(英文)-数据预处理与情感分类模块 背景:该专栏的目的是将自己做了N个情感分析的毕业设计的一个总结版,不仅自己可以在这次总结中,把自己过往的一些经验进行归纳,梳理,巩固自己的知识从而进一步 ...

最新文章

  1. 详解C#的数学类,Math,浮点数(上)
  2. zabbix proxy安装配置
  3. SpringMVC小结
  4. android sdk64位资源,android SDK 有32位或64位的分别吗
  5. C常量指针 与指针常量区别
  6. Quartz.Net 使用
  7. vscode git使用_vscode中使用git
  8. 关于Linux基本命令
  9. Bus hound USTS
  10. verilog实现串行通讯协议(serial communications protocols)
  11. 德国:认真是一种可怕的力量
  12. html页面层级关系,CSS z-index 层级关系优先级的概念
  13. 笔试题--移动手机号短号
  14. Redis持久化(一)-RDB文件的创建和载入
  15. java 嘻嘻哈哈聊天室
  16. eclipse出现Parameter index out of range (1 number of parameters, which is 0)报错
  17. QT生成动态链接库及调用详细步骤
  18. 宠辱不惊,闲看庭前花开花落;去留无意,漫随天外支卷云舒。【菜根谭】
  19. [JVM]了断局: [ 目录 ]
  20. 非大道理谈创业团队的鬼门关

热门文章

  1. rollup函数 和cube函数 的区别?
  2. 阅读笔记——基于CART决策树的计算机网络课程学生成绩分析
  3. 计算机毕业设计之校园二手交易平台
  4. 如何实现高性能的在线 PDF 预览
  5. STM32F072RB 实作笔记(一)- Keil 安装
  6. PostgreSql和MySql分组统计百分比
  7. Android API下载与使用
  8. lavaral中文手册_Laravel 5.8 中文文档手册
  9. DS18B20使用说明
  10. 3D动态相册实现代码