作者:Jason Brownlee

翻译:梁傅淇

本文长度为1500字,建议阅读3分钟

本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。

在你刚开始入手自然语言处理任务时,你需要数据集来练习。

最好是使用小型数据集,这样你可以快速下载,也不用花费很长的时间来调试模型。同时,使用被广泛使用和了解的标准数据集也是有所帮助的,你可以用你的结果来做比较,看一下是否有所进步。

在这篇博文中,你会找到一系列标准数据集来开始你的深度学习之旅。

总览


这篇博文被分成七个部分,它们是:

1. 文本分类(Text Classification)

2. 语言模型(Language Modeling)

3. 图像字幕(Image Captioning)

4. 机器翻译(Machine Translation)

5. 问答系统(Question Answering)

6. 语音识别(Speech Recognition)

7. 自动文摘(Document Summarization)

我已经尝试提供一系列被广泛使用于学术论文且规模适中的数据集。

几乎所有的数据集都是公开免费下载的。

如果你最喜欢的数据集没有被列出来,又或者你认为你所了解的更好的数据集应该被列出来的话,请在评论里告诉我。

我们开始吧。

 

1. 文本分类(Text Classification)


文本分类指的是标记句子或者文档,比如说垃圾邮件分类和情感分析。

以下是一些对于新手而言非常棒的文本分类数据集:

  • Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。

一系列1987年在路透上发布的按分类索引的文档。同样可以看RCV1,RCV2,以及TRC2

(http://trec.nist.gov/data/reuters/reuters.html)。

  • IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。

一系列从网站imdb.com上摘取的电影评论以及他们的积极或消极的情感。

  • News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。

更多的信息,可以从这篇博文中获取:Datasets for single-label text categorization

(http://ana.cachopo.org/datasets-for-single-label-text-categorization)。

2. 语言模型(Language Modeling)

语言模型涉及建设一个统计模型来根据给定的信息,预测一个句子中的下一个单词,或者一个单词中的下一个字母。这是语音识别或者机器翻译等任务的前置任务。

下面是一些对于新手来说非常棒的语言模型数据集:

  • Project Gutenberg

    (https://www.gutenberg.org/)。

以下是一些更正式的语料集:

  • Brown University Standard Corpus of Present-Day American English

    (https://en.wikipedia.org/wiki/Brown_Corpus)。

大型英语单词示例。

  • Google 1 Billion Word Corpus

    (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。

3. 图像字幕(Image Captioning)


图像字幕是为给定图像生成文字描述的任务。

以下是对新手非常有帮助的图像字幕数据集:

  • Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。

超过120,000张带描述的图片集合。

  • Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。

从flickr.com收集的超过8000带描述的图片集合。

  • Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。

从flickr.com收集的超过30000带描述的图片集合。

要获得更多的资讯,可以看这篇博客:Exploring Image Captioning Datasets, 2016

(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。

4. 机器翻译(Machine Translation)


机器翻译即将一种语言翻译成另一种语言的任务。

以下是对新手而言很棒的机器翻译数据集:

  • Aligned Hansards of the 36th Parliament of Canada

    (https://www.isi.edu/natural-language/download/hansard/)。

英法对应的句子。

  • European Parliament Proceedings Parallel Corpus 1996-2011

    (http://www.statmt.org/europarl/)。

一系列欧洲语言的成对句子。

被用于机器翻译的标准数据集还有很多:

  • Statistical Machine Translation

    (http://www.statmt.org/)。

5. 问答系统(Question Answering)

以下是对新手而言很棒的问答系统数据集:

  • Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。

关于维基百科文章的问答。

  • Deepmind Question Answering Corpus

(https://github.com/deepmind/rc-data)。

有关Daily Mail的新闻问答。

  • Amazon question/answer data

(http://jmcauley.ucsd.edu/data/amazon/qa/)。

关于亚马逊产品的问答。

更多信息,参见:

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)

6. 语音识别(Speech Recognition)


语音识别就是将口语语言的录音转换成人类可读的文本。

以下是对新手而言很棒的语音识别数据集:

  • TIMIT Acoustic-Phonetic Continuous Speech Corpus

(https://catalog.ldc.upenn.edu/LDC93S1)。

付费,这里列出是因为它被广泛使用。美语口语以及相关转写。

  • VoxForge(http://voxforge.org/)。

为语音识别而建设开源数据库的项目。

  • LibriSpeech ASR corpus

(http://www.openslr.org/12/)。

从LibriVox(https://librivox.org/)获取的英语有声书大型集合。

7. 自动文摘(Document Summarization)


自动文摘即产生对大型文档的一个短小而有意义的描述。

以下是对新手而言很棒的自动文摘数据集:

  • Legal Case Reports Data Set

(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。

4000法律案例以及摘要的集合。

  • TIPSTER Text Summarization Evaluation Conference Corpus

(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。

将近200个文档以及摘要的集合。

  • The AQUAINT Corpus of English News Text

(https://catalog.ldc.upenn.edu/LDC2002T31)。

并非免费,但却被广泛使用。新闻文章的语料库。

更多信息,参见:

Document Understanding Conference (DUC) Tasks

(http://www-nlpir.nist.gov/projects/duc/data.html)

Where can I find good data sets for text summarization?

(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)

延伸阅读


如果你想了解更多,这部分提供额外的数据集列表:

  • Text Datasets Used in Research on Wikipedia

(https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)

  • Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?

(https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)

  • Stanford Statistical Natural Language Processing Corpora

(https://nlp.stanford.edu/links/statnlp.html#Corpora)

  • Alphabetical list of NLP Datasets

(https://github.com/niderhoff/nlp-datasets)

  • NLTK Corpora(http://www.nltk.org/nltk_data/)

  • Open Data for Deep Learning on DL4J

(https://deeplearning4j.org/opendata)

原文链接:

https://machinelearningmastery.com/datasets-natural-language-processing/

原文标题:Code for my educational gifs

编辑:王璇


梁傅淇,软件工程本科在读,主修大数据分析,喜好搜索、收集各类信息。希望能在THU数据派平台认识更多对数据分析感兴趣的朋友,一起研究如何从数据挖掘出有用的模型和信息。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~


为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包

同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。

转载须知

如需转载文章,请做到 1、正文前标示:转自数据派THU(ID:DatapiTHU);2、文章结尾处附上数据派二维码。

申请转载,请发送邮件至datapi@tsingdata.com

公众号底部菜单有惊喜哦!

企业,个人加入组织请查看“联盟”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”

点击“阅读原文”报名

自然语言处理数据集免费资源开放(附学习资料)相关推荐

  1. 【资源】C++学习资料 - 逆天整理 - 精华无密版【最新】

    再失效就太无语了,链接都是多份的~~ -----------------基础-------------- C++环境搭建(全套) http://pan.baidu.com/s/1o6y0smY 链接: ...

  2. Java虚拟机必学之四大知识要点,附学习资料

    转载自  Java虚拟机必学之四大知识要点,附学习资料 作为一位 Java 程序员,在尽情享受 Java 虚拟机带来好处的同时,我们还应该去了解和思考"这些技术特性是如何实现的", ...

  3. 独家 | 一文读懂自然语言处理NLP(附学习资料)

    前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语 ...

  4. 中文自然语言处理数据集:ChineseNLPCorpus(附链接)

    来源:AINLP 本文约1300字,建议阅读5分钟. 本文为你推荐中文自然语言处理数据集. 推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接 ...

  5. 教程 | 一文读懂自学机器学习的误区和陷阱(附学习资料)

    来源:机器学习与统计学 本文约6296字,建议阅读10分钟. 本文为你指出一些自学的误区,推荐学习资料,提供客观可行的学习表并给出进阶学习的建议. 后台回复"20190426"获取 ...

  6. 免费的大数据学习资料,这一份就足够

      朋友不在于多,知心就好;资料不在于多,精致就好.一份专业的大数据学习资料才是学习大数据的利刃.小编分享的这套大数据学习资料将从学习大纲.书籍.视频教程分别分享. 在这里还是要推荐下我自己建的大数据 ...

  7. 免费的大数据学习资料及学习路线、这一份就足够了

    朋友不在于多,知心就好:.资料不在于多,精致就好.一份专业的大数据学习资料才是学习大数据的利刃.小编分享的这套大数据学习资料将从学习大纲.书籍.视频教程分别分享 大数据学习资料之大数据学习大纲 阶段一 ...

  8. python自学书籍顺序-【经验分享】自学Python的学习顺序!附学习资料

    自学Python要按照什么样的学习顺序?首先要有一个详尽的学习大纲,对于学习Python的各种知识点要安排的详略得当,做到由易到难,循序渐进,才能长久的坚持学下去.除了基础的理论知识,项目实战也是自学 ...

  9. 峰哥读者的大数据学习路线,附学习资料

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 前言 本文针对非科班生转行大数据所遇到的问题,提出一些切实的建议,以免小伙伴在学习过程中走弯路. 我依据自己转行所走过 ...

最新文章

  1. [Android基础] VideoView
  2. spring中的quartz调度问题
  3. 结对开发----找出“水王
  4. 元素周期表排列的规律_元素周期表诞生150周年,这些有趣的元素性质你都知道吗?...
  5. Start DWM manually on Windows 7 and vista
  6. edtext 从右边开始输入 安卓_FreeRTOS 从入门到精通6--详解任务管理下(对比PLC,安卓)...
  7. 向前欧拉公式例题_干货丨阅读理解答题万能公式,语文考试高分秘籍!
  8. mysql 导出所有表_Mysql导出(多张表)表结构及表数据 mysqldump用法
  9. 机器学习什么显卡_为什么要学习机器人编程?
  10. TypeScript_学习笔记
  11. linux系统管理与服务器配置【2008网络工程师】,Linux系统管理与服务器配置
  12. 解决pytorch的fashion-mnist数据集下载过慢的问题
  13. flash在线拍照并上传
  14. Spring Boot 接入支付宝,实战来了!
  15. ps怎么撤销参考线_ps打开辅助线的快捷键在哪,ps如何取消辅助线
  16. 不用恢复出厂设置啦,联想电脑YogaDuet如何升级win11?在BIOS开启加载系统初始值 打开Intel Platform Trust开启TMP2.0更新win11
  17. 肇庆PCR实验室建设消毒事项汇总
  18. oracle如何判断数字中有字母,SQL 判断含有字母和数字的字符串
  19. (C语言)银行存款定期到期自动转存,到期的利息计入本金合并转存
  20. Python文本挖掘笔记:1.3文本挖掘的基本思路

热门文章

  1. php相关扩展安装及报错总结
  2. Open*** 配置参数详解
  3. docker 容器查看命令的基础使用方法一
  4. 多学一点(八)——LNMP环境搭建
  5. STL——内存基本处理工具
  6. BW标准数据源初始化设置
  7. 使用模板引擎Trimpath
  8. Linux系统监测-命令集
  9. [Prism]Composite Application Guidance for WPF(8)——事件
  10. mysql反掩码_ACL规则 反掩码的 写法