作者:PRANAV DAR

翻译:Nicola

校对:冯羽

本文共4000字,建议阅读8分钟。
本文介绍了图像处理,自然语言处理,以及音频/语音处理三类25个开源数据集。

简介


深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。

但是,哪里可以获得这些数据?现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。

如果你也遇到此问题,我们有解决方案提供给你。我们挑选了一系列公开可用的数据集供各位详细阅读。

在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以应用和改进他们的技能。使用这些数据集将使你成为一名更好的数据科学家,同时你所学到的知识将对你的职业生涯产生无价的帮助­。我们还收录了具有最新技术(SOTA)结果的论文供你浏览并改进你的模型。

如何使用这些数据集

首先要做的事-这些数据集的容量相当大!所以请确保你的网络是高速的、不限流量或有很多流量地下载数据。

有很多种可以使用这些数据集的方式。你可以使用它们来应用各种深度学习技巧。也可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例并展示给所有人你的发现,让大家都可以看到!

这些数据集分为三类-图像处理,自然语言处理,以及音频/语音处理。

让我们开始更深入的了解!

图像处理


  • MNIST

MNIST是最受欢迎的深度学习数据集之一。这是一个手写数字数据集,包含一组60,000个示例的训练集和一组10,000个示例的测试集。这是一个对于在实际数据中尝试学习技术和深度识别模式的很好的数据库,同时尝试学习如何在数据预处理中花费最少的时间和精力。

大小:〜50 MB

记录数量:分为10个类别的70,000个图片

SOTA:Dynamic Routing Between Capsules

  • MS-COCO

COCO是一个规模大且丰富的物体检测,分割和字幕数据集。它有几个特点:

  • 物体分割

  • 文中识别

  • 超像素物质分割

  • 330K图像(> 200K标记)

  • 150万个物体实例

  • 80个物体类别

  • 91个物质类别

  • 每张图片5个字幕

  • 250,000有关键点的人

大小:〜25 GB(压缩)

记录数量:330K图像,80个物体类别,每幅图像5个字幕,250,000个有关键点的人

SOTA:Mask R-CNN

  • ImageNet

ImageNet是依据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语,ImageNet提供了平均大约1000个图像来说明每个短语。

大小:〜150GB

记录数量:图像总数:〜1,500,000;每个都有多个边界框和相应的类标签

SOTA:Aggregated Residual Transformations for Deep Neural Networks

  • Open Images Dataset

Open Images是一个包含近900万个图像URL的数据集。这些图像已经用数千个类别的图像级标签边框进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

大小:500 GB(压缩)

记录数量:9,011,219张超过5k标签的图像

SOTA:Resnet 101图像分类模型(在V2数据上训练):Model checkpoint, Checkpoint readme, Inference code.

  • VisualQA

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解是视觉和语言。这个数据集有一些有趣的特点:

  • 265,016张图片(COCO和抽象场景)

  • 每张图片至少有3个问题(平均5.4个问题)

  • 每个问题10个基于事实答案

  • 每个问题3个似乎合理(但看起来不正确)的答案

  • 自动评估指标

大小:25 GB(压缩)

记录数量:265,016张图片,每张图片至少3个问题,每个问题10个基于事实答案

SOTA:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge


  • The Street View House Numbers (SVHN)

这是用于开发物体检测算法的真实世界图像数据集。这些只需要最少的数据预处理。它与本列表中提到的MNIST数据集类似,但拥有更多标签数据(超过600,000个图像)。这些数据是从谷歌街景中查看的房屋号码中收集的。

大小:2.5 GB

记录数量:10个课程中的6,30,420张图片

SOTA:Distributional Smoothing With Virtual Adversarial Training

  • CIFAR-10

这是另一个图像分类的数据集。它包含了10个类别的60,000个图像(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分- 5个培训批次和1个测试批次。每批有10,000个图像。

大小:170 MB

记录数量:10个类别的60,000张图片

SOTA:ShakeDrop regularization

  • Fashion-MNIST

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为MNIST的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

大小:30 MB

记录数量:10个类别的70,000张图片

SOTA:Random Erasing Data Augmentation

自然语言处理


  • IMDB Reviews

这是一个电影爱好者的梦寐以求的数据集。它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据可供使用。包括文本和预处理的词袋格式。

大小:80 MB

记录数量:25,000个高度差异化的电影评论用于训练,25,000个测试

SOTA:Learning Structured Text Representations

  • Twenty Newsgroups


顾名思义,该数据集包含有关新闻组的信息。为了选择这个数据集,从20个不同的新闻组中挑选了1000篇新闻文章。这些文章具有一定特征,如主题行,签名和引用。

大小:20 MB

记录数量:来自20个新闻组的20,000条消息

DOTA:Very Deep Convolutional Networks for Text Classification

  • Sentiment140

Sentiment140是一个可用于情感分析的数据集。一个流行的数据集,非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征:

  • 推文的极性

  • 推文的ID

  • 推文的日期

  • 问题

  • 推文的用户名

  • 推文的文本

大小:80 MB(压缩)

记录数量:160,000条推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

  • WordNet

在上面的ImageNet数据集中提到,WordNet是一个很大的英文同义词集。 同义词集是每个都描述了不同的概念的同义词组。WordNet的结构使其成为NLP非常有用的工具。

大小:10 MB

记录数量:117,000个同义词集通过少量“概念关系”与其他同义词集相关联。

SOTA:Wordnets: State of the Art and Perspectives

  • Yelp Reviews

这是Yelp为了学习目的而发布的一个开源数据集。它包含了由数百万用户评论,商业属性和来自多个大都市地区的超过20万张照片。这是一个非常常用的全球NLP挑战数据集。

大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部压缩)

记录数量:5,200,000条评论,174,000条商业属性,20万张图片和11个大都市区

SOTA:Attentive Convolution

  • The Wikipedia Corpus

这个数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。使得这个成为强大的NLP数据集的是你可以通过单词,短语或段落本身的一部分进行搜索。

大小:20 MB

记录数量:4,400,000篇文章,19亿字

SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

  • The Blog Authorship Corpus

这个数据集包含了从blogger.com收集的数千名博主的博客帖子。每个博客都作为一个单独的文件提供。每个博客至少包含200个常用英语单词。

大小:300 MB

记录数量:681,288个帖子,超过1.4亿字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

  • Machine Translation of Various Languages

此数据集包含四种欧洲语言的训练数据。这里的任务是改进当前的翻译方法。您可以参加以下任何语言组合:

  • 英语-汉语和汉语-英语

  • 英语-捷克语和捷克语-英语

  • 英语-爱沙尼亚语和爱沙尼亚语-英语

  • 英语-芬兰语和芬兰语-英语

  • 英语-德语和德语-英语

  • 英语-哈萨克语和哈萨克语-英语

  • 英文-俄文和俄文-英文

  • 英语-土耳其语和土耳其语-英语

大小:〜15 GB

记录数量:约30,000,000个句子及其翻译

SOTA:Attention Is All You Need

音频/语音处理

  • Free Spoken Digit Dataset

此列表中的另一个被MNIST启发而创建的数据集!这是为了解决识别音频样本中的口头数字而创建。这是一个开源数据集,所以希望随着人们继续贡献更多样本帮助它不断成长。目前,它包含以下特点:

  • 3个说话者

  • 1500个录音(每个数字每个说话者读50个)

  • 英语发音

大小:10 MB

记录数量:1500个音频样本

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

  • Free Music Archive (FMA)

FMA是一个音乐分析的数据集。数据集包括了完整长度和HQ音频,预先计算的特征,以及音轨和用户级元数据。它是一个用于评估MIR中的一些任务的开源数据集。下面是数据集的csv文件列表以及它们包含的内容:

  • tracks.csv:每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数,共106,574首曲目

  • genres.csv:所有163种风格的ID与他们的名字和起源(用于推断流派层次和顶级流派)。

  • features.csv:用 librosa提取的常用特征。

  • echonest.csv:由 Echonest(现在的Spotify)提供的为13,129首音轨的子集的音频功能。

大小:〜1000 GB

记录数量:约100,000轨道

SOTA:Learning to Recognize Musical Genre from Audio

  • Ballroom

该数据集包含舞池跳舞音频文件。以真实音频格式提供了许多舞蹈风格的一些特征摘录。以下是数据集的一些特点:

  • 实例总数:698

  • 持续时间:约30秒

  • 总持续时间:约20940秒

大小:14GB(压缩)

记录数量:约700个音频样本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

  • Million Song Dataset

Million Song Dataset是免费的一百万首当代流行音乐曲目的音频特征和元数据集合。其目的是:

  • 鼓励对扩大到商业规模的算法进行研究

  • 为评估研究提供参考数据集

  • 作为使用API创建大型数据集的捷径(例如The Echo Nest)

  • 帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。这个数据集不包含任何音频,只是派生的功能。示例音频可以通过使用哥伦比亚大学提供的code从7digital等服务中获取。

大小:280 GB

记录数量:PS - 它的一百万首歌曲!

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

  • LibriSpeech

该数据集是大约1000小时的英语演讲的大型语料库。这些数据来自LibriVox项目的有声读物。它们已被分割并适当对齐。如果您正在寻找一个起点,请查看在kaldi-asr.org和语言模型上进行了训练了的已准备好的声学模型,这些模型适合在http://www.openslr.org/11/进行评测。

大小:〜60 GB

记录数量:1000小时的演讲

SOTA:Letter-Based Speech Recognition with Gated ConvNets

  • VoxCeleb

VoxCeleb是一个大规模演讲者识别数据集。它包含了来自YouTube视频的约1,251位知名人士的约10万个话语。数据大部分是性别平衡的(男性占55%)。这些名人横跨不同的口音,职业和年龄。开发和测试集之间没有重叠。对于独立和识别哪个超级巨星的音频来说,这是一个有趣的使用案例。

大小:150 MB

记录数量:1,251位名人的100,000条话语

SOTA:VoxCeleb: a large-scale speaker identification dataset

分析Vidhya实践问题:为了您的练习,我们还提供实际生活问题和数据集让你可以实际演练。在本节中,我们列举了在我们DataHack平台上的深度学习实践问题。

  • Twitter Sentiment Analysis

仇恨型演讲以种族主义和性别歧视为形式的言论已成为推特上的麻烦事,重要的是将这类推文与其他的分开。在这个实际问题中,我们同时提供正常的和仇恨型推文的推特数据。你作为数据科学家的任务是确定哪些推文是仇恨型推文,哪些不是。

大小:3 MB

记录数量:31,962条推文

  • Age Detection of Indian Actors

对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择,并从视频帧中剪切的,这使得尺度,姿势,表情,照度,年龄,分辨率,遮挡和化妆的高度干扰性。

大小:48 MB(压缩)

记录数量:训练集中的19,906幅图像和测试集中的6636幅图像

SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem

  • Urban Sound Classification

这个数据集包含超过8000个来自10个类别的城市声音摘录。这个实践问题是为了在向您介绍常见分类方案中的音频处理。

大小:训练集-3 GB(压缩),测试集- 2 GB(压缩)

记录数量:来自10个类别的8732个城市声音标注的声音片段(<= 4s)

如果您知道其他开源数据集,可以用来推荐其他人开始他们的深度学习/非结构化数据集之旅,请随时把它们推荐给我们并附上应该包括这些数据集的原因。

如果原因很好,我会把它们列入清单。我们非常欢迎您在评论区域让我们知道使用这些数据集的经验。最后祝大家学习愉快!

原文标题:25 Open Datasets for Deep Learning Every Data Scientist Must Work With

原文链接:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

资源 | 25个深度学习开源数据集,have fun !相关推荐

  1. 25个深度学习开源数据集

    简介 学习深度学习最重要的就是数据集啦.小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看 ...

  2. 90+深度学习开源数据集整理|包括目标检测、工业缺陷、图像分割等多个方向

    导读 本文整理汇总了90+深度学习各方向的开源数据集,包含了小目标检测.目标检测.工业缺陷检测.人脸识别.姿态估计.图像分割.图像识别等方向. 小目标检测 1.AI-TOD航空图像数据集 数据集下载地 ...

  3. 深度学习开源数据集——自动驾驶、目标检测、人脸识别、文本检测、图像分类

    前言 在深度学习中,如果没有数据集,就无法训练模型,所以数据是根本,下面列出几个常用数据集. 想要更多数据集,可以去这个地址:https://www.cvmart.net/dataSets或https ...

  4. 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    选自Analytics Vidhya,作者:Pranav Dar,机器之心编译. 本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍 深度学习(或生活 ...

  5. 图像处理 语音识别 深度学习 开放数据集

    从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集 本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍 深度学习(或生活中大部分领域)的关 ...

  6. 数据集大全:25个深度学习的开放数据集

    介绍 深度学习的关键是训练.无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法. 但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布. ...

  7. 【CV实战】年轻人的第一个深度学习CV项目应该是什么样的?(支持13大深度学习开源框架)...

    计算机视觉发展至今,许多技术已经非常成熟了,在各行各业落地业务非常多,因此不断的有新同学入行.本次我们就来介绍,对于新手来说,如何做一个最合适的项目.本次讲述一个完整的工业级别图像分类项目的标准流程, ...

  8. 国内外深度学习开放数据集下载集合(值得收藏,不断更新)

    国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...

  9. 深度学习常用数据集介绍

    数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...

最新文章

  1. android 关于字符转化问题
  2. 网盘们打打打起来了(doge)
  3. c++几种智能指针比较
  4. 孤荷凌寒自学python第八十一天学习爬取图片1
  5. mysql物理备份工具Xtrabackup安装配置
  6. 最简单的基于FFmpeg的移动端样例:IOS 视频转码器
  7. iostream stdlib fstream io.h 头文件的作用
  8. 协鑫集成等四家公司被退出欧盟MIP协议
  9. 如何将屏幕截图保存到桌面以外的自定义文件夹?
  10. 关于document对象
  11. ubuntu16.04安装谷歌拼音输入法并可在QtCreator中使用
  12. 海洋cms常见问题有哪些?
  13. redis专题-----11-----redis订阅发布以及stream
  14. android手机获取系统短信sqlite数据库并查看内容
  15. 浏览器翻译插件 沙拉查词;图片翻译;pdf 阅读器软件、pdf翻译工具
  16. java 采用MD5加密解密代码示例(不玩套路, 非标题党, 附带解密代码)
  17. 计算机一级ms必考知识点,计算机一级MsOffice考试知识点整理重点.docx
  18. 【读书笔记】数学之美(下)
  19. 科大讯飞语音听写-前端JS
  20. 缺陷管理,一门关于质量内建的学问

热门文章

  1. 洛谷P4768 [NOI2018]归程(Kruskal重构树)
  2. 解决 java “错误:编码GBK 的不可映射字符”
  3. 《构建高可用Linux服务器 第3版》—— 1.4 Linux服务器的日志管理
  4. 解决 yum时 Error: Protected multilib versions报错
  5. Xamarin.Android使用教程之Android开发所需的模拟器
  6. 编写高质量代码 Web前端开发修炼之道 读书笔记
  7. 一个打印机的希奇古怪的问题二
  8. html5边框有圆弧,CSS圆角有立体感的DIV边框
  9. html5 游戏图片预加载,前端实现图片(img)预加载
  10. suse linux 命令