68款大规模机器学习数据集，涵盖CV、语音、NLP

参加 2019 Python开发者日，请扫码咨询 ↑↑↑

作者 | 琥珀

出品 | AI科技大本营（ID:rgznai100）

此前营长为大家分享过不少机器学习相关数据集的资源，例如 Mozilla 的 1400 小时开源语音数据集；ApolloScape 的大规模自动驾驶数据集；腾讯 AI Lab 的 “Tencent ML-Images” 项目，甚至还有谷歌团队推出的 Google Dataset Search（Google 数据集搜索）……

对于日常从事模型训练的研究人员来讲，无论是图像处理还是语音识别，都离不开一些高质量的数据集，通过它们以改善模型的性能。

近日，reddit 论坛上，一位网友发帖分享了 datasetlist.com 的网站链接，得到了不少同行们的点赞。据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集，囊括计算机视觉（46 项）、自然语言处理（18 项）、语音（4 项）三大类别，帮助用户快速找到相应的数据集。由此，我们还可以看到自 2015 年以来，大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进。

这套数据集搜索列表的出现，也满足了不少强迫症患者对于选择 / 整理数据集的想法。不过，也正如这位网友所言：这个数据集列表的形式将有待完善和丰富，设计这个网页的目的也是希望接下来不断更新新的数据集，同时，用户也可以通过邮箱、Twitter、Facebook 等方式订阅以获取最新内容。

下面，让营长介绍下该数据集列表的主要内容：

语音识别：

Mozilla Common Voice

2019 年 3 月 1 日，由 Mozilla 基金会发起的 Common Voice 项目，发布新版语音识别数据集，包括来自 42000 名贡献者，超过 1400 小时的语音样本数据，涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

地址：https://voice.mozilla.org/zh-CN

NSynth
Google Audioset
LibriSpeech

计算机视觉

IBM Diversity in Faces Dataset

IBM 推出的“人脸多样性”（Diversity in Faces Dataset，DiF）是一个庞大而多样化的数据集，与以前的数据集相比，DiF 数据集提供了更均衡的分布和更广泛的面部图像覆盖率。DiFferences 提供了 100 万注释的数据集人类面部图像。

地址：

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/

NVIDIA Flickr-Faces-HQ 数据集

英伟达推出的 Flicker 人脸高清数据集（FFHQ）由 70,000 个高质量的 PNG 格式图像组成，分辨率为 1024*1024。这些图片在年龄、种族和图像背景方面有很强的多样性，并且还有如眼镜、太阳镜、帽子等元素。

地址：

https://github.com/NVlabs/ffhq-dataset

Google Open Images V4

Open Images 是一个包含约 900 万个 URL 的数据集，由谷歌在 2018 年 4 月 30 日开放，它包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒。

地址：

https://storage.googleapis.com/openimages/web/index.html

Tencent ML- Images

Tencent ML- Images 是最大的开源多标签图像数据集，包括 17,609,752 个训练和 88,739 个验证图像 URL，最多可注释 11,166 个类别。

地址：

https://github.com/Tencent/tencent-ml-images

Youtube-8M 2018

Youtube-8M 2018 是一个大型标记视频数据集，由 600 万个 YouTube 视频 ID 组成，目前具有 4700 多个视觉实体标签，同时它还配备了数十亿帧和音频片段的预先计算的视听功能。

地址：

https://research.google.com/youtube8m/index.html

Fashion MNIST

Fashion-MNIST 由德国研究机构 Zalando Research 公布，包含 60000 个样本，测试集包含 10000 个样本，分为 10 类，每一个都是 28×28 的灰度图。

地址：

https://github.com/zalandoresearch/fashion-mnist

当然，此外还有 MegaFace、ImageNet 等非常经典的数据集，以下营长就不一一列举了。

GQA
Berkeley Deep Drive (BDD100K)
HighD - The Highway Drone Data
Comma 2k19
HD1K Benchmark Suite
VQA Visual Question Answering
ApolloScape
nuScenes
MURA
Synscapes
fastMRI Dataset
Mapillary Vistas
Places2
Youtube-BoundingBoxes
ADE20K
WildDash
Oxford RobotCar Dataset
Recipe1M
MegaFace
SceneNet RGB-D
MS-Celeb-1M
SYNTHIA
UMD Faces
comma.ai
Spacenet
CompCars
ShapeNet
WIDER Face
WIDER
LSUN
Visual Genome
Cityscapes
ACTIVITYNET
COCO
Yahoo Flickr Creative Commons 100M
Pascal part
Flickr30k
KITTI
SVHN Street View House Numbers
ImageNet

自然语言处理

SQuAD

斯坦福问答数据集（SQuAD）是一个全新的阅读理解数据集，由工作人员基于一系列维基百科文章中的提问和答案组成，其中每个问题的答案是来自相应阅读段落的一段文本片段或区间。其中包括超过 500 篇文章中超过 100,000 个问答配对，使得 SQuAD 显著大于以前的阅读理解数据集。SQuAD2.0 结合了 SQuAD1.1 中的 100,000 个问题。

地址：

https://rajpurkar.github.io/SQuAD-explorer/

此外还有：

MultiNLI
CoQA
Spider 1.0
HotpotQA
Question Pairs (Quora)
Yelp open dataset
Facebook bAbI
MS MARCO
NewsQA
Datasets from DBPedia, Amazon, Yelp, Yahoo!, Sogou, a
DeepMind Q&A dataset
Text Classification Datasets
SNLI
Billion Words
Stanford Sentiment Treebank
Large Movie Review Dataset
Princeton WordNet

（本文为 AI科技大本营原创文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

推荐阅读：

数学界“诺奖”Abel Prize迎来首位女性得主
NLP实践：对话系统技术原理和应用
提升效率，这十个Pandas技巧必不可少！
超常用的Python代码片段 | 备忘单
没有新芯片，没有大核弹，黄教主这次给大家带来了个PRADA
淘宝、飞猪、闲鱼都挂了，阿里云却正常？！
要钱还是要命? 比特币正悄悄杀死你...
前阿里 P9 级员工称离婚是模拟测试，已回滚复婚！
教训！学 Python 没找对路到底有多惨？

❤点击“阅读原文”，查看历史精彩文章。

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集相关推荐

机器学习数据集！CV、NLP 一应俱全
本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉.自然语言理解和音频三大领域. 还在愁到哪里找到需要的机器学习数据集吗? 每年都有很多大型.高质量的数据集 ...
强得离谱！串烧70+个Transformer模型，涵盖CV、NLP、金融、隐私计算...
Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作.与卷积神经网络(CNN)相比,视觉 Tr ...
80+机器学习数据集，还不快收藏
整理 | suiling 出品 | AI科技大本营(ID:rgznai100) 对于从事机器学习的小伙伴来说,机器学习必须以大量的数据为基础,否则构建再好的模型也不能达到你想要的效果.同时,不同质量的 ...
AI深度、机器学习数据集资源汇总
文章目录前言一.数据集网站二.具体数据集 1.记录的具体数据集 2.医疗图像 3.网上数据集汇总链接总结前言继续收集.更新.汇总....................... 一.数据集网 ...
一文带你纵览 200+ 大规模机器学习研究
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:AI科技评论 AI博士笔记系列推荐周志华<机器学习& ...
500款各领域机器学习数据集,总有一个是你要找的
目录: 金融交通商业推荐系统医疗健康图像数据视频数据音频数据自然语言处理社会数据科研和竞赛数据金融美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/ ...
数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源
铜灵发自凹非寺量子位出品| 公众号 QbitAI 想自己构建机器学习模型,没想到首先就卡在了第一步. 网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼.想要获取大型数据集,还要挨个跑到 ...
机器学习数据集【转】
500款各领域机器学习数据集,总有一个是你要找的金融美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股 ...
机器学习数据集的方法及数据集资源
亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法 1.Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式.此外,你还 ...

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集相关推荐

最新文章

热门文章