参加 2019 Python开发者日,请扫码咨询 ↑↑↑

作者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)

此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla 的 1400 小时开源语音数据集;ApolloScape 的大规模自动驾驶数据集;腾讯 AI Lab 的 “Tencent ML-Images” 项目,甚至还有谷歌团队推出的 Google Dataset Search(Google 数据集搜索)……

对于日常从事模型训练的研究人员来讲,无论是图像处理还是语音识别,都离不开一些高质量的数据集,通过它们以改善模型的性能。

近日,reddit 论坛上,一位网友发帖分享了 datasetlist.com 的网站链接,得到了不少同行们的点赞。据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集,囊括计算机视觉(46 项)、自然语言处理(18 项)、语音(4 项)三大类别,帮助用户快速找到相应的数据集。由此,我们还可以看到自 2015 年以来,大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进。

这套数据集搜索列表的出现,也满足了不少强迫症患者对于选择 / 整理数据集的想法。不过,也正如这位网友所言:这个数据集列表的形式将有待完善和丰富,设计这个网页的目的也是希望接下来不断更新新的数据集,同时,用户也可以通过邮箱、Twitter、Facebook 等方式订阅以获取最新内容。

下面,让营长介绍下该数据集列表的主要内容:

语音识别:

  • Mozilla Common Voice

2019 年 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400 小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

地址:https://voice.mozilla.org/zh-CN

  • NSynth

  • Google Audioset

  • LibriSpeech

计算机视觉

  • IBM Diversity in Faces Dataset

IBM 推出的“人脸多样性”(Diversity in Faces Dataset,DiF)是一个庞大而多样化的数据集,与以前的数据集相比,DiF 数据集提供了更均衡的分布和更广泛的面部图像覆盖率。DiFferences 提供了 100 万注释的数据集人类面部图像。

地址:

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/


  • NVIDIA Flickr-Faces-HQ 数据集

英伟达推出的 Flicker 人脸高清数据集(FFHQ)由 70,000 个高质量的 PNG 格式图像组成,分辨率为 1024*1024。这些图片在年龄、种族和图像背景方面有很强的多样性,并且还有如眼镜、太阳镜、帽子等元素。

地址:

https://github.com/NVlabs/ffhq-dataset

  • Google Open Images V4

Open Images 是一个包含约 900 万个 URL 的数据集,由谷歌在 2018 年 4 月 30 日开放,它包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒。

地址:

https://storage.googleapis.com/openimages/web/index.html

  • Tencent ML- Images

Tencent ML- Images 是最大的开源多标签图像数据集,包括 17,609,752 个训练和 88,739 个验证图像 URL,最多可注释 11,166 个类别。

地址:

https://github.com/Tencent/tencent-ml-images

  • Youtube-8M 2018

Youtube-8M 2018 是一个大型标记视频数据集,由 600 万个 YouTube 视频 ID 组成,目前具有 4700 多个视觉实体标签,同时它还配备了数十亿帧和音频片段的预先计算的视听功能。

地址:

https://research.google.com/youtube8m/index.html


  • Fashion MNIST

Fashion-MNIST 由德国研究机构 Zalando Research 公布,包含 60000 个样本,测试集包含 10000 个样本,分为 10 类,每一个都是 28×28 的灰度图。

地址:

https://github.com/zalandoresearch/fashion-mnist

当然,此外还有 MegaFace、ImageNet 等非常经典的数据集,以下营长就不一一列举了。

  • GQA

  • Berkeley Deep Drive (BDD100K)

  • HighD - The Highway Drone Data

  • Comma 2k19

  • HD1K Benchmark Suite

  • VQA Visual Question Answering

  • ApolloScape

  • nuScenes

  • MURA

  • Synscapes

  • fastMRI Dataset

  • Mapillary Vistas

  • Places2

  • Youtube-BoundingBoxes

  • ADE20K

  • WildDash

  • Oxford RobotCar Dataset

  • Recipe1M

  • MegaFace

  • SceneNet RGB-D

  • MS-Celeb-1M

  • SYNTHIA

  • UMD Faces

  • comma.ai

  • Spacenet

  • CompCars

  • ShapeNet

  • WIDER Face

  • WIDER

  • LSUN

  • Visual Genome

  • Cityscapes

  • ACTIVITYNET

  • COCO

  • Yahoo Flickr Creative Commons 100M

  • Pascal part

  • Flickr30k

  • KITTI

  • SVHN Street View House Numbers

  • ImageNet

自然语言处理

SQuAD

斯坦福问答数据集(SQuAD)是一个全新的阅读理解数据集,由工作人员基于一系列维基百科文章中的提问和答案组成,其中每个问题的答案是来自相应阅读段落的一段文本片段或区间。其中包括超过 500 篇文章中超过 100,000 个问答配对,使得 SQuAD 显著大于以前的阅读理解数据集。SQuAD2.0 结合了 SQuAD1.1 中的 100,000 个问题。

地址:

https://rajpurkar.github.io/SQuAD-explorer/

此外还有:

  • MultiNLI

  • CoQA

  • Spider 1.0

  • HotpotQA

  • Question Pairs (Quora)

  • Yelp open dataset

  • Facebook bAbI

  • MS MARCO

  • NewsQA

  • Datasets from DBPedia, Amazon, Yelp, Yahoo!, Sogou, a

  • DeepMind Q&A dataset

  • Text Classification Datasets

  • SNLI

  • Billion Words

  • Stanford Sentiment Treebank

  • Large Movie Review Dataset

  • Princeton WordNet


(本文为 AI科技大本营原创文章,转载请微信联系 1092722531)

精彩推荐

推荐阅读:

  • 数学界“诺奖”Abel Prize迎来首位女性得主

  • NLP实践:对话系统技术原理和应用

  • 提升效率,这十个Pandas技巧必不可少!

  • 超常用的Python代码片段 | 备忘单

  • 没有新芯片,没有大核弹,黄教主这次给大家带来了个PRADA

  • 淘宝、飞猪、闲鱼都挂了,阿里云却正常?!

  • 要钱还是要命? 比特币正悄悄杀死你...

  • 前阿里 P9 级员工称离婚是模拟测试,已回滚复婚!

  • 教训!学 Python 没找对路到底有多惨?

❤点击“阅读原文”,查看历史精彩文章。

68款大规模机器学习数据集,涵盖CV、语音、NLP | 十年资源集相关推荐

  1. 机器学习数据集!CV、NLP 一应俱全

    本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉.自然语言理解和音频三大领域. 还在愁到哪里找到需要的机器学习数据集吗? 每年都有很多大型.高质量的数据集 ...

  2. 强得离谱!串烧70+个Transformer模型,涵盖CV、NLP、金融、隐私计算...

    Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作.与卷积神经网络(CNN)相比,视觉 Tr ...

  3. 80+机器学习数据集,还不快收藏

    整理 | suiling 出品 | AI科技大本营(ID:rgznai100) 对于从事机器学习的小伙伴来说,机器学习必须以大量的数据为基础,否则构建再好的模型也不能达到你想要的效果.同时,不同质量的 ...

  4. AI深度、机器学习数据集资源汇总

    文章目录 前言 一.数据集网站 二.具体数据集 1.记录的具体数据集 2.医疗图像 3.网上数据集汇总链接 总结 前言 继续收集.更新.汇总....................... 一.数据集网 ...

  5. 一文带你纵览 200+ 大规模机器学习研究

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论 AI博士笔记系列推荐 周志华<机器学习& ...

  6. 500款各领域机器学习数据集,总有一个是你要找的

    目录: 金融 交通 商业 推荐系统 医疗健康 图像数据 视频数据 音频数据 自然语言处理 社会数据 科研和竞赛数据 金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/ ...

  7. 数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

    铜灵 发自 凹非寺 量子位 出品| 公众号 QbitAI 想自己构建机器学习模型,没想到首先就卡在了第一步. 网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼.想要获取大型数据集,还要挨个跑到 ...

  8. 机器学习数据集【转】

    500款各领域机器学习数据集,总有一个是你要找的 金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股 ...

  9. 机器学习数据集的方法 及 数据集资源

    亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法 1.Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式.此外,你还 ...

最新文章

  1. 2022-2028年中国激光脱毛仪行业市场研究及前瞻分析报告
  2. eclipse编辑窗口不见了(打开左边的java、xml文件,中间不会显示代码)
  3. 使用OpenCV自动去除背景色
  4. 为了不复制粘贴,我被逼着学会了JAVA爬虫
  5. 多伦多大学2020春季CSC311课程「机器学习导论」课件PPT
  6. 在Filter 无法跳转地址
  7. nginx 源码调试
  8. 土豆春季实习试题之惨烈教训
  9. POE交换机隐藏指标是什么?
  10. Django 应用分库,数据迁移成功,数据库没有生成表
  11. 剖析如何自己写框架Struts和Mybatis,学其原理而非重复造轮子
  12. mysql主从复制原理详解_简述 MySQL 逻辑架构与主从复制原理。
  13. Mac使用技巧:清除 MacBook 上的浏览器缓存
  14. html遮罩层动画制作,《Flash遮罩层动画的制作》的教学反思
  15. 巴斯勒相机的相机控制类析构函数多次调用的问题
  16. Liu C-2021-1: Nontrivial Gates FET
  17. 游戏服务器架构的历史、现在以及未来(云游戏)
  18. jQuery怎么读,应该这样读不要读错了
  19. 什么是PT,PT和BT有什么不同?
  20. 搜狗2012校招在线评测_信息编码程序

热门文章

  1. [转]会自动消失的对话框API函数:MessageBoxTimeout
  2. sql server日志占用空间过大的问题
  3. 2018-3-20李宏毅机器学习笔记十----------Logistic Regression
  4. 2018-3-18Zookeep
  5. SUSTechTripleH队墓志铭
  6. vue-cli脚手架(框架)
  7. Centos修改系统语言
  8. ADO.Net五个对象
  9. 多线程并行和并发的区别
  10. KBMMW 的日志管理器