本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉、自然语言理解和音频三大领域。

还在愁到哪里找到需要的机器学习数据集吗?

每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。

现在,一位名叫 Nikola Pleša 的开发人员做了一个项目,将所有机器学习的大型数据集收集在一个网站上,方便大家取用。

网站一经发布,好评如潮。网站目前提供约 70 个数据集,涵盖了计算机视觉、自然语言理解和音频三大领域,包括每个数据集的链接、简介、许可类型、论文等,并且作者表示将继续增加数据集数量。

数据集网站:https://www.datasetlist.com/

下面,简要介绍一部分 CV、NLP 的数据集信息。

计算机视觉数据

1. IBM 人脸多样性数据集

IBM 的人脸多样性 (DiF) 数据集是一个庞大而多样化的数据集,旨在促进人脸识别技术中公平性和准确性的研究。DiF 是第一个此类数据集,包含 100 万张带注释的人脸图像。

2. GQA

GQA 数据集包含 2200 万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联,这是一个基于 Visual Genome 的新的清晰版本数据集。

3. NVIDIA Flickr-Faces-HQ 数据集

该数据集由 70000 张分辨率为 1024×1024 的高质量 PNG 图像组成,并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件,如眼镜,太阳镜,帽子等。

4. Google Open Images V4

Open Images 是一个包含约 900 万个 URL 图像的数据集,这些图像具有包含数千个类别的图像级标签和边界框注释。

5. Youtube-8M 2018

YouTube- 8M 是一个大型的带标签的视频数据集,由数百万个 YouTube 视频 ID 和来自4700 多个视觉实体的不同词汇表的相关标签组成,包含大量的视频画面信息、音频信息、标签信息。

6. Berkeley Deep Drive (BDD100K)

该数据集包含超过 100k 个驾驶体验视频,每个视频长度为 40 秒,帧数为每秒 30 帧。总图像数比百度 ApolloScape(2018 年 3 月发布) 大 800 倍,比 Mapillary 大 4800倍,比 KITTI 大 8000 倍。

7. ApolloScape

ApolloScape 是一个此前的类似数据集如 KITTI 和 CityScapes 更大、更复杂的数据集。ApolloScape 提供了高分辨率高 10 倍以上的图像,并逐像素标注,包括 26 种不同的可识别对象,如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加,数据集提供了多个级别的场景复杂性,在给定场景中最多多达 100 辆车辆,以及更广泛的具有挑战性的环境,如恶劣天气或极端光照条件。

8. Tencent ML - Images

腾讯发布的 Tencent ML - Images 是目前最大的开源多标签图像数据集,包括17,609,752 个训练图像和 88739 个验证图像 URL,注释多达 11,166 个类别。

9. Fashion MNIST

Fashion-MNIST 是 Zalando 文章图像的一个数据集,包括 60,000 个示例的训练集和10,000 个示例的测试集。每个示例都是一个 28x28 的灰度图像,与 10 个类别的标签相关联。

10. MegaFace

MF2 训练数据集是身份数量上最大的公开可用的面部识别数据集,有 470 万张面部图像,672K 个身份,以及各自的边界框。所有图片均来自 Flickr,并在知识共享协议下许可。

自自然语言数据

1. 斯坦福问答数据集 (SQuAD)

斯坦福问答数据集 (Stanford Question answer Dataset, SQuAD) 是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万对以上的问答对,因此规模明显大于之前的阅读理解数据集。 SQuAD2.0 将 SQuAD1.1 中的 10 万个问题与 5 万多个新的、无法回答的问题 (由众包工作者提出) 结合起来,使之看起来与可回答的问题相似。

2. MultiNLI

多体裁自然语言推理语料库 (Multi-Genre Natural Language Inference, MultiNLI) 是一个由 433k 个句子对组成的源文本集合语料库,这些句子对都带有文本蕴涵信息。MultiNLI 语料库是在 SNLI 语料库的基础上建立的,但不同之处在于它涵盖了一系列口语和书面文本的体裁,并支持独特的跨体裁评估。

3. CoQA

CoQA 是一个用于构建会话问答系统的大型数据集。CoQA 包含 127k 个问题和答案,来自 7 个不同领域的 8k 个文本段落的对话。

4. Spider 1.0

Spider 是一个大型复杂的跨域语义分析和 text-to-SQL 的数据集。Spider 由 10181 个问题和 5693 个独特的复杂 SQL 查询组成,这些查询来自 200 个数据库,覆盖 138 个不同的域。

5. HotpotQA

HotpotQA 是一个以自然的、 multi-hop 的问题为特征的问答数据集,具有强大的支持事实的监督,以实现更易于解释的问答系统。该数据集由 113,000 对基于 Wikipedia 的QA 对组成。

6. Question Pairs (Quora)

包含超过 400,000 行潜在的问题对。

7. Yelp open dataset

Yelp 数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在 JSON和 SQL 文件中使用。

8. Facebook bAbI

一个用于自动文本理解和推理的数据集。

9. MS MARCO

微软机器阅读理解数据集 (MS MARCO) 是一个用于阅读理解和问题回答的新型大型数据集。在 MS MARCO 中,所有问题都是从真实的匿名用户查询中提取的。数据集中的答案来自上下文段落,这些段落使用 Bing 搜索引擎从真实的 web 文档中提取。如果他们能够总结出答案,那么查询的答案就是人工生成的。

10. NewsQA

NewsQA 数据集的目的是帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。该数据集包含来自众包的 120K 阅读理解 Q&A 对。

音频数据

1. Mozilla Common Voice

Mozilla 拥有可供使用的最大的人类语音数据集,包括 18 种不同的语言,从 4.2 万多名贡献者那里收集了近 1400 小时的录音语音数据。

2. NSynth

这是一个大规模、高质量的注释音符数据集。NSynth 数据集是一个音频数据集,包含~300k 个音符,每个音符都有一个独特的音调、音色和包络。

3. Google Audioset

AudioSet 由 632 个音频事件类的扩展本体和来自 YouTube 视频的 2084320 个带有人类标记的 10 秒声音片段组成。本体被指定为事件类别的层次图,涵盖广泛的人类和动物声音、乐器和流派,以及常见的日常环境声音。

4. LibriSpeech

LibriSpeech 是一个有声图书数据集,包含文本和语音。数据集包含多位讲者朗读的各类有声读物,时长近 500 小时。

感兴趣的小伙伴可以登录网站进行了解学习~

机器学习数据集!CV、NLP 一应俱全相关推荐

  1. AI领域相关数据集-CV NLP等

    1.  寻找数据集 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据. 数据集不应包含太多行或列,否则会难以使用. 数据越干净越好,清理大型数据集可 ...

  2. 机器学习cnn数据集_33个机器学习常用数据集CV/NLP

    若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks) 现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark, ...

  3. 如何打造高质量的机器学习数据集?这份超详指南不可错过

    作者 | 周岩,夕小瑶,霍华德,留德华叫兽 转载自知乎博主『运筹OR帷幄』 导读:随着计算机行业的发展,人工智能和数据科学近几年成为了学术和工业界关注的热点.特别是这些年人工智能的发展日新月异,每天都 ...

  4. 80+机器学习数据集,还不快收藏

    整理 | suiling 出品 | AI科技大本营(ID:rgznai100) 对于从事机器学习的小伙伴来说,机器学习必须以大量的数据为基础,否则构建再好的模型也不能达到你想要的效果.同时,不同质量的 ...

  5. 数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

    铜灵 发自 凹非寺 量子位 出品| 公众号 QbitAI 想自己构建机器学习模型,没想到首先就卡在了第一步. 网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼.想要获取大型数据集,还要挨个跑到 ...

  6. 8种寻找机器学习数据集的方法 | 附数据集资源

    乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在训练机器学习模型时,找到合适的数据集一直是个棘手的问题. 近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方 ...

  7. 秘籍 | 机器学习数据集网址大全

    作者 | Will Badr 译者 | Linstancy 整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情. ...

  8. 收藏 | 机器学习数据集汇总收集

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 仅作分享,不代表本公众号立场,侵权联系删除 转载于:机器学习算法与 ...

  9. 各领域机器学习数据集汇总

    大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集[Stanford] http://cvgl.stanford.edu/projects/uav_data/ 人脸素描数据集[C ...

最新文章

  1. Linux下的格式化字符串漏洞利用姿势
  2. 性能测试关注点整理总结
  3. Kubernetes集群安全概述
  4. base64编解码的类
  5. 基于KD树的K近邻算法(KNN)算法
  6. JS中格式化数据保留两位小数
  7. 自然语言处理之基于biLSTM的pytorch立场检测实现
  8. ELK下es索引管理工具-curator
  9. flag--命令行参数解析之StringVar
  10. pgsql merge方法
  11. (一)员工信息管理系统(超级详细代码)
  12. 创业教父Paul Graham: 穷途末路还是康庄大道
  13. 千方百剂2008升级到千方百计II 脚本执行错误 请检查第69行
  14. 时间戳——微信保存视频时发现的问题
  15. Dreamweaver自带流体布局+自己添加,后附效果,不知代码有错误没?请行家指正!多谢先
  16. 移动硬盘误删分区,数据完美找回
  17. js 千分位格式化 (4种方式实现)
  18. 图解IFRS9 金融工具(13)实施时间及结语 [
  19. mysql查看sql语句是否走索引
  20. c++序列号生成(注册码)附demo

热门文章

  1. ArcGIS JS API 4.x(二) 加载 3.x所说的动态地图服务图层
  2. python绘制等值线图_Python/Matplotlib双线性插值等值线图
  3. CentOS7 常用命令大全
  4. ANSYS经典界面出图技巧总结
  5. 线段树 (更新区间查询点)秋实大哥与小朋友
  6. appinventor认识
  7. 在win10上去除移动硬盘的bitlocker
  8. 数据库 - 字段属性
  9. 分享Python采集99个VB源码,总有一款适合您
  10. 程序员上网搜答案被HR吐槽人品差,网友:你们公司是断网开发吗?