铜灵 发自 凹非寺
量子位 出品| 公众号 QbitAI

想自己构建机器学习模型,没想到首先就卡在了第一步。

网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦

如何才能高效找到机器学习领域规模最大质量最高的数据集?

为了响应广大网友的呼声,网友u/UpdraftDev将全网最大的机器学习数据集整理汇集,并对这些数据集进行了分类和介绍。

想找心仪数据集,现在一目了然。网友纷纷表示:很满意!

太方便了

这个网站上,共收集到了100多个业界最大型的数据集。

根据任务类别,这些数据集中又分为三大类:计算机视觉(CV)、自然语言处理(NLP)和音频数据集。

在网站主页,一眼扫过去可以看到数据集名称、发布时间、简要介绍、开源协议、相关论文等重要信息,查找起来非常方便。

点进去就直接跳转到网站主页了,轻轻一点,免去了你挨个搜索每个数据集地址的麻烦。

神仙数据集

清单中列举的数据集中,不乏一些有趣的业界知名数据集,在很多的机器学习任务中,这些数据集都是最实用、出现场次最高的那一批。

都是哪些神仙数据集?

计算机视觉领域

先来看一下CV领域,汇总中收纳了70个大型数据集,很多经常遇到的经典数据集都在里面。

看看你能认出几个:

其中,包含了英伟达去年12月开源的人脸数据集FFHQ(Flickr-Faces-HQ),内含7万张1024×1024分辨率的高清人脸大图。

它提供了高度多样化、高质量的人脸数据,并且涵盖了比现有高分辨率数据集(如CelebA-HQ)更多的变化,比如更多佩戴眼镜、帽子的照片。

也有一些熟悉的中国企业身影。

比如百度开放的自动驾驶数据集ApolloScape,包括感知、仿真场景、路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据。

数据集采用了逐像素语义分割标注的方式,是环境复杂、标注精准、数据量大的自动驾驶数据集。

腾讯开源的Tencent ML-Images项目,其多标签图像数据集ML-Images包含了1800万图像和1.1万多种常见物体类别,比谷歌开源的Open Images数据集还丰富不少。

当然,像ImageNet、KITTI、COCO、Cityscapes等这样的老牌经典数据集也都在里面。

自然语言处理(NLP)领域

NLP领域目前有26个数据集:

斯坦福大学NLP组的SQuAD 2.0你得了解一下,和一代相比,2.0版在增加对抗性问题的同时,也新增了一项“判断一个问题能否根据提供的阅读文本作答”的任务。

SQuAD 2.0中不仅包含十万个问题-答案对,还有超过五万个由人类众包者对抗性地设计的无法回答的问题。

CoQA数据集也是斯坦福开发的对话数据集,包含来自8k组对话的127k个带有答案的问题。这些对话涉及 7 个不同领域,每组对话的平均长度为15轮,每一轮对话都由问题和回答组成。

此外,DeepMind的Q&A问答数据集、微软的MS MARCO机器阅读理解数据集、三名中国学生推出的HotpotQA新型问答数据集等,都可以在这份清单中一键直达。

音频数据集

还有四个大型音频数据集:

谷歌的大规模音频数据集AudioSet,包含632类的音频类别以及2084320 条人工标记的每段10秒的声音剪辑片段,覆盖大范围人类与动物、乐器与音乐流派、日常环境声音。

谷歌NSynth数据集,收录了从1000种乐器中采集的大量注释的音符,包括不同的音高和速率,比同类的公共数据集大了一个数量级。

初创公司Mozilla公布的Common Voice数据集,内含2万名英语志愿者500小时、40万份录音,语料库也在不断扩充中。

还有LibriSpeech ASR corpus语音数据集,包括1000小时的英文发音和对应文字,数据来自LibriVox项目的有声读物,是一个大型的语料数据库。

传送门

这份清单中还有很多实用有趣的数据集,记得自己也去探索一遍。

目前,数据集汇合还在持续更新中,记得及时收藏。

数据集地址:
https://www.datasetlist.com/

作者系网易新闻·网易号“各有态度”签约作者

订阅AI内参,获取AI行业资讯

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源相关推荐

  1. 【数据集下载神器】体验1000+优质数据集极速下载

    在一个合格模型的诞生过程中,繁杂的数据收集与处理工作往往给算法工程师带来了低效的工作体验. ▲一个模型的诞...生... 好的数据,对模型训练至关重要.自己做数据,即昂贵又费时费力:但是,使用现成的数 ...

  2. 机器学习数据集的方法 及 数据集资源

    亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法 1.Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式.此外,你还 ...

  3. 秘籍 | 机器学习数据集网址大全

    作者 | Will Badr 译者 | Linstancy 整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情. ...

  4. 机器学习数据集的获取和测试集的构建方法

    这是机器学习入门系列(2)–如何构建一个完整的机器学习项目的第二篇 上一篇机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)介绍了开始一个机器学习项目需要明确的问题,比如当前任务属于有监督还 ...

  5. 机器学习数据集哪里找:最佳数据集来源盘点

    很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的.下面的网址列表不仅包含用于实验的大型数据集,还包含描述.使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码. ...

  6. 【收藏】机器学习数据集列表:你需要收藏!

    ↑ 点击上方[计算机视觉联盟]关注我们 来源:Medium 编辑:三石 来自新智元 下面的ML大型数据集,总有一款适合你. 就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较 ...

  7. 8种寻找机器学习数据集的方法 | 附数据集资源

    乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在训练机器学习模型时,找到合适的数据集一直是个棘手的问题. 近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方 ...

  8. 机器学习数据集哪里找:最佳数据集来源盘点 1

    摘要:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的.下面的网址列表不仅包含用于实验的大型数据集,还包含描述.使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法 ...

  9. 力荐50个最实用的免费机器学习数据集

    首先,在搜索数据集时要记住这几点: 数据集不应该是混乱的,因为你不希望花费大量时间来清理数据. 数据集不应包含太多行或列,要很容易使用. 数据越干净越好,因为清理大型数据集可能非常耗时. 这个数据集应 ...

最新文章

  1. PHP时间戳 strtotime()使用方法和技巧
  2. 系统服务器巡查表,服务器操作系统巡检表
  3. Virtual 2004中安装DOS以及实现文件共享的方法
  4. mysql 隔离级别 知乎_TiDB 事务隔离级别
  5. python爬虫进阶(初始)
  6. 微服务系列:Dubbo与SpringCloud的Ribbon、Hystrix、Feign的优劣势比较
  7. CTF-杂项题-伪加密
  8. 水平分库分表的关键问题及解决思路(转)
  9. poj2406Power string
  10. Colidity-- Dominator
  11. 主机连接wifi,如何设置虚拟机上网方式
  12. 山东工商学院计算机2军训,第二课堂-山东工商学院计算机科学与技术学院
  13. python长沙_python 长沙
  14. 数字电路与逻辑设计——组合逻辑应用技巧篇
  15. 2021软科 中国计算机专业 排名
  16. Opencv中的颜色检测
  17. STM32Cube程序使用 DFU 烧写后Leave DFUMode无法运行程序
  18. 安装keyston 错误BError: (pymysql.err.InternalError) (1071, u‘Specified key was too long; max ke(mysql)
  19. 关于Django+Framework的最完整面试题(1)
  20. 音频有噪音怎么办?不如试试这款软件。

热门文章

  1. 如何将三万行代码从 Flow 移植到 TypeScript?
  2. 程序员如何处理被 “吃” 掉的异常?
  3. 用最通俗易懂的方式打开区块链!
  4. 硅谷经历 7 场面试,我是如何最终进入 Facebook 的
  5. 分布式之API接口返回格式如何优雅设计?,苦熬一个月
  6. pycharm 设置为git默认编辑器_pycharm配置使用git
  7. ajax获取json里的list,ajax获取json数据然后将其装载到jqgrid实现
  8. ip68能达到什么程度防水_电子主控电路板使用什么样的胶水可以达到防水效果?...
  9. c语言输出方框□怎么回事_值得收藏的 C语言指针讲解文章,确实不错!
  10. 为什么二维码这么神奇,扫一下就能得到各种各样的信息?