全文共1144字,预计学习时长2分钟

机器学习的研究与实现离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,另一方面也可以与其他算法进行比较。本文介绍了计算机视觉、自然语言处理和语音识别三大领域的十个开源数据集以供你参考,绝对值得收藏!

计算机视觉

MNIST

MNIST 数据集来自美国国家标准与技术研究所,National Institute of Standards and Technology (NIST)。训练集 (training set) 由来自250个不同人手写的数字构成,其中 50% 是高中学生,50% 来自人口普查局 (the Census Bureau) 的工作人员。测试集(test set) 也是同样比例的手写数字数据。

链接:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,五个训练集之和包含来自每个类的5000张图像。

链接:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

图像处理界最有名的图像数据集之一,一般情况下只用子数据集就可以。ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。其图片数量最多,分辨率最高,含有的类别更多,有上千个图像类别。每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别竞赛,从而会诞生许多图像识别模型。

链接:http://image-net.org/

Visual Genome

非常详细的视觉知识库,并带有100K图像的深字幕。相较于ImageNet数据集,这个数据集每张图片所包含的信息更加丰富,将对象、属性之间的关系做注解,是这套数据集的核心。Visual Genome数据集采用了微软COCO的图片库,用极丰富的细节对这十万张图片做了注解。

链接:http://visualgenome.org/

NLP

WikiText

WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

链接:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD

SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。

链接:https://rajpurkar.github.io/SQuAD-explorer/

UCI’s Spambase

来自UCI的经典垃圾电子邮件数据集。这是一个大型垃圾邮件数据集,用于垃圾邮件过滤。

链接:https://archive.ics.uci.edu/ml/datasets/Spambase

语音

LibriSpeech

该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在http://kaldi-asr.org和语言模型上进行了训练,适合评估。

链接:http://www.openslr.org/12/

2000 HUB5 English

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

链接:https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用,可以提高系统的鲁棒性。

链接:http://www.voxforge.org/

uci数据集_干货收藏!三大领域常用十大开源数据集相关推荐

  1. 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

    作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...

  2. pagerank数据集_从小白视角理解数据挖掘十大算法

    关注上方"数据挖掘工程师",选择星标, 关键时间,第一时间送达! 作者 | 雪山飞猪链接 | https://www.cnblogs.com/chenqionghe/p/12301 ...

  3. 常用十大算法_回溯算法

    回溯算法 回溯算法已经在前面详细的分析过了,详见猛击此处. 简单的讲: 回溯算法是一种局部暴力的枚举算法 循环中,若条件满足,进入递归,开启下一次流程,若条件不满足,就不进行递归,转而进行上一次流程. ...

  4. 常用十大算法_KMP算法

    KMP算法 FBI提示:KMP算法不好理解, 建议视频+本文+其他博客,别走马观花 KMP算法是用于文本匹配的算法,属于模式搜索(pattern Searching)问题的一种算法,在讲KMP算法之前 ...

  5. emlog充值插件_常用十大必备Emlog插件

    常用十大必备Emlog插件 一个建站程序功能完善离不开插件的支持,也就是功能的插件化.特别是开源的程序,其个性化扩展更大,wordpress的强大很大一个原因就是为其开发的插件种类多.网站的基本功能都 ...

  6. 人工智能领域的十大算法

    事实上,人工智能已经存在于我们生活中很久了.但对很多人来讲,人工智能还是一个较为"高深"的技术,然而再高深的技术,也是从基础原理开始的.人工智能领域中就流传着10大算法,它们的原理 ...

  7. 【干货】2020年人工智能十大技术进展及2021年十大技术趋势.pdf(附下载链接)...

    大家好,我是文文(微信号:sscbg2020),今天给大家分享北京智源人工智能研究院发布的干货报告<2020年人工智能十大技术进展及2021年十大技术趋势.pdf>,人工智能赛道的伙伴们别 ...

  8. 前沿观察 | Gartner:2020年数据与分析领域的十大技术趋势

    来源:金融科技研究 本文约2000字,建议阅读5分钟. 本文为你介绍数据与分析领域的十大技术趋势. [ 导读 ]近日,Gartner发布了数据与分析领域的十大技术趋势,为数据和分析领导者的新冠疫情(C ...

  9. 数据与分析领域的十大技术趋势

    来源:人工智能与大数据 近日,Gartner发布了数据与分析领域的十大技术趋势,为数据和分析领导者的新冠疫情(COVID-19)响应和恢复工作提供指导,并为疫情后的重启做好准备. 数据和分析领导者如果 ...

最新文章

  1. convert.todatetime指定日期格式_SQL基础知识V2——常用日期函数
  2. 用几何语言表示线段ab的中点c,做完这30道精选题,你的几何图形绝对满分!
  3. MyCat分布式数据库集群架构工作笔记0011---高可用_主从读写分离配置
  4. 特洛伊木马与计算机病毒有什么区别,特洛伊木马Vs病毒Vs蠕虫, 有什么区别?...
  5. Matlab实现图像灰度化算法
  6. 网站建设及上线的详细步骤(原创)
  7. axis2 webservice客户端最少jar
  8. Generalizing Surrogate-Assisted Evolutionary Computation
  9. 使用Manjaro作为OpenStreetMap瓦片服务器
  10. 东华大学(C++)OJ题目收集(代码详解版)
  11. Iphone解锁步骤
  12. 为什么需要 Mini-batch 梯度下降,及 TensorFlow 应用举例
  13. Load Balancer as a Service (LBaaS V2.0)
  14. 水体微生物多样性分析
  15. vue+ElementUI的树形菜单背景颜色修改
  16. java1.7 apk 签名_【keytool jarsigner工具的使用】Android 使用JDK1.7的工具 进行APK文件的签名,以及keystore文件的使用...
  17. 基于OpenCV的二维码和条形码识别
  18. 计算机团体及知名科学家,2019年度ACM杰出科学家!拿下华人数学领域最高荣誉的上财陆品燕教授,又拿奖啦!...
  19. C#之:线程同步 Monitor类
  20. 桥牌坐庄训练bm2000 level3闯关记录——A3

热门文章

  1. caffe 初学参考链接
  2. 使用Def文件导出dll
  3. 使用Qt正则表达式提取全路径的文件名
  4. matlab中求三维中的多个体积,用matlab计算由下面2个几何体围成的体积: x^2+y^2+z^2=36,((x-4)/5)^2+((y-1)/3)^2+((z-2)/5)^2=1...
  5. 通用无线设备对码软件_珞光全新发布国产通用软件无线电平台 :USRP-LW N310!珞光品牌已实现国产替代...
  6. opencv及相机相关6
  7. PM2管理工具的使用
  8. 转载爱哥自定义View系列--Paint详解
  9. MAC终端安装grunt--javascript世界得构建工具
  10. 对lua协程的一点理解