数据集大全

  • 数据集大全
    • 介绍
    • 目前接触到的数据集
      • 1. [MNIST](http://yann.lecun.com/exdb/mnist/)
      • 2. [CIFAR-10 / CIFAR-100](http://www.cs.toronto.edu/~kriz/cifar.html)
      • 3. [ImageNet](http://www.image-net.org/)
      • 4. [COCO](https://cocodataset.org/#home)
      • 5. [PASCAL VOC](https://pjreddie.com/projects/pascal-voc-dataset-mirror/)
      • 6. [Caltech101](http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
      • 7. [LFW](http://vis-www.cs.umass.edu/lfw/)
      • 8. [fashion-mnist](https://www.kaggle.com/zalando-research/fashionmnist)
      • 9. [DIV2K](https://data.vision.ee.ethz.ch/cvl/DIV2K/)
      • 10. [Set5]()
      • 收藏其他类数据集:

数据集大全

介绍

深度学习的关键是训练。无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法。

但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能,数据就成为一个问题。

在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型。

如何使用这些数据集?

首先要做的事——下载这些数据集,这些数据集的规模很大!所以请确保你有一个快速的互联网连接。

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

让我们开始我们的数据集之旅吧!

目前接触到的数据集

1. MNIST

MNIST数据集(Mixed National Institute of Standards and Technology database)是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集.

你可以在 Yann LeCun的官网下载这套数据集,共四个文件包:

每张图片包含一个手写数字。

数据集包含6万张图片用于训练,1万张用于测试验证。

图像数据格式和图向量

每张图片表达了[0,9]这是10个数字中的一个,有28X28=784个像素,每个像素根据灰度取整数值[0,255];把每张图片看作具有784个特征的图向量,问题就变成:根据D个特征维度,对图像做K分类的问题,这里D=784,K=10。

各个数字的数据量如下:

MNIST文件格式
图片images文件,前16个字节,是文件格式和图片数量、规格的描述;图片的像素信息从第17个字节开始。

[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number 0004 32 bit integer 60000 number of images 0008 32 bit integer 28 number of rows 0012 32 bit integer 28 number of columns 0016 unsigned byte 0 pixel 0017 unsigned byte 0 pixel … xxxx unsigned byte ?? pixel

同样,标签labels文件里,前8个字节,是文件格式和标签数量的描述;而表述正确分类的标签信息,从第9个字节开始。

[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number 0004 32 bit integer 60000 number of items 0008 unsigned byte 7 label 0009 unsigned byte 2 label … xxxx unsigned byte ?? label

理解了文件格式,就可以很容易地读取MNIST数据。

Ref:

  1. MNIST数据集
  2. 从0到1:神经网络实现图像识别(数据集)

2. CIFAR-10 / CIFAR-100

CIFAR-10 数据集由 10 个类的 60000 个 32x32 彩色图像组成,每个类有 6000 个图像。有 50000 个训练图像和 10000 个测试图像。

数据集分为 5 个训练批次和 1 个测试批次,每个批次有 10000 个图像。测试批次包含来自每个类别的恰好 1000 个随机选择的图像。训练批次以随机顺序包含剩余图像,但由于一些批次可能包含来自一个类别的图像比另一个更多,因此总体来说,5 个训练集之和包含来自每个类的正好 5000 张图像。


这 10 类都是彼此独立的,不会相互重叠,因此是多分类单标签问题。

3. ImageNet

miniImageNet和omniglot数据集在元学习和小样本学习领域应用广泛,但是网络上鲜有对miniImageNet数据集的介绍,因此在这里我对这个数据集做了一个简要的介绍。

ImageNet简介
miniImageNet数据集节选自ImageNet数据集。ImageNet是一个非常有名的大型视觉数据集,它的建立旨在促进视觉识别研究。训练ImageNet数据集需要消耗大量的计算资源。ImageNet为超过1400万张图像进行了注释,而且给至少100万张图像提供了边框。

ImageNet包含2万多个类别,比如:“气球”、“轮胎”和“狗”等类别,ImageNet的每个类别均有不少于500张图像。

训练这么多图像需要消耗大量的资源,因此在2016年google DeepMind团队Oriol Vinyals等人在ImageNet的基础上提取出了miniImageNet数据集。

来源
DeepMind团队首次将miniImageNet数据集用于小样本学习研究,从此miniImageNet成为了元学习和小样本领域的基准数据集。

DeepMind的那篇小样本学习的论文就是大名鼎鼎的Matching Network的来源: Matching Networks for One Shot Learning 。

miniImageNet包含100类共60000张彩色图片,其中每类有600个样本,每张图片的规格为84×84。通常而言,这个数据集的训练集和测试集的类别划分为:80:20。相比于CIFAR10数据集,miniImageNet数据集更加复杂,但更适合进行原型设计和实验研究。

数据集架构
mini-imagenet一共有2.86GB,文件架构如下:

数据集中图片示例:

Ref

  1. miniImageNet数据集介绍

4. COCO

5. PASCAL VOC

VOC:visual object classes

此数据集可以用于图像分类、目标检测、图像分割。

该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中,这是一个监督学习的问题,训练集以带标签的图片的形式给出。这些物体包括20类:

Ref

  1. 计算机视觉标准数据集整理—PASCAL VOC数据集
  2. 目标检测数据集PASCAL VOC简介

6. Caltech101

7. LFW

8. fashion-mnist

该数据集是 MNIST 数据集的一个替代品,因为 MNIST 手写数据过于简单,很多时候体现不出深度神经网络与传统机器学习算法之间的差距,所以才出现 fashion-mnist 数据集。

fashion-mnist 数据集也称潮流数据集,涵盖了来自 10 种类别的共 7 万个不同商品的正面图片,其中有T恤、卫衣、长裙、裤子、鞋子等各种物品,该数据集中的图像都是 28x28 的灰度图像,这些图像分别对应着 10 个类别标签,整个数据集被分为 6 万个训练数据与 1 万个测试数据。可以看出,除了数据内容不同,其他都与 MNIST 数据集相同,简单来讲,可以用于处理 MNIST 数据集的代码,通常也可以直接用在 fashion-mnist 数据集上。

下载地址:https://github.com/zalandoresearch/fashion-mnist

9. DIV2K

10. Set5

一个公开整理的 Set5 数据集的模型性能:Image Super-Resolution on Set5 - 4x upscaling

另一篇文章:Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding

收藏其他类数据集:

数据集大全:25个深度学习的开放数据


深度学习常用数据集介绍相关推荐

  1. 深度学习常用数据集介绍与下载(附网盘链接)

    摘要 这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类.目标检测及人脸识别任务,对每个数据集给出了简要介绍.官网下载网站以及公众号获取的关键字.因为有的数据集较大,官网的下载速度可能比较慢 ...

  2. camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)

    深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...

  3. 深度学习常用数据集资源(计算机视觉领域)

    目录 1.MNIST 2.ImageNet 4.COCO 5.PASCAL VOC 6.FDDB 1.MNIST 深度学习领域的入门数据集,当前主流的深度学习框架几乎都将MNIST数据集的处理入门第一 ...

  4. 【深度学习】深度学习常用数据集

    常用数据集 Iris数据集(鸢尾花数据集) MushRoom数据集(蘑菇数据集) Bostom Housing数据集(波士顿房价数据集) Linnerrud 数据集 MINST数据集 Caltech1 ...

  5. 深度学习常用数据集下载链接

    多类型公开数据集 含有以下数据集 一.Cifar数据集 二.Mnist数据集 三.ImageNet数据集 四.牛津花卉数据集 五.COCO数据集 六.PASCAL VOC 七.OPEN Image 八 ...

  6. [深度学习] 分布式Horovod介绍(四)

    [深度学习] 分布式模式介绍(一) [深度学习] 分布式Tensorflow介绍(二) [深度学习] 分布式Pytorch 1.0介绍(三) [深度学习] 分布式Horovod介绍(四) 实际应用中, ...

  7. [深度学习] 分布式Pytorch介绍(三)

    [深度学习] 分布式模式介绍(一) [深度学习] 分布式Tensorflow介绍(二) [深度学习] 分布式Pytorch介绍(三) [深度学习] 分布式Horovod介绍(四)  一  Pytorc ...

  8. 25个深度学习开源数据集

    简介 学习深度学习最重要的就是数据集啦.小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看 ...

  9. 图像处理 语音识别 深度学习 开放数据集

    从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集 本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍 深度学习(或生活中大部分领域)的关 ...

最新文章

  1. K3ERP连接数据库问题
  2. 各大品牌液晶显示器工程模式
  3. retinaface训练笔记
  4. Python入门学习笔记03(装饰器)
  5. 轻松搭建Google ADK开发环境
  6. shell脚本启动kafka集群的多台节点
  7. 用最科学的方法展示最形象的图表——前段数据可视化选型实践
  8. 1流式细胞术荧光比值计算_流式细胞术技巧攻略!
  9. linux环境下创建postgis数据库,Linux下安装Postgis数据库
  10. C#调用java类、jar包方法
  11. Ipopt安装【Ubuntu18.04】XAVIER(ARM架构)
  12. 机器人对话常用语模板_电话机器人的销售能力
  13. 计算机音乐谱魔法城堡,《魔法城堡》简谱 TFBOYS 乐谱 - 新芭网
  14. 使用APP inventor制作蓝牙串口助手【智能浇灌模型中用到】
  15. 关于数据安全中一些概念的学习——容灾备份
  16. P2339 [USACO04OPEN]Turning in Homework G 笔记/题解
  17. bat的errorlevel || bat判断语句是否执行成功
  18. 【AI视野·今日CV 计算机视觉论文速览 第151期】Tue, 6 Aug 2019
  19. NextCloud前端支持播放mov文件
  20. axis=0与axis=1

热门文章

  1. Django框架(上传Excel文件并读取)
  2. eclipse中启动tomcat,不能访问localhost解决办法
  3. bzoj 36733674: 可持久化并查集 by zky
  4. java复制图片实现方法
  5. JIRA 6.3.6版本部署
  6. 文字或者图片连续滚动
  7. UA OPTI501 电磁波3 SI单位制与电磁学常用单位
  8. UA MATH564 概率论 多元随机变量的变换 理论与应用1
  9. UA MATH564 概率论IV 次序统计量例题1
  10. UA MATH575B 数值分析下VI 统计物理的随机模拟方法1