机器学习领域有一句经典格言，“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”。但是，从哪里获得数据呢？

计算机视觉

下面介绍一系列公开可用的计算机视觉领域高质量数据集。

一、字符数据集

MNIST数据集

机器学习领域内用于手写字识别的数据集，数据集中包含6个万训练集、10000个示例测试集。，每个样本图像的宽高为28*28。这些数据集的大小已经归一化，并且形成固定大小，因此预处理工作基本已经完成。在机器学习中，主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

SVHN数据集

SVHN数据来源于 Google 街景视图中房屋信息，它是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它跟MNIST相似，但是包含更多数量级的标签数据(超过60万个数字图像)，并且来源更加多样，用来识别自然场景图像中的数字。

二、物体数据集

CIFAR 10 & CIFAR 100数据集

CIFAR-10数据集由10个类别的60000 32x32彩色图像组成，每个类别有6000张图像。有50000个训练图像和10000个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别，可用于计算机视觉相关方向。

谷歌Open Images图像数据集

其中包括大约9百万标注图片、横跨6000个类别标签，平均每个图像拥有8个标签。该数据集的标签涵盖比拥有1000个类别标签的ImageNet具体更多的现实实体，可用于计算机视觉方向的训练。

ImageNet数据集

ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域，该数据集有1000多个图像，涵盖图像分类、定位、检测等应用方向。Imagenet数据集文档详细，有专门的团队维护，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛，包括百度、谷歌、微软等。

Tiny Images数据集

该数据集由79302017张图像组成，每张图像为32x32彩色图像。该数据以二进制文件的形式存储，大约有400Gb图像。

CoPhIR数据集

CoPhIR是从Flickr中采集的大概1.06亿个图像数据集，图像中不仅包含了图表本身的数据，例如位置、标题、GPS、标签、评论等，还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

LSUN数据集

PASCAL VOC和ImageNet ILSVRC比赛使用的数据集，数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，由微软赞助，图像中不仅有标注类别、位置信息，还有对图像的语义文本描述。COCO数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

三、人脸数据集

AFW(Annotated Faces in the Wild)数据集

AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库，包含205个图像，其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框，6个地标和相关的姿势角度。数据库虽然不大，额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。

LFW(Labeled Faces in the Wild)数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字，图片中的1680人在数据集中有两个或更多不同的照片。

AFLW(Annotated Facial Landmarks in the Wild)数据集

AFLW人脸数据库是一个包括多姿态、多视角的大规模人脸数据库，而且每个人脸都被标注了21个特征点。此数据库信息量非常大，包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片，其中59%为女性，41%为男性，大部分的图片都是彩色，只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸检测、人脸对齐等方面的研究，具有很高的研究价值。

FDDB(Face Detection Data Set and Benchmark)数据集

FDDB数据集主要用于约束人脸检测研究，该数据集选取野外环境中拍摄的2845个图像，从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。

WIDER FACE数据集

WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集，由YangShuo， Luo Ping ，Loy ，Chen Change ，Tang Xiaoou收集。它包含32203个图像和393703个人脸图像，在尺度，姿势，闭塞，表达，装扮，关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的，对于每一个事件类别，选取其中的40%作为训练集，10%用于交叉验证(cross validation)，50%作为测试集。和PASCAL VOC数据集一样，该数据集也采用相同的指标。和MALF和Caltech数据集一样，对于测试图像并没有提供相应的背景边界框。

CMU-MIT数据集

CMU-MIT是由卡内基梅隆大学和麻省理工学院一起收集的数据集，所有图片都是黑白的gif格式。里面包含511个闭合的人脸图像，其中130个是正面的人脸图像。

GENKI数据集

GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像，GENKI-4K包含4000个图像，分为“笑”和“不笑”两种，每个图片的人脸的尺度大小，姿势，光照变化，头的转动等都不一样，专门用于做笑脸识别。GENKI-SZSL包含3500个图像，这些图像包括广泛的背景，光照条件，地理位置，个人身份和种族等。

IJB-A (IARPA JanusBenchmark A)数据集

IJB-A是一个用于人脸检测和识别的数据库，包含24327个图像和49759个人脸。

MALF (Multi-Attribute Labelled Faces)数据集

MALF是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet，包含5250个图像，11931个人脸。每一幅图像包含正方形边界框，俯仰、蜷缩等姿势等。该数据集忽略了小于20*20的人脸，大约838个人脸，占该数据集的7%。同时，该数据集还提供了性别，是否带眼镜，是否遮挡，是否是夸张的表情等信息。

MegaFace数据集

MegaFace资料集包含一百万张图片，代表690000个独特的人。所有数据都是华盛顿大学从Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度，华盛顿大学在去年年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时，现有的脸部识别系统能否维持可靠的准确率。

IMM Data数据集

IMM人脸数据库包括了240张人脸图片和240个asf格式文件(可以用UltraEdit打开，记录了58个点的地标)，共40个人(7女33男)，每人6张人脸图片，每张人脸图片被标记了58个特征点。所有人都未戴眼镜。

MUCT Data数据集

MUCT人脸数据库由3755个人脸图像组成，每个人脸图像有76个点的地标(landmark)，图片为jpg格式，地标文件包含csv,rda,shape三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。

ORL (AT&T Dataset)数据集

ORL数据集是剑桥大学AT&T实验室收集的一个人脸数据集。包含了从1992.4到1994.4该实验室的成员。该数据集中图像分为40个不同的主题，每个主题包含10幅图像。对于其中的某些主题，图像是在不同的时间拍摄的。在关照，面部表情(张开眼睛，闭合眼睛，笑，非笑)，面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景，并且从正面向上方向拍摄。其中图片都是PGM格式，图像大小为92*102，包含256个灰色通道。

四、车辆数据集

KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)数据集

KITTI包含7481个训练图片和7518个测试图片。所有图片都是真彩色png格式。该数据集中标注了车辆的类型，是否截断，遮挡情况，角度值，2维和3维box框，位置，旋转角度，分数等重要的信息，绝对是做车载导航的不可多得的数据集。

五、行人检测数据集

INRIA Person数据集

Inria数据集是最常使用的行人检测数据集。其中正样本(行人)为png格式，负样本为jpg格式。里面的图片分为只有车，只有人，有车有人，无车无人四个类别。图片像素为70134，96160，64*128等。

CaltechPedestrian Detection Benchmark数据集

加州理工学院的步行数据集包含大约包含10个小时640x480 30Hz的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约250000帧(在137个约分钟的长段)，共有350000个边界框和2300个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其PAMI 2012 CVPR 2009标杆的论文获得。

MIT cbcl (center for biological and computational learning)Pedestrian Data 数据集

该数据集主要包含2个部分，一部分为128*64的包含924个图片的ppm格式的图片，另一部分为从打图中分别切割而出的小图，主要包含胳膊，脑袋，脚，腿，头肩，身体等。

keras自带的小型图像数据集

(1)CIFAR10

from keras.datasets import cifar10(x_train, y_train), (x_test, y_test) = cifar10.load_data()

x_train, x_test: 参数规格分别为(50000, 3, 32, 32)和(10000, 3, 32, 32)

y_train, y_test: 标签取值范围 (0-9)，shape (50000)和(10000)

(2)CIFAR100

from keras.datasets import cifar100(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

x_train, x_test: 参数规格分别为(50000, 3, 32, 32)和(10000, 3, 32, 32)

y_train, y_test: 标签取值范围 (0-99)，shape (50000)和(10000)

(3)手写数字MNIST数据集

from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train, x_test: 参数规格分别为(60000, 28, 28)和(10000, 28, 28)

y_train, y_test: 标签取值范围 (0-9)，shape (60000)和(10000)

(4)时尚元素MNIST数据库

from keras.datasets import fashion_mnist(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

x_train, x_test: 参数规格分别为(60000, 28, 28)和(10000, 28, 28)

y_train, y_test: 标签取值范围 (0-9)，shape (60000)和(10000)

GAN属于计算机视觉领域嘛_计算机视觉领域必知的开放数据集相关推荐

mysql日期维表sql文件_《MySQL必知必会》笔记（SQL练习+建表语句）
站在巨人的肩上 Standing On Shoulders Of Giants 部分转自:https://www.jianshu.com/p/294502893128 https://blog.csd ...
计算机视觉马尔_计算机视觉概述
计算机视觉(computer vision, 简称CV)伴随着AI的发展越来越被人熟知.在学术界,CVPR,ICCV,TPAMI,IJCV等顶刊顶会受到了越来越多的追棒.在工业界,国内外顶尖的CV企业 ...
计算机视觉python入门_计算机视觉应该怎样入门？
自学了一段时间计算机视觉(Computer Vision),下文简称:CV.内容以基本概念为主,形式以看书为主,跟着敲代码为辅.起因:因工作中会涉及到交通物流风险管理.出险理赔材料审查等内容,会涉及到 ...
计算机视觉英文介绍_计算机视觉介绍
计算机视觉英文介绍什么是计算机视觉? (What is Computer Vision?) Computer Vision can be generally understood using two ...
485通讯的校验和_电气人必知！三菱PLC控制变频器的通讯方法
本文介绍一种非常简便的三菱FX系列PLC通讯方式控制变频器的方法:它只需在PLC主机上安装一块RS-485通讯板或挂接一块RS-485通讯模块:在PLC的面板下嵌入一块造价仅仅数百元的"功能 ...
mysql必知必会看完看什么_《MySQL必知必会》读书笔记
一.了解MySQL 1.什么是数据库? 数据库是一种以某种有组织的方式存储的数据集合. 2.模式(schema):关于数据库和表的布局及特性的信息. 3.列:正确的将数据分解为多个列极为重要.通过把它 ...
如何用mysql创建orders表_《MySQL必知必会》学习笔记
本书所用的表: 68.png 67.png 66.png 65.png 64.png 63.png 第一章:了解SQL 数据库:保存有组织的数据的容器(通常是一个文件或一组文件). 数据库软件:DBM ...
面向数据科学家的实用统计学_数据科学家必知的统计数据
面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...
sql like 通配符_《SQL必知必会》学习笔记
一.检索语句单个列:SELECT xxx(列名) FROM xxx(数据表) 多个列:SELECT x,y,z FROM xxx 所有列:SELECT FROM xxx (通配符 * 表示返回表中所 ...

GAN属于计算机视觉领域嘛_计算机视觉领域必知的开放数据集