参考博客: https://www.cnblogs.com/weiyinfu/p/8016405.html#32

常用数据集

一、Cifar数据集

  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类

Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。

每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html

二、Mnist数据集

NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。

  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)

Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。

http://yann.lecun.com/exdb/mnist/index.html

三、ImageNet数据集

1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。

ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:

  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification

历年比赛都有重大成果:

  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)

四、牛津花卉数据集

Oxford flower dataset

  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的

Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。

五、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/

六、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

七、OPEN Image

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset

八、Youtube-8M

Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/

九、Iris鸢尾花数据集

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347

十、Adult数据集

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977

十一、Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319

十二、Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901

十三、著名的UCI

http://archive.ics.uci.edu/ml/index.php

加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等.

十四、音乐相关数据集

  • Piano-midi.de: classical piano pieces (http://www.piano-midi.de/)
  • Nottingham : over 1000 folk tunes (http://abc.sourceforge.net/NMD/)
  • MuseData: electronic library of classical music scores (http://musedata.stanford.edu/)
  • JSB Chorales: set of four-part harmonized chorales (http://www.jsbchorales.net/index.shtml)
  • FMA: A Dataset For Music Analysis (https://github.com/mdeff/fma)

十五、其它图像相关数据集

  • Caltech 101: pictures of objects belonging to 101 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
  • Caltech 256: pictures of objects belonging to 256 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech256/)
  • Caltech Silhouettes: 28×28 binary images contains silhouettes of the Caltech 101 dataset
  • STL-10 dataset is an image recognition dataset for developing unsupervised feature learning, deep learning, self-taught learning algorithms. It is inspired by the CIFAR-10 dataset but with some modifications. http://www.stanford.edu/~acoates//stl10/
  • The Street View House Numbers (SVHN) Dataset – http://ufldl.stanford.edu/housenumbers/
  • NORB: binocular images of toy figurines under various illumination and pose (http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
  • Imagenet: image database organized according to the WordNethierarchy (http://www.image-net.org/)
  • Pascal VOC: various object recognition challenges (http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
  • Labelme: A large dataset of annotated images, http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • COIL 20: different objects imaged at every angle in a 360 rotation(http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
  • COIL100: different objects imaged at every angle in a 360 rotation (http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)

十六、人造数据集

  • Arcade Universe – An artificial dataset generator with images containing arcade games sprites such as tetris pentomino/tetromino objects. This generator is based on the O. Breleux’s bugland dataset generator.
  • A collection of datasets inspired by the ideas from BabyAISchool:
  • BabyAIShapesDatasets : distinguishing between 3 simple shapes
  • BabyAIImageAndQuestionDatasets : a question-image-answer dataset
  • Datasets generated for the purpose of an empirical evaluation of deep architectures (DeepVsShallowComparisonICML2007):
  • MnistVariations : introducing controlled variations in MNIST
  • RectanglesData : discriminating between wide and tall rectangles
  • ConvexNonConvex : discriminating between convex and nonconvex shapes
  • BackgroundCorrelation : controlling the degree of correlation in noisy MNIST backgrounds

十七、人脸数据集

  • Labelled Faces in the Wild: 13,000 images of faces collected from the web, labelled with the name of the person pictured (http://vis-www.cs.umass.edu/lfw/)
  • Toronto Face Dataset
  • Olivetti: a few images of several different people (http://www.cs.nyu.edu/~roweis/data.html)
  • Multi-Pie: The CMU Multi-PIE Face Database (http://www.multipie.org/)
  • Face-in-Action (http://www.flintbox.com/public/project/5486/)
  • JACFEE: Japanese and Caucasian Facial Expressions of Emotion (http://www.humintell.com/jacfee/)
  • FERET: The Facial Recognition Technology Database (http://www.itl.nist.gov/iad/humanid/feret/feret_master.html)
  • mmifacedb: MMI Facial Expression Database (http://www.mmifacedb.com/)
  • IndianFaceDatabase: http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/)
  • (e.g. The Yale Face Database (http://vision.ucsd.edu/content/yale-face-database) and The Yale Face Database B (http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html)).

十八、文本数据集

  • 20 newsgroups: classification task, mapping word occurences to newsgroup ID (http://qwone.com/~jason/20Newsgroups/)
  • Reuters (RCV*) Corpuses: text/topic prediction (http://about.reuters.com/researchandstandards/corpus/)
  • Penn Treebank : used for next word prediction or next character prediction (http://www.cis.upenn.edu/~treebank/)
  • Broadcast News: large text dataset, classically used for next word prediction (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44)
  • Wikipedia Dataset
  • Multidomain sentiment analysis dataset: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • ## 十九、语音数据集
  • TIMIT Speech Corpus: phoneme classification (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1)
  • Aurora : Timit with noise and additional information

二十、推荐系统数据集

  • MovieLens: Two datasets available from http://www.grouplens.org. The first dataset has 100,000 ratings for 1682 movies by 943 users, subdivided into five disjoint subsets. The second dataset has about 1 million ratings for 3900 movies by 6040 users.
  • Jester: This dataset contains 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users.
  • Netflix Prize: Netflix released an anonymised version of their movie rating dataset; it consists of 100 million ratings, done by 480,000 users who have rated between 1 and all of the 17,770 movies.
  • Book-Crossing dataset: This dataset is from the Book-Crossing community, and contains 278,858 users providing 1,149,780 ratings about 271,379 books.

二十一、其它数据集

  • “Musk” dataset
  • CMU Motion Capture Database: (http://mocap.cs.cmu.edu/)
  • Brodatz dataset: texture modeling (http://www.ux.uis.no/~tranden/brodatz.html)
  • Million Song dataset: http://labrosa.ee.columbia.edu/millionsong/
  • Merck Molecular Activity Challenge – http://www.kaggle.com/c/MerckActivity/data

二十二、推荐系统常用数据集(二)

  • 推荐系统常用的:
  • 1)MovieLens
  • MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
  • 2)EachMovie
  • HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
  • 3)BookCrossing
  • 这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
  • 4)Jester Joke
  • Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
  • 5)Netflix
  • 这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
  • 6)Usenet Newsgroups
  • 这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
  • 7)UCI知识库
  • UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。
  • 8) http://snap.stanford.edu/na09/resources.html
  • 9) http://archive.ics.uci.edu/ml/
  • 10) http://www.ituring.com.cn/article/details/1188
  • 转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html

二十三、公开人脸数据集

本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。

人脸识别

数据库 描述 用途 获取方法
WebFace 10k+人,约500K张图片 非限制场景 链接
FaceScrub 530人,约100k张图片 非限制场景 链接
YouTube Face 1,595个人 3,425段视频 非限制场景、视频 链接
LFW 5k+人脸,超过10K张图片 标准的人脸识别数据集 链接
MultiPIE 337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像 限制场景人脸识别 链接 需购买
MegaFace 690k不同的人的1000k人脸图像 新的人脸识别评测集合 链接
IJB-A   人脸识别,人脸检测 链接
CAS-PEAL 1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化 限制场景下人脸识别 链接
Pubfig 200个人的58k+人脸图像 非限制场景下的人脸识别 链接

wyfAbout

常用数据集

一、Cifar数据集

  • Hinton参与收集
  • 彩色图像(RGB)
  • 图像尺寸相同
  • 分为两种:Cifar10和Cifar100
  • 用于图片分类

Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。

每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html

二、Mnist数据集

NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。

  • Yan Lecun 1988年整理收集
  • 二值图像
  • 图像尺寸相同(28*28)

Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。

http://yann.lecun.com/exdb/mnist/index.html

三、ImageNet数据集

1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。

ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:

  • 物体检测 Object Detection
  • 物体定位 Object Localization
  • 视频中的物体检测
  • 场景分类 Scene Classification

历年比赛都有重大成果:

  • 2012年,AlexNet(巨大、复杂)
  • 2014年,VGG和GoogleNet(节省空间)
  • 2015年,ResNet(孙剑、何凯明提出残差网络)

四、牛津花卉数据集

Oxford flower dataset

  • 图片尺寸不一,图片来源于网络
  • 有两种数据集:17类的和102类的

Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。

五、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/

六、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

七、OPEN Image

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset

八、Youtube-8M

Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/

九、Iris鸢尾花数据集

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347

十、Adult数据集

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977

十一、Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319

十二、Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901

十三、著名的UCI

http://archive.ics.uci.edu/ml/index.php

加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等。

十四、音乐相关数据集

  • Piano-midi.de: classical piano pieces (http://www.piano-midi.de/)
  • Nottingham : over 1000 folk tunes (http://abc.sourceforge.net/NMD/)
  • MuseData: electronic library of classical music scores (http://musedata.stanford.edu/)
  • JSB Chorales: set of four-part harmonized chorales (http://www.jsbchorales.net/index.shtml)
  • FMA: A Dataset For Music Analysis (https://github.com/mdeff/fma)

十五、其它图像相关数据集

  • Caltech 101: pictures of objects belonging to 101 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
  • Caltech 256: pictures of objects belonging to 256 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech256/)
  • Caltech Silhouettes: 28×28 binary images contains silhouettes of the Caltech 101 dataset
  • STL-10 dataset is an image recognition dataset for developing unsupervised feature learning, deep learning, self-taught learning algorithms. It is inspired by the CIFAR-10 dataset but with some modifications. http://www.stanford.edu/~acoates//stl10/
  • The Street View House Numbers (SVHN) Dataset – http://ufldl.stanford.edu/housenumbers/
  • NORB: binocular images of toy figurines under various illumination and pose (http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
  • Imagenet: image database organized according to the WordNethierarchy (http://www.image-net.org/)
  • Pascal VOC: various object recognition challenges (http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
  • Labelme: A large dataset of annotated images, http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  • COIL 20: different objects imaged at every angle in a 360 rotation(http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
  • COIL100: different objects imaged at every angle in a 360 rotation (http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)

十六、人造数据集

人脸检测

数据库 描述 用途 获取方法
FDDB 2845张图片中的5171张脸 标准人脸检测评测集 链接
IJB-A   人脸识别,人脸检测 链接
Caltech10k Web Faces 10k+人脸,提供双眼和嘴巴的坐标位置 人脸点检测 链接

人脸表情

数据库 描述 用途 获取方法
CK+ 137个人的不同人脸表情视频帧 正面人脸表情识别 链接

人脸年龄

数据库 描述 用途 获取方法
IMDB-WIKI 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 名人年龄、性别 链接
Adience 包含2k+个人的26k+张人脸图像 人脸性别,人脸年龄段(8组) 链接
CACD2000 2k名人160k张人脸图片 人脸年龄 链接

人脸性别

数据库 描述 用途 获取方法
IMDB-WIKI 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 名人年龄、性别 链接
Adience 包含2k+个人的26k+张人脸图像 人脸性别,人脸年龄段(8组) 链接

人脸关键点检测

数据库 描述 用途 获取方法
数据库 描述 用途 获取方法

人脸其它

数据库 描述 用途 获取方法
CeleBrayA 200k张人脸图像40多种人脸属性 人脸属性识别 获取方法

GitHub:DeepFace

二十四、ORL数据集

http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

AT&T(American Telephone & Telegraph,美国电话电报公司),是一家美国电信公司,美国第二大移动运营商。美国电话电报公司有8个主要部门 :贝尔实验室、商业市场集团、数据系统公司 、通用市场集团 、网络运营集团、网络系统集团、技术系统集团、公司国际集团.

二十五、其它数据集

二十六、数据挖掘常用数据集

常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\MLRepository.htm

statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

参考资料

http://www.52ml.net/20458.html
http://blog.csdn.net/prettywhitewolf_xiao/article/details/7265468
http://www.jianshu.com/p/be23b3870d2e
http://deeplearning.net/demos/
http://deeplearning.net/datasets/
https://www.cnblogs.com/alexanderkun/p/4197796.html 这篇博客很全
http://blog.csdn.net/chenriwei2/article/details/50631212

标识别,人脸识别等常用数据集相关推荐

  1. 人脸识别_云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案

    云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案 人脸识别闸机-人脸识别闸机解决方案 软硬一体的人脸识别闸机解决方案,提升人员系统化管理的安全性与便捷性 方案构成 针对人员出入的闸机及门禁场 ...

  2. 人脸反光识别和读数识别_云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案...

    云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案 人脸识别闸机-人脸识别闸机解决方案 软硬一体的人脸识别闸机解决方案,提升人员系统化管理的安全性与便捷性 方案构成 针对人员出入的闸机及门禁场 ...

  3. OCR识别+人脸识别

    阿里云和百度云识别,京东智能识别.  图片识别需求 1,拿到一个文件,2,变成InputStream  3,base64编码将流解析下载,  4 调用方法识别 1.身份证 2,行驶证 3,驾驶证 Fi ...

  4. Java软件研发工程师转行之深度学习(Deep Learning)进阶:手写数字识别+人脸识别+图像中物体分类+视频分类+图像与文字特征+猫狗分类

    本文适合于对机器学习和数据挖掘有所了解,想深入研究深度学习的读者 1.对概率基本概率有所了解 2.具有微积分和线性代数的基本知识 3.有一定的编程基础(Python) Java软件研发工程师转行之深度 ...

  5. 基于PCA 人脸识别/人脸识别算法/人脸检测程序源码MATLAB ELM+PCA人脸识别 PCA人脸识别matlab代码 基于PCA算法的人脸识别

    1.基于PCA的人脸识别代码 2.MATLAB ELM+PCA人脸识别 2.基于PCA的人脸识别(matlab)(采用PCA算法进行人脸识别,通过抽取人脸的主要成 分,构成特征脸空间,识别时将测试图像 ...

  6. 初识人脸识别---人脸识别研究报告(概述篇)

    不知道自己喜欢做什么,这对于一个可能打算成为程序员的程序员来说,可能是悲哀的.--------写在之前 经过有一段时间的思考,觉得自己有必要对那些几年来特别火的词语重新做个了解,人工智能,大数据,云计 ...

  7. 身份证识别+人脸识别---“人证合一”查验系统

    我们开发的可读取二代身份证.电子护照等多种证件芯片的安全通关道闸,即"人证合一"查验系统,已广泛应用于新疆地区民航.铁路.公路客运.公安检查站.移动警务卡点等,为地区公共安全和人民 ...

  8. 人脸定位原来这么简单,小白也能上手人脸识别——人脸识别概述

    人脸识别的工作原理是什么? 人脸识别在我们身边已经有非常多的应用场景了,以下是几个典型的应用场景 如银行服务大厅的一体机,可以做活体检测.标题 移动支付可以用刷脸支付 手持身份证照片的识别

  9. Qt +opencv 通过级联分类器训练的模型进行识别(车辆识别+人脸识别)

    有不对的或更好的方法欢迎交流 一些内容可参照这篇文章:https://blog.csdn.net/m0_64596200/article/details/126748697?spm=1001.2014 ...

最新文章

  1. 前端技术分享:Nginx负载均衡视频,基础的实战应用
  2. python爬虫常见反爬措施_爬虫常见的反爬措施有哪些
  3. 在 Windows下使用 fastText
  4. linux装完系统需要输入密码,在安装Linux系统的过程中,一定要设置root用户的密码 (5.0分)...
  5. BTA分论坛现场直击|区块链+时下新科技,你了解多少?
  6. 给你一个网站你是如何来渗透测试的?
  7. 声学模型训练-LDA算法
  8. angr符号执行用例解析——CSCI-4968-MBE
  9. java 解析3层xml_java实战之解析xml
  10. 台灯照度均匀度多少最好?2022最新护眼灯照度标准值
  11. 20190313(已解决)对于jsp界面与action界面关系的说明_yingruiyuelin_新浪博客
  12. C#实例练习3:程序流程控制(2)
  13. 基于PHP网上购物商城系统设计与实现 开题报告
  14. 安卓导入自定义下载矢量图标
  15. Linux系统:基础IO
  16. 编程:5 位评委对参赛选手进行打分,将所有的打分结果存储在对应类型的数组中,将所有评分结果 去除一个最低分,去除一个最高分,然后获取剩余 3 位评委的平均分数为选手的最终得分。设计程序, 用键盘输入
  17. Amazon EC2之初体验(二)
  18. 【论文阅读】CVPR 2020:GaitPart: Temporal Part-based Model for Gait Recognition
  19. 计算机职业规划书word格式,计算机专业职业生涯规划书.doc
  20. 编译64位linux内核,为树莓派4编译64位的内核

热门文章

  1. 2020年郑州大学计算机录取分数线,郑州大学2020年录取分数线公布,河南本科录取分数线最高,上郑大最难...
  2. IDEA插件系列(92):Rainbow Fart插件——吹彩虹屁
  3. ansys添加力矩_ansys施加力矩方法
  4. 前端基本功---JS数据类型知多少
  5. Bootstrap下拉菜单
  6. 上海市大数据技术与应用创新中心成立
  7. 有赞,我们来谈谈尊重和感恩员工
  8. 元胞自动机 C实现 + OpenCV界面
  9. MySQL -- 插入56个民族
  10. 老电脑安装XP时遇到问题的总结