数据挖掘公开数据集【汇总】

公开数据集指的是不同的公司、组织公开的用于机器学习、深度学习、人工智能等方向大规模数据集合。以下数据集可用于数据分析、数据挖掘和机器学习等大数据场景下的测试和学习。

按照数据工作的不同应用主题方向，分为音频数据集、图像和视频数据集、自然语音数据集及综合数据集。

1.综合数据集

（1）UCI数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集，大概660多个，其中很多数据集在其他众多数据工具中被反复引用，例如Iris、Wine、Adult、CarEvaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍，可用于分类、回归、聚类、时间序列、推荐系统等工作。

推荐度：★★★，推荐应用方向：监督式、非监督式机器学习，数据挖掘。

介绍和下载地址：http://archive.ics.uci.edu/ml/

（2）Kaggle数据集

Kaggle是一个流行的数据科学竞赛平台，各企业和研究者可在其上发布数据，统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。数据集中覆盖了商业、犯罪、金融、政治、社会、体育等众多领域，除了有丰富的数据集可供使用外，高达100万美元的奖金池也吸引了众多数据参赛者。

推荐度：★★★，推荐应用方向：监督式、非监督式机器学习、深度学习、自然语言理解等。

数据集下载地址：Find Open Datasets and Machine Learning Projects | Kaggle

（3）UCI KDD数据集

UCI KDD（知识发现）是数据挖掘和可视化的研究项目，专注于大型数据收集下载中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分，UCI始于2002年10月。

推荐度：★★，推荐应用方向：监督式、非监督式机器学习。

介绍地址：UCI KDD Archive

下载地址：Index of /databases

（4）雅虎Webscope

雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查，符合雅虎的数据保护标准，包括严格的隐私控制。数据集中包含了广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是：数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。

推荐度：★★★，推荐应用方向：监督式、非监督式机器学习、深度学习、自然语言理解等。

介绍和下载地址：https://webscope.sandbox.yahoo.com

（5）AWS公开数据集

亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据，并且这些数据可直接集成到AWS中进行数据挖掘和学习。

推荐度：★★★，推荐应用方向：监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等。

介绍和下载地址：Registry of Open Data on AWS

（6）斯坦福网络数据集

斯坦福网络分析平台（SNAP）是一种用于分析和操纵大型网络的通用高性能系统，其本身使用的网络相关数据也对外开放，包括设计、社区、通信、网络图、互联网、道路、维基百科网络、在线社区和评论等不同主题，可用于分析大型社会和信息网络方面的研究成果。

推荐度：★★★，推荐应用方向：神经网络。

介绍和下载地址：Stanford Large Network Dataset Collection

（7）KONECT网络数据集

KONECT数据集是一个大型网络数据集的项目，在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT有数百种各种类型的网络数据集，包括有向、无向、二分、加权、未加权、签名和评级的网络。KONECT的网络覆盖了许多不同领域，如社交网络、超链接网络、作者网络、物理网络、交互网络和通信网络等。

推荐度：★★★，推荐应用方向：神经网络。

介绍和下载地址：KONECT | Institute WeST

2.图像和视频数据集

（1）MNIST数据集

机器学习领域内用于手写字识别的数据集，数据集中包含6个万训练集、1万个示例测试集，每个样本图像的宽高为28×28。这些数据集的大小已经归一化，并且形成固定大小，因此预处理工作基本已经完成。在机器学习中，主流的机器学习工具（包括sklearn）很多都使用该数据集作为入门级别的介绍和应用。

推荐度：★★★，推荐应用方向：机器学习入门。

介绍和下载地址：MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges

（2）CIFAR 10 & CIFAR 100数据集

CIFAR-10数据集由10个类别的6万个32×32彩色图像组成，每个类别有6000张图像。有5万个训练图像和1万个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等类别，可用于计算机视觉相关方向。

推荐度：★★★，推荐应用方向：图像处理和图像识别。

介绍和下载地址：CIFAR-10 and CIFAR-100 datasets

（3）谷歌Open Images Dataset图像数据集

其中包括大约900万标注图片、横跨6000个类别标签，平均每个图像有8个标签。该数据集的标签涵盖比拥有1000个类别标签的ImageNet实体更多的现实实体，可用于计算机视觉方向的训练。

推荐度：★★★，推荐应用方向：图像处理和图像识别。

介绍地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

下载地址：GitHub - openimages/dataset: The Open Images dataset

（4）ImageNet数据集

ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域，该数据集有1000多个图像，涵盖图像分类、定位、检测等应用方向。Imagenet数据集文档详细，有专门的团队维护，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛，包括百度、谷歌、微软等。

推荐度：★★★，推荐应用方向：图像识别。

介绍和下载地址：ImageNet

（5）Tiny Images Dataset

该数据集由79302017张图像组成，每张图像为32×32彩色图像。该数据以二进制文件的形式存储，大约有400GB图像。

推荐度：★★，推荐应用方向：图像识别。

介绍和下载地址：http://horatio.cs.nyu.edu/mit/tiny/data/index.html

（6）CoPhIR

CoPhIR是从Flickr中采集的大概1.06亿个图像数据集，图像中不仅包含了图表本身的数据，例如位置、标题、GPS、标签、评论等，还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

推荐度：★★，推荐应用方向：图像识别。

介绍和下载地址：CoPhIR - what is

（7）LSUN数据集

这是国外的PASCAL VOC和ImageNet ILSVRC比赛使用的数据集，数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

推荐度：★★，推荐应用方向：图像识别。

介绍和下载地址：http://lsun.cs.princeton.edu

（8）Labeled Faces in the Wild数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了相应的名字，图片中的1680人在数据集中有两个或更多不同的照片。

推荐度：★★，推荐应用方向：人脸识别。

介绍和下载地址：http://vis-www.cs.umass.edu/lfw/

（9）SVHN

SVHN数据来源于Google街景视图中的房屋信息，它是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它与MNIST相似，但是包含更多数量级的标签数据（超过60万个数字图像），并且来源更加多样，用来识别自然场景图像中的数字。

推荐度：★★，推荐应用方向：机器学习、图像识别。

介绍和下载地址：The Street View House Numbers (SVHN) Dataset

（10）COCO

COCO（Common Objects in Context）是一个新的图像识别、分割和图像语义数据集，由微软赞助，图像中不仅有标注类别、位置信息，还有对图像的语义文本描述。COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

推荐度：★★★，推荐应用方向：图像识别、图像语义理解。

介绍和下载地址：http://mscoco.org

（11）谷歌YouTube-8M

YouTube-8M一个大型的多样性标注的视频数据集，目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类，平均每个视频有3个标签。

推荐度：★★★，推荐应用方向：视频理解、表示学习（representationlearning）、嘈杂数据建模、转移学习（transfer learning）和视频域适配方法（domainadaptation approaches）。

数据集介绍和下载地址：https://research.google.com/youtube8m/

（12）Udacity开源的车辆行驶视频数据集

数据集大概有223G，主要是有关车辆行驶的数据，其中除了拍摄的车辆图像以外，还包括车辆本身的属性和参数信息，例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

推荐度：★★★，推荐应用方向：自动驾驶。

介绍和下载地址：GitHub - udacity/self-driving-car: The Udacity open source self-driving car project

（13）牛津RobotCar视频数据集

RobotCar数据集包含时间范围超过1年，测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

推荐度：★★★，推荐应用方向：自动驾驶。

介绍和下载地址：Oxford RobotCar Dataset

（14）Udacity开源的自然场景短视频数据集

数据集大概有9T，由3500万个视频剪辑组成，每个视频为短视频（32帧），大约1秒左右的时长。

推荐度：★★★，推荐应用方向：目标跟踪、视频目标识别。

介绍和下载地址：http://web.mit.edu/vondrick/tinyvideo/#data

（15）SLAC面向行为识别与定位的视频数据集

该数据集由MIT和FaceBook制作，包含52万个以上的未修剪视频和1.75M剪辑注释，涵盖200个动作类别。使用该框架，注释视频剪辑平均只需8.8秒，与传统的手动剪辑和动作本地化程序相比，标注时间可节省超过95%。

推荐度：★★★，推荐应用方向：行为识别、目标跟踪。

介绍和下载地址：Apache2 Ubuntu Default Page: It works

3.自然语言数据集

（1）搜狗实验室

该数据集是搜狗提供的，基于海量搜索、输入法、浏览器的数据产生，主要包括文本结果评测、预料数据、新闻数据、图片数据和自然语言理解相关数据。这是为数不多的中文自然语言数据集，因此非常可贵。

推荐度：★★★，推荐应用方向：文本挖掘、自然语言理解和分析。

介绍和下载地址：搜狗搜索引擎 - 上网从搜狗开始

（2）腾讯AI Lab开源的NLP数据集

腾讯AI Lab公开的中文词向量数据包含800多万个中文词汇，其中每个词对应一个200维的向量。相比现有的中文词向量数据，腾讯AI Lab的中文词向量的提升重点表现在覆盖率、新鲜度和准确性上。作为国内巨头，腾讯开源的数据集将对中文自然语言处理提供更丰富的数据源。

推荐度：★★★，推荐应用方向：中文文本挖掘、自然语言理解和分析。

介绍地址：https://ai.tencent.com/ailab/nlp/embedding.html

下载地址：https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

（3）MS MARCO

MS MARCO是一种新的大规模阅读理解和问答数据集。在MS MARCO中，所有问题都是从真正的匿名用户查询中抽取的。它使用先进的Bing搜索引擎版本，从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度：★★★，推荐应用方向：自然语言理解、智能问答。

介绍和下载地址：MS MARCO

（4）Question Pairs

它是第一个来源于Quora的包含重复/语义相似性标签的数据集。数据集由超过40万行潜在问题的问答组成。每行数据包含问题ID、问题全文及指示该行是否真正包含重复对的二进制值。

推荐度：★★★，推荐应用方向：自然语言理解、智能问答。

介绍和下载地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

（5）SQuAD

斯坦福问答回答数据集（SQuAD）是一个新的阅读理解数据集，由从维基百科中提炼出的问题组成，每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。

推荐度：★★★，推荐应用方向：文本挖掘、自然语言理解、智能问答。

介绍和下载地址：The Stanford Question Answering Dataset

（6）Maluuba NewsQA

Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取的120K个常见问题。

推荐度：★★，推荐应用方向：文本挖掘、自然语言理解、智能问答。

介绍地址：https://datasets.maluuba.com/NewsQA

下载地址：GitHub - Maluuba/newsqa: Tools for using Maluuba's NewsQA Dataset (public version)

（7）1 Billion Word Language Model Benchmark

这是一个大型、通用的语言建模数据集，该项目的目的是提供语言建模实验的标准培训和测试，常用于如word2vec或Glove的分布式词语表征。

推荐度：★★，推荐应用方向：文本挖掘、自然语言理解。

介绍和下载地址：http://www.statmt.org/lm-benchmark/

（8）Maluuba Datasets

这是一个用于自然语言理解研究的复杂的人工数据集，主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。

推荐度：★★，推荐应用方向：自然语言理解、智能问答。

介绍和下载地址：https://datasets.maluuba.com

（9）Common Crawl

Common Crawl包含了超过7年的网络爬虫数据集，拥有PB级规模，常用于学习词嵌入。

推荐度：★★，推荐应用方向：文本挖掘、自然语言理解。

介绍和下载地址：Want to use our data? – Common Crawl

（10）20 Newsgroups

该数据集包含大约2万个新闻组文档，在20个不同的新闻组中平均分配，是一个文本分类的经典数据集。它是机器学习技术的文本应用中的实验的流行数据集，如文本分类和文本聚类。

推荐度：★★，推荐应用方向：文本挖掘。

介绍和下载地址：Home Page for 20 Newsgroups Data Set

4.音频数据集

（1）大型音乐分析数据集FMA

该数据集是免费音乐存档（FMA）的转储，这是一个高质量的合法音频下载的互动库。数据集中包含歌曲名称、音乐类型、曲目计数等信息，共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度：★★★，推荐应用方向：音乐分析挖掘。

介绍和下载地址：https://lts2.epfl.ch/datasets/fma/

（2）音频数据集AudioSet

AudioSet是谷歌发布的大规模一品数据集，包括632个音频事件类的扩展类目和从YouTube视频绘制的2084320个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图，覆盖广泛的人类和动物声音，各种乐器和风格，以及常见的日常环境声音。

推荐度：★★★，推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人类声音分析挖掘。

介绍和下载地址：GitHub - audioset/ontology: The Audio Set Ontology aims to provide a comprehensive set of categories to describe sound events.

（3）2000 HUB5 English Evaluation Transcripts

该数据集由NIST（国家标准与技术研究院）2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成，其仅包含英语的语音数据集。百度最近的论文《深度语音：扩展端对端语音识别》使用的就是这个数据集。

推荐度：★★★，推荐应用方向：音乐、人声、车辆、乐器、室内等自然和人物声音识别。

介绍和下载地址：2000 HUB5 English Evaluation Transcripts - Linguistic Data Consortium

（4）Mozilla开源语音数据库

该数据集宣称是世界上第二大的公共语音数据库，超过2万人对这个数据集做出了贡献。该数据集主要是英语语料库，有超过40万段录音，相当于500个小时的演讲。

推荐度：★★，推荐应用方向：语音识别。

介绍和下载地址：Common Voice

（5）LibriSpeech

该数据集为包含文本和语音的有声读物数据集，由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物，并经过细致的细分和一致。

推荐度：★★，推荐应用方向：自然语音理解和分析挖掘。

介绍和下载地址：openslr.org

（6）VoxForge

该数据集是带口音的语音清洁数据集，对测试模型在不同重音或语调下的鲁棒性非常有用。

推荐度：★★，推荐应用方向：语音识别。

介绍和下载地址：Free Speech... Recognition (Linux, Windows and Mac) - voxforge.org

（7）TIMIT

这是一份英文语音识别数据集，包含630个扬声器的宽带录音，8个主要方言的美式英语，每个阅读10个语音丰富的句子。TIMIT语料库包括时间对齐的正字法，语音和单词转录以及每个话语的16位、16kHz语音波形文件。

推荐度：★★，推荐应用方向：语音识别。

介绍和下载地址：TIMIT Acoustic-Phonetic Continuous Speech Corpus - Linguistic Data Consortium

（8）CHIME

这份语音是一份包含环境噪音的用于语音识别挑战赛（CHiME Speech Separationand Recognition Challenge）的数据集。该数据集包含了训练集、开发机、测试集3部分，每份里面包括了多个扬声器在不同噪音环境下的数据。

推荐度：★★★，推荐应用方向：语音识别。

介绍和下载地址：http://spandh.dcs.shef.ac.uk/chime_challenge/index.html

（9）TED-LIUM

TED Talk的音频数据集包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

推荐度：★★★，推荐应用方向：语音识别。

介绍和下载地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

除了上述公开数据集外，大多数机器学习和数据挖掘工具本身也附带有datasets资源，甚至像sklearn还提供了生成模拟数据的功能，请见sklearn中的datasets方法。