导读:学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。

作者:张春强 张和平 唐振

来源:大数据DT(ID:hzdashuju)

01 开源数据集介绍

在学习机器学习算法的过程中,我们经常需要数据来学习和试验算法,但是找到一组适合某种机器学习类型的数据却不那么方便。下文对常见的开源数据集进行了汇总。

1. UCI数据集

  • 类型:比较全面,各类型数据都有涉及

  • 网址:

    http://archive.ics.uci.edu/ml/datasets.php

2. Kaggle竞赛数据集

  • 类型:比较全面,各类型数据都有涉及

  • 网址:https://www.kaggle.com/datasets

3. ImageNet

  • 类型:计算机视觉数据

  • 网址:http://image-net.org/

4. VisualData

  • 类型:计算机视觉数据

  • 网址:https://www.visualdata.io/

5. MS COCO

  • 类型:计算机视觉数据

  • 网址:http://mscoco.org/

6. Stanford CoreNLP

  • 类型:情感分析数据

  • 网址:

    http://nlp.stanford.edu/sentiment/code.html

7. IMDB

  • 类型:情感分析数据

  • 网址:

    http://ai.stanford.edu/~amaas/data/sentiment/

8. Sentiment140

  • 类型:情感分析数据

  • 网址:

    http://help.sentiment140.com/for-students/

9. HotspotQA

  • 类型:自然语言处理

  • 网址:https://hotpotqa.github.io/

10. Enron Email

  • 类型:自然语言处理

  • 网址:https://www.cs.cmu.edu/~./enron/

11. Amazon

  • 类型:自然语言处理

  • 网址:

    https://snap.stanford.edu/data/web-Amazon.html

12. 百度Apolloscapes

  • 类型:自动驾驶

  • 网址:http://apolloscape.auto/

13. Berkeley DeepDrive

  • 类型:自动驾驶

  • 网址:http://bdd-data.berkeley.edu/

14. Robotcar

  • 类型:自动驾驶

  • 网址:

    http://robotcar-dataset.robots.ox.ac.uk/

15. Data.gov

  • 类型:公共政府数据集

  • 网址:https://www.data.gov/

16. Food Environment Atlas

  • 类型:公共政府数据集

  • 网址:

    https://catalog.data.gov/dataset/food-environment-atlas-f4a22

17. Annual Survey of School System Finances

  • 类型:公共政府数据集

  • 网址:

    https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

18. NCES

  • 类型:公共政府数据集

  • 网址:https://nces.ed.gov/

19. Data USA

  • 类型:公共政府数据集

  • 网址:http://datausa.io/

20. 中国国家统计局

  • 类型:公共政府数据集

  • 网址:http://www.stats.gov.cn/

21. Quandl

  • 类型:金融与经济数据集

  • 网址:https://www.quandl.com/

22. WorldBank

  • 类型:金融与经济数据集

  • 网址:https://data.worldbank.org/

23. IMF

  • 类型:金融与经济数据集

  • 网址:https://www.imf.org/en/Data

24. Markets

  • 类型:金融与经济数据集

  • 网址:https://markets.ft.com/data/

25. Google Trends

  • 类型:金融与经济数据集

  • 网址

    http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

26. US Macro Regional

  • 类型:金融与经济数据集

  • 网址:

    https://www.aeaweb.org/resources/data/us-macro-regional

27. Google Audioset

  • 类型:语音数据集

  • 网址:

    https://research.google.com/audioset/

28. 2000 HUB5 English

  • 类型:语音数据集

  • 网址:

    https://catalog.ldc.upenn.edu/LDC2002T43

29. LibriSpeech

  • 类型:语音数据集

  • 网址:http://www.openslr.org/12/

02 scikit-learn中的数据集

scikit-learn是Python中进行数据挖掘和建模中常用的机器学习工具包。scikit-learn的datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法。模块的主要函数如下所示。

  1. sklearn.datasets.load_<name>:自带数据集(数据量较小)

  2. sklearn.datasets.fetch_<name>:在线下载的数据集

  3. sklearn.datasets.make_<name>:生成指定类型的随机数据集

  4. sklearn.datasets.load_svmlight_file:svmlight/libsvm格式的数据集

  5. sklearn.datasets.fetch_mldata:mldata.org在线下载数据集

自带数据集的datasets模块里包含自带数据集,使用load_*加载即可,使用示例如下所示。

from sklearn.datasets import load_iris
data = load_iris()
# 查看数据描述
print(data.DESCR)
X = data.data
y = data.target

自带数据集的基本信息及序号30、31、32的自带数据集做简单的介绍如下。读者也可以使用data.DESCR,查看其英文描述。

30. 波士顿房价数据集

  • 调用方法:load_boston

  • 模型类型:回归

  • 数据规模(样本*特征):506*13

这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数等13个维度的数据,波士顿房价数据集能够应用到回归问题上。波士顿房价数据集与属性描述如下所示。

  • CRIM:城镇人均犯罪率。

  • ZN:住宅用地超过25000平方英尺的比例。

  • INDUS:城镇非零售商用土地的比例。

  • CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。

  • NOX:一氧化氮浓度。

  • RM住宅平均房间数。

  • AGE:1940 年之前建成的自用房屋比例。

  • DIS:到波士顿五个中心区域的加权距离。

  • RAD:辐射性公路的接近指数。

  • TAX:每10000 美元的全值财产税率。

  • PTRATIO:城镇师生比例。

  • MEDV:自住房的平均房价,以千美元计。

31. 鸢尾花数据集

  • 调用方法:load_iris

  • 模型类型:分类

  • 数据规模(样本*特征):105*4

鸢尾花数据集是一个非常经典的数据集,著名的统计学家Fisher在研究判别分析问题时收集了一些关于鸢尾花的数据,包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于外形的数据(自变量)。该数据集可用于多分类问题,测量数据如下所示。

  • sepal length (cm):萼片长度。

  • sepal width (cm):萼片宽度。

  • petal length (cm):花瓣长度。

  • petal width (cm):花瓣宽度。

类别共分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。

32. 手写数字数据集

  • 调用方法:load_digits

  • 模型类型:分类

  • 数据规模(样本*特征):1797*64

这个数据集是结构化数据的经典数据,共有1797个样本,每个样本有64个元素,对应一个8×8像素点组成的矩阵,矩阵中值的范围是0~16,代表颜色的深度,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字。

33. 糖尿病数据集

  • 调用方法:load_diabetes

  • 模型类型:回归

  • 数据规模(样本*特征):422*10

34. 葡萄酒数据集

  • 调用方法:Load_wine

  • 模型类型:分类

  • 数据规模(样本*特征):178*13

35. 乳腺癌数据集

  • 调用方法:load_breast_cancer

  • 模型类型:分类

  • 数据规模(样本*特征):569*30

36. 体能训练数据集

  • 调用方法:load_linnerud

  • 模型类型:多元回归

  • 数据规模(样本*特征):20*3

scikit-learn在线下载数据集的datasets模块包含在线下载数据集的方法,调用fetch_*接口从网络下载,示例如下所示。

from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')

注意,fetch_*接口由于需要从国外网址下载数据,速度可能很慢!

在线下载数据集的基本信息如下所示。

37. Olivetti脸部图像数据集

  • 调用方法:fetch_olivetti_faces

  • 模型类型:降维

  • 数据规模(样本*特征):400*64*64

38. 20类新闻分类数据集(文本)

  • 调用方法:fetch_20newsgroups

  • 模型类型:分类

  • 数据规模(样本*特征):18846*1

39. 20类新闻文本数据集(特征向量)

  • 调用方法:fetch_20newsgroups_vectorized

  • 模型类型:分类

  • 数据规模(样本*特征):18846*130107

40. 带标签的人脸数据集

  • 调用方法:fetch_lfw_people

  • 模型类型:分类

  • 数据规模(样本*特征):13233*5828

41. 路透社新闻语料数据集

  • 调用方法:fetch_rcv1

  • 模型类型:分类

  • 数据规模(样本*特征):804414*47236

42. 加州住房数据集

  • 调用方法:fetch_california_housing

  • 模型类型:回归

  • 数据规模(样本*特征):20640*8

43. 森林植被

  • 调用方法:fetch_covtype

  • 模型类型:多分类

  • 数据规模(样本*特征):581012*54

scikit-learn包括用于以svmlight/libsvm格式加载数据集的实函数。在这种格式中,每一行都采用表格,此格式特别适用于稀疏数据集。在该模块中,使用SciPy稀疏CSR矩阵,并使用numpy数组,示例如下。svmlight / libsvm格式的公共数据集可以从网上下载。

网址:

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/

from  sklearn.datasets  import  load_svmlight_file
X_train , y_train  =  load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')

openml.org是机器学习数据和实验的公共存储库,允许每个人上传开放数据集。sklearn.datasets能够从存储库下载数据集。示例如下:

from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)
mice.url

更多数据集信息描述请查看官网:

https://www.openml.org/search?type=data

关于作者:张春强,是一位具有3年C/C++、7年大数据和机器学习经验且富有创造力的技术专家,在技术一线摸爬滚打近10年,先后就职于大型IT、世界500强企业,目前就职于某大型金融科技集团,负责数据挖掘、机器学习相关工作的管理和研发。

张和平,现就职于某互联网金融集团科技公司,任大数据模型工程师,负责机器学习在金融风控和用户运营方面的应用工作,善于运用机器学习、数据挖掘、知识图谱和大数据技术解决实际的业务问题。在大数据风控建模、用户画像、大数据平台建设等方面有丰富的实践经验。

本文摘编自《机器学习:软件工程方法与实现》,经出版方授权发布。

延伸阅读《机器学习:软件工程方法与实现》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:大型金融集团专家撰写,将软件工程方法、工具和策略应用到机器学习,提供高质量代码设计和工业应用框架。

划重点????

干货直达????

  • 手把手教你用Matplotlib进行数据可视化

  • 详解华为12种数据采集技术及应用实践

  • 如何让图表更有说服力?6大准则和1个经典案例给你讲明白

  • Python循环语句代码逐行详解:while、for、break和continue

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都完成了这个神操作

????

吐血整理:43种机器学习开源数据集(附地址/调用方法)相关推荐

  1. 几种C#程序读取MAC地址的方法

    原文:几种C#程序读取MAC地址的方法 以下是收集的几种C#程序读取MAC地址的方法,示例中是读取所有网卡的MAC地址,如果仅需要读取其中一个,稍作修改即可. 1 通过IPConfig命令读取MAC地 ...

  2. 机器学习开源数据集整理

    先给两个网站,包含了各个领域绝大多数的数据集: https://www.datasetlist.com/ https://archive.ics.uci.edu/ml/datasets.php?for ...

  3. 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)

    编译 | 林椿眄 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在G ...

  4. 吐血整理:关于机器学习不可不知的15个概念

    导读:本文介绍不同类型的机器学习方法,以及模型评估的相关概念. 作者:布奇·昆托(Butch Quinto) 来源:大数据DT(ID:hzdashuju) 01 有监督学习 有监督学习是利用训练数据集 ...

  5. 4种语义分割数据集Cityscapes上SOTA方法总结

    本文分享自华为云社区<语义分割数据集Cityscapes上SOTA方法总结>,原文作者:fdafad. 1 Cityscapes数据集介绍 Cityscapes评测数据集即城市景观数据集, ...

  6. 几种获取本机IPv6地址的方法

    如同获取IPv4的地址一般,获取IPv6也是可以通过使用网卡信息来得到IPv6的地址,也可以给一个多播地址发送数据包然后获取IPv6的地址.在IPv4通过iotcl函数是可以获取本主机的IPv4的地址 ...

  7. 10种机器学习算法(附Python代码)

    sklearn python API LinearRegression from sklearn.linear_model import LinearRegression # 线性回归 # modul ...

  8. python基础教程第三版豆瓣-数据结构与算法必读书单吐血整理推荐【附网盘链接】...

    前言:技术书阅读方法论 一.速读一遍(最好在1~2天内完成) 人的大脑记忆力有限,在一天内快速看完一本书会在大脑里留下深刻印象,对于之后复习以及总结都会有特别好的作用. 对于每一章的知识,先阅读标题, ...

  9. 10个必备的机器学习开源工具

    机器学习十大开源工具 机器学习是未来.但机器会灭绝人类吗? 这应该是一个牵强附会的想法. 作为机器学习开发人员,您一定希望成功实现目标.这就是用于机器学习的开源工具的用武之地. 机器学习开源社区是活跃 ...

  10. 90+深度学习开源数据集整理|包括目标检测、工业缺陷、图像分割等多个方向

    导读 本文整理汇总了90+深度学习各方向的开源数据集,包含了小目标检测.目标检测.工业缺陷检测.人脸识别.姿态估计.图像分割.图像识别等方向. 小目标检测 1.AI-TOD航空图像数据集 数据集下载地 ...

最新文章

  1. 网络2网络布线与数制转换
  2. MySQL主从同步失败
  3. 解决ora-00054 Oracle锁表问题
  4. 【转】Kettle集群
  5. java 百度贴吧 爬虫_JAVA爬虫入门
  6. Apple Mac OS X每日一技巧016:MacBook电源线如何缠绕
  7. tomcat安装并设置开机启动
  8. RadioGroup 的使用
  9. vscode c++ 开发环境搭建(离线、内网)
  10. c++ 专题 2 面向对象:常量成员函数
  11. 10分钟健身法读书笔记(2/5)
  12. ul导航条二级菜单被遮盖
  13. 小猫爪:动手笔记01-FreeRTOS移植
  14. 日语动词+动词类型+动词活用
  15. 程序员最新面试谈薪指南
  16. linux服务器留后门,Linux下留本地后门的两个方法
  17. 基于POI的wod模板文件,导入参数,导出最终文件
  18. Fabric 节点类型&交易流程
  19. [生存志] 第141节 秦魏风俗掌故
  20. 酷睿i7和i5对计算机专业要求,英特尔i5已经足够用 还有必要升级i7处理器吗?

热门文章

  1. BH1750_数字16位串行输出型环境光传感器
  2. Android 预制第三方app到系统中
  3. 【BZOJ3572】【Hnoi2014】世界树 虚树
  4. java的web开发之旅——第1站html
  5. 微信企业号开发源码Java编写,懒人开发一键式部署项目,WeChatEnterprise框架你值得拥有
  6. (Note)阿克西斯ACASIS DT-3608双盘位硬盘阵列盒RAID设置
  7. 以下关于c语言程序中函数的说法正确的是( ),以下关于C语言程序中函数的说法正确的是:(  )...
  8. 爱,是一个人成功的最大动力
  9. 【分享】“钉钉自建“在集简云平台集成应用的常见问题与解决方案
  10. 《长安十二时辰》,作为程序员,看完我震惊了!