目录

  • 1. Boston房价预测数据集
  • 2. California房价预测数据集
  • 3. 糖尿病预测数据集

在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

1. Boston房价预测数据集

该数据集将在scikit-learn 1.2版本移除,也就是说,scikit-learn1.2版本及以后,该数据集将不存在,且用且珍惜吧。

数据集加载代码:

# boston房价预测数据集
from sklearn.datasets import load_bostonhousing_boston = load_boston()
X = housing_boston.data     # data
y = housing_boston.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“housing_boston”:

data: 506条数据,每条数据13维,即每条数据13个特征,这13个特征的名称存储在feature_names变量中,分别为[‘CRIM’, ‘ZN’, ‘INDUS’, ‘CHAS’, ‘NOX’, ‘RM’, ‘AGE’, ‘DIS’, ‘RAD’,
‘TAX’, ‘PTRATIO’, ‘B’, ‘LSTAT’]

CRIM: 各城镇的人均犯罪率
ZN: 超过25,000平方英尺的住宅用地比例
INDUS: 城镇非零售业态面积比例
CHAS: Charles River虚拟变量
NOX: 一氧化氮浓度(千万分之一)
RM: 每套住宅的平均房间数
AGE: 1940年以前建造的自住单位的比例
DIS: 到五个波士顿就业中心的加权距离
RAD: 径向公路可达性指数
TAX: 每1万美元的全值财产税税率
PTRATIO: 按城镇划分的学生教师比例
B: 城镇中黑人的比例
LSTAT: 人口地位下降率

2. California房价预测数据集

该数据集是Boston房价预测数据集替代数据集,随着scikit-learn版本的更新,以后我们将使用该数据集进行回归预测任务的练习。

数据集加载代码:

# california房价预测数据集
from sklearn.datasets import fetch_california_housinghousing_california = fetch_california_housing()
X = housing_california.data    # data
y = housing_california.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“housing_california”:

feature_names变量中,分别为[‘MedInc’, ‘HouseAge’, ‘AveRooms’, ‘AveBedrms’, ‘Population’, ‘AveOccup’, ‘Latitude’, ‘Longitude’]

MedInc: 街区组收入中位数
HouseAge: 街区组房屋年龄中位数
AveRooms: 每户平均房间数
AveBedrms: 每户平均卧室数量
Population: 人口数量
AveOccup: 家庭成员的平均人数
Latitude: 纬度
Longitude: 经度

3. 糖尿病预测数据集

该数据集是sklearn中自带的一个用于预测1年后糖尿病进展的定量测量(换句话说,一个连续变量的预测)。

数据集加载代码:

# 糖尿病数据集
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()X = diabetes.data           # data
y = diabetes.target         # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“diabetes”:

data: 442条数据,每条数据10维,即每条数据10个特征,这10个特征的名称存储在feature_names变量中,分别为[‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’]

age: 年龄
sex: 性别
bmi: 身体质量指数
bp: 平均血压
s1: 血清总胆固醇
s2: 低密度脂蛋白
s3: 高密度脂蛋白
s4: 总胆固醇/高密度脂蛋白
s5: 血清甘油三酯水平的对数
s6: 血糖水平

参考
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

【ML】机器学习数据集:sklearn中回归数据集介绍相关推荐

  1. python sklearn 支持向量机_python机器学习库sklearn之支持向量机svm介绍

    python机器学习库sklearn之支持向量机svm介绍tcB太阳2平台注册|网站分类目录 python数据挖掘系列教程tcB太阳2平台注册|网站分类目录 这里只讲述sklearn中如何使用svm算 ...

  2. 【ML】机器学习数据集:sklearn中分类数据集介绍

    目录 1.乳腺癌分类数据集(二分类) 2.鸢尾花分类数据集(三分类) 3.葡萄酒分类数据集(三分类) 4.手写数字分类数据集(十分类) 5.其他数据集 参考资料 在机器学习的教程中,我们会看到很多的d ...

  3. sklearn中的数据集1 (toy_datasets)

    sklearn中的 toy datasets sklearn中的玩具数据库(toy datasets),数据量较小,方便使用 tips: 安装 : pip install scikit-learn 1 ...

  4. 机器学习 | Sklearn中的朴素贝叶斯全解

    前期文章介绍了朴素贝叶斯理论,掌握理论后如何去使用它,是数据挖掘工作者需要掌握的实操技能,下面来看看Sklearn中都有哪些朴素贝叶斯. 朴素贝叶斯是运用训练数据学习联合概率分布 及 ,然后求得后验概 ...

  5. python机器学习库sklearn——逻辑回归

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 逻辑分类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/det ...

  6. python pca降维_机器学习之sklearn中的降维算法

    1. PCA与SVD sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块.在过去的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜.矩阵分解可 ...

  7. sklearn中的数据集2 (Covertype 一个关于植被的数据集)

    Covertype 简介 植被覆盖类型数据集,包括位于美国科罗拉多州北部罗斯福国家森林的四个荒野区域.样本总数为581012,在kaggle中,样本划分为训练集(training set):15120 ...

  8. 利用决策树算法对sklearn中红酒数据集进行可视化分类

    '''决策树是一种在分类和回归中都广泛应用的算法,它的原理是通过对一系列问题进行if/else进行推导,最终实现决策''' '''决策树最大的优势就是可以轻易的将模型可视化,而且决策树算法对每个样本的 ...

  9. sk-learn中对数据集划分函数train_test_split和StratifiedShuffleSplit

    1.随机划分训练集和测试集train_test_split train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train_data和test_data,形式为: f ...

最新文章

  1. 通过解决“构造包含所有给定子串的最短字符串”问题思考算法优化
  2. 设置TextView下划线并响应点击事件(SpannableString)
  3. LOJ #6280. 数列分块入门 4-分块(区间加法、区间求和)
  4. 数据安全:1.98亿购车者的购车记录公之于众
  5. (126)FPGA面试题-做了哪些FPGA时序约束?
  6. data transformation python_Data augmentation: 利用python进行图像扩建
  7. 国内首家,携程试点每周两天居家办公反响热烈,76%的员工主动报名
  8. javaScript引入方式
  9. FreeCAD快速开始
  10. CRM客户管理系统的功能模块有哪些
  11. 图片加载防闪动的CSS方法
  12. w10计算机恢复出厂设置,如何给win10系统的电脑强制恢复出厂设置
  13. Softing物联网(IoT)方案之OT/IT数据集成
  14. 计算机科学 在职双证,计算机在职研究生有双证吗
  15. linux学习 - 如何确定是否是 Centos 系统
  16. 如何在阿里云提交工单
  17. 3.文件系统组成和基本操作
  18. 互联网大佬的乌镇人设
  19. redis 内存分析工具 RMA 使用
  20. 广东迅视资管 长沙青年创客推荐“励”字为2020湖南年度字

热门文章

  1. 折腾win7:保护眼睛,修改资源管理器背景颜色 xp适用
  2. EXCEL函数:VLOOKUP、SUMPRODUCT使用记录
  3. C99中带声明的for语句
  4. 2021-01-03 SONiC SAI中的Bridge
  5. B编码与BT种子文件分析,以及模仿json-cpp写一个B编码解析器
  6. 怎么修改mysql的默认端口号
  7. 企业级Memcached服务应用实践
  8. RS485使用Modbus原理
  9. web serveer
  10. 解决 ubuntu 14.04下,eclipse adt-bundle-linux 闪退的问题,最新ADT-23.0.7