机器学习之加州房价预测(三)
这一部分开始进入机器学习的核心。
八、为机器学习算法准备数据
首先让我们返回到一个干净的训练集(通过再次复制strat_train_set),并分离预测值和标签,因为我们不一定要对预测值和目标值应用相同的转换(注意drop()创建了数据的副本,并且不影响strat_train_set)
数据清洗:
从前面的分析可见,total_bedrooms一项缺失了部分数据。此时你可以:
1.删除缺失数据的项 dropna()
2.删除total_bedrooms这一项特征 drop()
3.设置缺失的数据为特定数值(例如,0、均值或中位数)fillna()
这里我们选择第三种方案,需要计算出训练集的中位数并用来填充训练集总缺失的数据,不要忘记保存这个中位数,在我们之后替代测试集缺失的数据时会用到。
scikit learn提供了一个方便的类来处理丢失的值:Imputer。以下是如何使用它。首先,需要创建一个Imputer实例,指定要用该属性的中值替换每个属性的缺失值。
文字信息转换
由于机器学习只能识别数字特征,所以需要将属性中的文字信息转换成数字。这里是ocean_proximity属性。
现在我们可以用fit()方法来将imputer实例拟合到训练数据。
imputer只是简单地计算量每一个属性的中位数并且把它们报讯到stastics_实例变量中。只有tital_bedrooms这个属性丢失了值,但是我们并不能保证在系统运行之后新数据还会不会丢失数据,所以把imputer应用到每一个数字属性中是安全的。
检查一下和人工计算的每一个属性的中位值是否一致。
显然是一样的。
现在,可以使用这个“trained”imputer方法来转换训练集,方法是用中位数替换缺失的值。
这样转换的结果是简单的Numpy阵列包含了转换之后的特征。如果你想把它转换成Pandas DataFrame,很简单:
现在让我们预处理分类输入特性:
机器学习之加州房价预测(三)相关推荐
- 完整的机器学习_加州房价预测
机器学习的主要步骤 将问题框架化并且关注重点. 获取并探索数据以洞悉数据. 准备数据以更好地将基础数据模式暴露给机器学习算法. 探索多种不同的模型并列出最好的那些. 微调模型并将它们组合成一个很好的解 ...
- 使用pmml跨平台部署机器学习模型Demo——房价预测
基于房价数据,在python中训练得到一个线性回归的模型,在JavaWeb中加载模型完成房价预测的功能. 一. 训练.保存模型 工具:PyCharm-2017.Python-39.sklearn2 ...
- 【机器学习】从房价预测问题看回归算法
关键词:机器学习 / 回归 文章目录 回归问题是什么 生成数据 最小二乘法学习一元线性回归模型 最小二乘法学习多元线性回归模型 梯度下降法学习回归模型 回归问题是什么 回归问题是除了分类问题以外,机器 ...
- 机器学习初级项目--房价预测案例
项目背景: 运用回归模型进行房价预测. 影响房价的因素有很多,在本题的数据集中有79个变量几乎描述了爱荷华州艾姆斯(Ames,lowa)住宅的方方面面,要求预测最终的房价. 数据介绍: 我们要使用Ba ...
- 机器学习入门实例-加州房价预测-1(数据准备与可视化)
问题描述 数据来源:California Housing Prices dataset from the StatLib repository,1990年加州的统计数据. 要求:预测任意一个街区的房价 ...
- 《scikit-learn机器学习》波斯顿房价预测(线性回归预测)
本节内容: 首先是要导入数据,看数据有多少个样本,有多少个特征标签,对其进行模型训练,用线性回归的方式对80%的训练集进行训练,发现训练的score比较低,优化为多项式模型,画学习曲线判断哪个多项式最 ...
- 机器学习——线性回归、房价预测案例【正规方案与梯度下降】
# coding:utf-8 # 1.获取数据集 #2.数据基本处理 #2.1.数据划分 #3.特征工程--标准化 #4.机器学习(线性回归) #5.模型评估 from sklearn.dataset ...
- 机器学习 基于加州房价的线性回归实验
1.线性回归闭合形式参数求解的原理 如果定义X为m*(n+1)的矩阵,Y为m1的矩阵,θ为(n+1)1维的矩阵,那么在之前的定义中就可以表示为h(x)=Xθ.则代价函数可以表示为J(θ)=1/2(Xθ ...
- 【机器学习实用指南】加州房价中位数预测
加州房价预测 # 同时支持python2和python3 from __future__ import division,print_function,unicode_literals# 常用库 im ...
- 论文翻译之——《基于XGBoost的房价预测优化》-陶然
目录 摘要 1 介绍 2.相关工作 2.1 文献综述 2.2 研究方法 3. 特征重要性和准确性改进 3.1 特征工程 3.1.1 数据描述 3.1.2 数据清洗 3.1.3 响应变量归一化 3.1. ...
最新文章
- SQL学习之数据列去空格函数
- 进入公司前与Boss的会谈话
- Linux 给Qt应用软件创建图标启动
- 计算机系统无法启动 错误恢复怎么办,我电脑在重装系统时出现windows错误恢复怎么办?...
- JMETER安装中遇到的问题(not able to find Java executable or version.Please check your java installation)
- Debian下使用Doxygen生成定制样式的开发文档
- Altium Designer17.1版本使用教程
- 天天生鲜项目需求分析——基于Django框架的天天生鲜电商网站项目系列博客(一)...
- 使用java映射ipv4,ipv6到阿里DDNS,适用于黑白群晖或其他用途
- arm-linux-g++ crypto,在Ubuntu中找不到libcrypto
- 视力测试软件正确吗,体检视力测试
- ExtJS 可视化开发工具大全
- 前端人脸识别框架tracking.js,解决ios浏览器调摄像头黑屏的问题,兼容pc、安卓、ios。
- jsp代码中ArrayList函数提示“无法解释为类型”
- confirm-order提交订单
- python文献检索_文献检索与下载
- SAP业务顾问必备的技术能力
- 黑莓android驱动程序,即将推出的Android驱动黑莓手机称为 Priv
- uniapp h5集成百度地图
- Mac有什么好用的词典软件吗?苹果电脑第三方词典软件推荐