这一部分开始进入机器学习的核心。
八、为机器学习算法准备数据
首先让我们返回到一个干净的训练集(通过再次复制strat_train_set),并分离预测值和标签,因为我们不一定要对预测值和目标值应用相同的转换(注意drop()创建了数据的副本,并且不影响strat_train_set)

数据清洗:
从前面的分析可见,total_bedrooms一项缺失了部分数据。此时你可以:
1.删除缺失数据的项 dropna()
2.删除total_bedrooms这一项特征 drop()
3.设置缺失的数据为特定数值(例如,0、均值或中位数)fillna()
这里我们选择第三种方案,需要计算出训练集的中位数并用来填充训练集总缺失的数据,不要忘记保存这个中位数,在我们之后替代测试集缺失的数据时会用到。

scikit learn提供了一个方便的类来处理丢失的值:Imputer。以下是如何使用它。首先,需要创建一个Imputer实例,指定要用该属性的中值替换每个属性的缺失值。

文字信息转换
由于机器学习只能识别数字特征,所以需要将属性中的文字信息转换成数字。这里是ocean_proximity属性。

现在我们可以用fit()方法来将imputer实例拟合到训练数据。

imputer只是简单地计算量每一个属性的中位数并且把它们报讯到stastics_实例变量中。只有tital_bedrooms这个属性丢失了值,但是我们并不能保证在系统运行之后新数据还会不会丢失数据,所以把imputer应用到每一个数字属性中是安全的。

检查一下和人工计算的每一个属性的中位值是否一致。

显然是一样的。
现在,可以使用这个“trained”imputer方法来转换训练集,方法是用中位数替换缺失的值。

这样转换的结果是简单的Numpy阵列包含了转换之后的特征。如果你想把它转换成Pandas DataFrame,很简单:

现在让我们预处理分类输入特性:

机器学习之加州房价预测(三)相关推荐

  1. 完整的机器学习_加州房价预测

    机器学习的主要步骤 将问题框架化并且关注重点. 获取并探索数据以洞悉数据. 准备数据以更好地将基础数据模式暴露给机器学习算法. 探索多种不同的模型并列出最好的那些. 微调模型并将它们组合成一个很好的解 ...

  2. 使用pmml跨平台部署机器学习模型Demo——房价预测

      基于房价数据,在python中训练得到一个线性回归的模型,在JavaWeb中加载模型完成房价预测的功能. 一. 训练.保存模型 工具:PyCharm-2017.Python-39.sklearn2 ...

  3. 【机器学习】从房价预测问题看回归算法

    关键词:机器学习 / 回归 文章目录 回归问题是什么 生成数据 最小二乘法学习一元线性回归模型 最小二乘法学习多元线性回归模型 梯度下降法学习回归模型 回归问题是什么 回归问题是除了分类问题以外,机器 ...

  4. 机器学习初级项目--房价预测案例

    项目背景: 运用回归模型进行房价预测. 影响房价的因素有很多,在本题的数据集中有79个变量几乎描述了爱荷华州艾姆斯(Ames,lowa)住宅的方方面面,要求预测最终的房价. 数据介绍: 我们要使用Ba ...

  5. 机器学习入门实例-加州房价预测-1(数据准备与可视化)

    问题描述 数据来源:California Housing Prices dataset from the StatLib repository,1990年加州的统计数据. 要求:预测任意一个街区的房价 ...

  6. 《scikit-learn机器学习》波斯顿房价预测(线性回归预测)

    本节内容: 首先是要导入数据,看数据有多少个样本,有多少个特征标签,对其进行模型训练,用线性回归的方式对80%的训练集进行训练,发现训练的score比较低,优化为多项式模型,画学习曲线判断哪个多项式最 ...

  7. 机器学习——线性回归、房价预测案例【正规方案与梯度下降】

    # coding:utf-8 # 1.获取数据集 #2.数据基本处理 #2.1.数据划分 #3.特征工程--标准化 #4.机器学习(线性回归) #5.模型评估 from sklearn.dataset ...

  8. 机器学习 基于加州房价的线性回归实验

    1.线性回归闭合形式参数求解的原理 如果定义X为m*(n+1)的矩阵,Y为m1的矩阵,θ为(n+1)1维的矩阵,那么在之前的定义中就可以表示为h(x)=Xθ.则代价函数可以表示为J(θ)=1/2(Xθ ...

  9. 【机器学习实用指南】加州房价中位数预测

    加州房价预测 # 同时支持python2和python3 from __future__ import division,print_function,unicode_literals# 常用库 im ...

  10. 论文翻译之——《基于XGBoost的房价预测优化》-陶然

    目录 摘要 1 介绍 2.相关工作 2.1 文献综述 2.2 研究方法 3. 特征重要性和准确性改进 3.1 特征工程 3.1.1 数据描述 3.1.2 数据清洗 3.1.3 响应变量归一化 3.1. ...

最新文章

  1. SQL学习之数据列去空格函数
  2. 进入公司前与Boss的会谈话
  3. Linux 给Qt应用软件创建图标启动
  4. 计算机系统无法启动 错误恢复怎么办,我电脑在重装系统时出现windows错误恢复怎么办?...
  5. JMETER安装中遇到的问题(not able to find Java executable or version.Please check your java installation)
  6. Debian下使用Doxygen生成定制样式的开发文档
  7. Altium Designer17.1版本使用教程
  8. 天天生鲜项目需求分析——基于Django框架的天天生鲜电商网站项目系列博客(一)...
  9. 使用java映射ipv4,ipv6到阿里DDNS,适用于黑白群晖或其他用途
  10. arm-linux-g++ crypto,在Ubuntu中找不到libcrypto
  11. 视力测试软件正确吗,体检视力测试
  12. ExtJS 可视化开发工具大全
  13. 前端人脸识别框架tracking.js,解决ios浏览器调摄像头黑屏的问题,兼容pc、安卓、ios。
  14. jsp代码中ArrayList函数提示“无法解释为类型”
  15. confirm-order提交订单
  16. python文献检索_文献检索与下载
  17. SAP业务顾问必备的技术能力
  18. 黑莓android驱动程序,即将推出的Android驱动黑莓手机称为 Priv
  19. uniapp h5集成百度地图
  20. Mac有什么好用的词典软件吗?苹果电脑第三方词典软件推荐

热门文章

  1. Godot官网新闻翻译 - 2015年
  2. 美团网官网最新底部导航页面制作及CSS样式设计
  3. 个人总结的新手看房买房注意事项,有遗漏的地方请各位同学帮忙补充
  4. (瑞萨,norti系统,partner-jet2) 实时系统下DMAC使用的注意事项
  5. DMAC计算机组成原理,计算机组成原理
  6. OK6410上裸机点亮LED程序
  7. 【题解】桐桐的递归函数
  8. system32 下exe文件的作用
  9. 3分钟教会你解决SVN文件夹没有绿勾和红色感叹号的问题
  10. 异步实现商品详情页查询