各位好,我是乾颐堂大堂子。领取完整实战指南可以私信我,关键词:实战指南

  1. 导入相关python库

2.数据处理

下载的是两个数据文件,一个是真实数据,一个是测试数据,打开kc_train.csv,能够看到第二列是销售价格,而我们要预测的就是销售价格,所以在训练过程中是不需要销售价格的,把第二列删除掉,新建一个csv文件存放销售价格这一列,作为后面的结果对比。

2.1数据说明

​数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数 据分为训练数据和测试数据, 分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录, 14个字段, 主要字段说明如下:

第一列 “销售日期” : 2014年5月到2015年5月房屋出售时的日期

第二列 “销售价格” : 房屋交易价格, 单位为美元, 是目标预测值

第三列 “卧室数” : 房屋中的卧室数目

第四列 “浴室数” : 房屋中的浴室数目

第五列 “房屋面积” : 房屋里的生活面积

第六列 “停车面积” : 停车坪的面积

第七列 “楼层数” : 房屋的楼层数

第八列 “房屋评分” : King County房屋评分系统对房屋的总体评分

第九列 “建筑面积” : 除了地下室之外的房屋建筑面积

第十列 “地下室面积” : 地下室的面积

第十一列“建筑年份” : 房屋建成的年份

第十二列“修复年份” : 房屋上次修复的年份

第十三列"纬度": 房屋所在纬度

第十四列“经度” : 房屋所在经度

测试数据主要包括3000条记录, 13个字段, 跟训练数据的不同是测试数据并不包括房屋销售价格, 学员需要通过由训练数据所建立的模型以及所给的测试数据,得出测试数据相应的房屋销售价格预测值。

3.特征预处理常用方法:归一化、标准

把数据进行无量纲化,使不同规格的数据转换到同一规格。

(选做)3.1特征缩放/数据归一化MinMaxScaler()

3.1.1将数据放缩到给定的范围

fit_transform(self, X[,y])计算并将数据放缩到给定的范围:

fit():计算给定数据集X的最大值/最小值用于后面的放缩;

transform():将数据集X放缩到给定的范围内。

fit_transform(),包含上述两个功能。

3.1.2恢复给定范围的数据

inverse_transfom(self, X)

3.1.3归一化解释

3.1.4为什么训练集用fit_transform而测试集用transform

训练集已经通过fit_transform求出了一些固有属性,测试集可沿用上述属性直接标准化,不必重新再求

3.1.5归一化使用局限

因为归一化是通过最大值、最小值的把数据映射到一个新的区间里,所以如果数据中有异常值(最大或者最小值是异常的、离谱的),这样机会影响整个数据的映射分布。所以这种方法鲁棒性较差,只适合传统精确小数据场景。

有没有更加通用的一种数据规范化方式呢?下面是标准化StandardScaler()。

(选做)3.2数据标准化StandardScaler()

数据标准化StandardScaler()是把数据变换到均值为0,标准差为1的范围内。标准化StandardScaler()不易受异常值的影响。在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

4.模型训练

使用sklearn库的线性回归函数进行调用训练。梯度下降法获得误差最小值。

最后使用MSE和R2来评价模型的好坏程度并画图进行比较。

4.1(选做)线性回归

4.2(选做)随机梯度下降SGD

4.3(选做)岭回归Ridge

5.模型评估(注意替换参数)

6.绘制图像

7.输出结果

更多网工提升干货,请关注公众号:乾颐堂网络实验室

华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛相关推荐

  1. 数据挖掘竞赛-美国King County房价预测训练赛

    美国King County房价预测训练赛 简介 DC上的一个回归题(正经的回归题). 比较简单. 时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了. 过程 数据获取 ...

  2. 数据分析 回归问题: 美国King County房价预测训练赛

    这是DC竞赛网的一道基础回归问题, 美国King County房价预测训练赛 竞赛详细信息:美国King County房价预测训练赛 任务:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测 ...

  3. 机器学习入门实践——线性回归模型(波士顿房价预测)

    机器学习入门实践--线性回归模型(波士顿房价预测) 一.背景介绍 给定一个大小为 n n n的数据集 { y i , x i 1 , . . . , x i d } i = 1 n {\{y_{i}, ...

  4. 一文带你用Python玩转线性回归模型《加利福尼亚房价预测》回归模型评估指标介绍

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 前言 这 ...

  5. 华为LAB实验室:0-Ubuntu搭建实验环境

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 下载Anconda3 新建虚拟环境(tf&ms) 2.1.安装tensorflow 2.1.1.忽略警报 2.2.安装m ...

  6. 华为LAB实验室-1.线性回归

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 步骤1引入相关依赖的包 步骤2构建房价数据集并可视化 步骤3模型训练 步骤4模型的可视化 更多网工提升干货,请关注公众号:乾颐堂 ...

  7. 华为LAB实验室7-文字识别

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 0.1-实验简介 *文字识别(Optical Character Recognition,OCR)是指将图片.扫描件或PDF.O ...

  8. 华为LAB实验室-书本识别

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 0.1-实验简介 *图像识别,是指利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对象的技术.图像识别以开放AP ...

  9. 华为LAB实验室5—花卉分类

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 0.1-实验简介 自动学习是ModelArts提供的一项服务,可以根据标注数据自动设计模型.自动调参.自动训练.自动压缩和部署模 ...

最新文章

  1. 为什么大多数IOC容器使用ApplicationContext,而不用BeanFactory
  2. plupload 如何控制最小宽度和文件类型及跨域
  3. matlab pdist2函数官方详解
  4. c 串转string_string::c_str()、string::c_data()及string与char *的正确转换
  5. 设置最大值_Power BI经典技巧:在走势图上标注最大值、最小值…
  6. mysql alisql_初次安装aliSql
  7. 使用Java复制文件及显示进度
  8. eclipse 字体设置
  9. 【数智化案例展】深农集团——守护深圳“菜篮子”,腾讯安全携手深农集团保供稳价格...
  10. Globle Get 多线程下载系统
  11. UCI下载葡萄酒数据
  12. Chromium OS Autotest 客户端测试
  13. 上传到服务器的网站打开是空白,网站上传服务器,首页打开空白的解决办法|74cms|骑士cms...
  14. android怎么测试网速,Android网速测试App(三)
  15. Java(回文数--一种比较简单的写法)
  16. 【论文阅读】一种包含同态加密、差分隐私、多方安全计算的FL隐私保护框架 Efficient and Privacy-Enhanced Federated Learning for Industrial
  17. Java项目:springboot私人牙医管理系统
  18. opencv 解决ippicv下载慢的问题: ippicv_2019_lnx_intel64_general_20180723
  19. 每天一个Linux命令(22):文件属性详解
  20. SQL语句之分组查询--GROUP BY(group by)

热门文章

  1. 关于VB选择打印机,并打印
  2. 自建服务器我的世界手游,我的世界自建服务器版
  3. Reflex WMS入门系列十二:Reflex里的Location
  4. 申请Jetbrains系列软件无限期免费用
  5. position: absolute和 float详解
  6. 首个华为HarmonyOS专业课走进校园,落地武汉大学
  7. 独家 | 脑洞大开!机器学习与AI突破(附链接)
  8. 在线校核计算机械在线,三排滚子转盘轴承的校核计算方法-中国机械工程.pdf
  9. redis命令和Spring 的RedisTemplate操作对应关系
  10. 频谱分析仪分辨率带宽到底是什么?