这是菜鸟学Python的第133篇原创文章

阅读本文大概需要3分钟

菜鸟独白

前面介绍完了knn算法(小白入门最简单的机器学习算法),算是机器学习里的Hello World. 机器学习还有好多好多算法,监督学习算法里面有两大类,一类是分类,一类是回归!回归更有趣,可以做很多事情比如数据的预测,这个很牛逼啊!今天我们通过对美国波士顿的房价数据,来学习一下最最简单的线性回归算法。

怎么玩呢:了解波士顿房价数据

分析数据的特征值

可视化数据

选择线性回归模型来训练数据

测试模型的准确性

1.什么是线性回归

线性回归一般用来解决连续值变量预测问题,针对的是数值型的样本。用来探索自变量和因变量之间是线性相关关系。今天我们介绍入门级别的简单线性回归算法(也叫一元线性回归),何为简单线性回归呢,说白了就是样本特质只有一个值.

比如我们有一份房屋面积和价格的数据,很明显自变量(面积)和因变量(房价)是强相关的,房屋的面积为x,房价为y,这里会有一个方程:y=ax+b

线性回归就是指利用样本(已知数据),产生拟合方程,回归的求解就是求这个回归方程的回归系数。一旦我们得到了这个方程,预测的方法当然十分简单,回归系数乘以输入值再全部相加就得到了预测值。

既然是要找出一个最佳的拟合线,就是求解线性回归方程,我们喂给机器一堆数据,只要能解析出a和b就可以了!a术语叫斜率,b叫截距.只要我们拿到了a,b就可以画出直线,也就可以预测数据了,下面我们通过一个实例来讲解!

2.导入波士顿房价的数据

1).房价问题是一个热门的话题

通过机器学习算法可以对房价进行预测的,今天我们来看一组美国波士顿房价的数据集。这个数据集是sklearn里面的默认数据集,非常有趣,我们直接导入即可.

2).数据的大概情况

一共有506套房屋的数据,每个房屋有13个特征值

这个13个特征值很有意思,比如下面几个:CRIM:城市的人均犯罪率

ZN:住宅用地的比例

INDUS:城镇中非住宅用地的所占比例

RM:每个房子的房间数

DIS:距离5个波士顿的就业中心的距离

B:城镇的黑人比例

LSTAT:低收入房东的比例

看一下数据集

3.分析数据并可视化

也就是说有13个变量决定了房子的价格,我们需要先探索一下这些变量和房屋价格的相关行:

我们发现相关系数最高的是RM高达0.69.也就是说房间数和房价是强相关性.

用sns可视化房间数和房屋价格的图sns.set(palette="muted",color_codes=True) sns.pairplot(boston_df,vars=['RM','Target'])

我们放大看一下房间 vs 房价的关系图

最上面的50万美金的房价的数据点特别密集,构成了一条直线,估计是数据集采集的时候,大于50W都写50W,下面我会处理一下这块数据.

4.简单线性回归

1).去掉一些脏的数据,比如50W美金的数据

2).构建线性模型

3).看一下预测分数

这个模型的准确率只有74.5%,然后我们得到的13个相关系数,发现相关性最强的是第5个,这个就是RM,也就是房间数.

结论:

好,简单线性回归就讲到这样,机器学习的难度比爬虫和数据分析要大很多,小伙伴学的时候要有耐心,虽然是简单的套用公式,但是对算法本身的理解其实非常重要,至少我觉得线性代数一定要恶补一下。

衡量线性回归有误差有很多方法:比如均方误差,均方根误差和和平均绝对误差.这些背后全部都是公式,而简单线性回归模型后面还有多项式回归,逻辑回归,路漫漫其修远兮,吾将上下而求索,我们继续加油!

python线性回归预测波士顿房价_预测波士顿的房价|简单的线性回归入门相关推荐

  1. 项目 : 预测波士顿房价_团结波士顿更新:早鸟票销售将于明天结束。 部分时间表到了!

    项目 : 预测波士顿房价 Unite Boston is just two months away! Early Bird ticket pricing ends tomorrow (Friday, ...

  2. python线性回归预测pm2.5_李洪义——机器学习作业——1-线性回归:预测PM2.5,李宏毅,1LinearRegression,PM25...

    1-Linear Regression:预测PM2.5 注意 :这篇博客的任何操作是在已经下载好Python的前提下,如果还没有下载Python,可以参考以下链接下载Python https://bl ...

  3. python线性回归预测pm2.5_线性回归--PM2.5预测--李宏毅机器学习

    一.说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1).CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的 ...

  4. python线性回归预测pm2.5_李宏毅 线性回归预测PM2.5

    作业说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1):CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的 ...

  5. python线性回归预测pm2.5_线性回归预测PM2.5----台大李宏毅机器学习作业1(HW1)

    一.作业说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1).CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20 ...

  6. python线性回归预测pm2.5_基于随机森林算法的PM2.5预测

    空气质量指数(AQI)是衡量空气质量好坏的重要指数,它是依据空气中污染物浓度的高低来判断的. 但是因为空气污染本身是一个较为复杂的现象,来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因 ...

  7. 波士顿房价_团结波士顿2015年主题演讲

    波士顿房价 Unite Boston 2015 is Unity's flagship developer conference and being able to host it in one of ...

  8. python线性回归分析看相关性_机器学习入门-相关分析之简单线性回归

    一.什么是机器学习? 简单来说,机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的 ...

  9. python线性回归分析看相关性_机器学习入门:相关性分析之线性回归

    一.前言 机器学习--特征与标签 : 输入模型的属性是"特征",输出的是"标签" 机器学习的核心是"使用算法解析数据,从中学习,然后对世界上的某件事情 ...

  10. python线性表和队列_[笔记]python数据结构之线性表:linkedlist链表,stack栈,queue队列...

    python数据结构之线性表 python内置了很多高级数据结构,list,dict,tuple,string,set等,在使用的时候十分舒心.但是,如果从一个初学者的角度利用python学习数据结构 ...

最新文章

  1. 在web.xml文件中配置Servlet时,主要配置哪些信息?
  2. linux与linux的连接,linux 硬链接与软连接
  3. 「人工智能视觉」一直被消费者忽视的工业领域应用
  4. UA MATH571B 试验设计 总结 判断试验类型的例题
  5. linux shell 脚本 svn自动更新项目并且打包 、发布、备份
  6. 谁还期待iPhone 13?
  7. python画平面直角坐标系_Python之OpenGL笔记(20):画平面直角坐标系
  8. OpenStack基金会携手Intel、Hyper发布开源Kata Containers项目
  9. 针对校园某服务器的一次渗透测试
  10. 安卓自定义时间选择器_微信小程序拾色器(颜色选择器)组件
  11. 05_IOC容器装配Bean(注解方式)
  12. matlab与vrep联合仿真,基于MATLAB与V-REP的机器人加工轨迹生成与运动仿真.PDF
  13. Mac 2016 运行Emacs,M-x键失效问题
  14. IDEA从零到精通(34)之IDEA 强大的文件对比功能
  15. jsp 默认select option 默认选中方法
  16. 北京大学肖臻老师《区块链技术与应用》公开课笔记:以太坊原理(三):智能合约
  17. 关于flutter出现Because flutter_app depends on flutter_screenutil >=3.0.0-beta.1 which requires Flutter S
  18. 计算机桌面图标多一个箭头,怎么去掉电脑桌面图标箭头(一个小妙招解决win图标小箭头)...
  19. 51-20210316华为海思Hi3516DV300的linux系统编译2(SPI模式)
  20. 电脑用js调用QQ客服聊天 阿星小栈

热门文章

  1. BRD、MRD、PRD
  2. IMDB排名前250名的电影,你看过几部?
  3. 电脑hosts文件位置
  4. centos linux安装网卡驱动,如何在CentOS系统下安装网卡驱动
  5. 树莓派组网 ad-hoc模式
  6. ARM开发(二)ARM体系结构——ARM,数据和指令类型,处理器工作模式,寄存器,状态寄存器,流水线,指令集,汇编小练习题
  7. 各个浏览器对应的驱动文件 driver
  8. zkLedger: Privacy-Preserving Auditing for Distributed Ledgers zkLedger:保护分布式分类帐的隐私审计
  9. 传奇泡点地图制作脚本
  10. 转贴自圣骑士wind:Google Maps Android API V2的使用及问题解决