使用一阶线性方程预测波士顿房价

载入的数据是随sklearn一起发布的,来自boston 1993年之前收集的506个房屋的数据和价格。load_boston()用于载入数据。

from sklearn.datasets import load_boston

from sklearn.model_selection import train_test_split

import time

from sklearn.linear_model import LinearRegression

boston = load_boston()

X = boston.data

y = boston.target

print("X.shape:{}. y.shape:{}".format(X.shape, y.shape))

print('boston.feature_name:{}'.format(boston.feature_names))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

model = LinearRegression()

start = time.clock()

model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)

cv_score = model.score(X_test, y_test)

print('time used:{0:.6f}; train_score:{1:.6f}, sv_score:{2:.6f}'.format((time.clock()-start),

train_score, cv_score))

输出内容为:

X.shape:(506, 13). y.shape:(506,)

boston.feature_name:['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'

'B' 'LSTAT']

time used:0.012403; train_score:0.723941, sv_score:0.794958

可以看到测试集上准确率并不高,应该是欠拟合。

使用多项式做线性回归

上面的例子是欠拟合的,说明模型太简单,无法拟合数据的情况。现在增加模型复杂度,引入多项式。

打个比方,如果原来的特征是[a, b]两个特征,

在degree为2的情况下, 多项式特征变为[1, a, b, a^2, ab, b^2]。degree为其它值的情况依次类推。

多项式特征相当于增加了数据和模型的复杂性,能够更好的拟合。

下面的代码使用Pipeline把多项式特征和线性回归特征连起来,最终测试degree在1、2、3的情况下的得分。

from sklearn.datasets import load_boston

from sklearn.model_selection import train_test_split

import time

from sklearn.linear_model import LinearRegression

from sklearn.preprocessing import PolynomialFeatures

from sklearn.pipeline import Pipeline

def polynomial_model(degree=1):

polynomial_features = PolynomialFeatures(degree=degree, include_bias=False)

linear_regression = LinearRegression(normalize=True)

pipeline = Pipeline([('polynomial_features', polynomial_features),

('linear_regression', linear_regression)])

return pipeline

boston = load_boston()

X = boston.data

y = boston.target

print("X.shape:{}. y.shape:{}".format(X.shape, y.shape))

print('boston.feature_name:{}'.format(boston.feature_names))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

for i in range(1,4):

print( 'degree:{}'.format( i ) )

model = polynomial_model(degree=i)

start = time.clock()

model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)

cv_score = model.score(X_test, y_test)

print('time used:{0:.6f}; train_score:{1:.6f}, sv_score:{2:.6f}'.format((time.clock()-start),

train_score, cv_score))

输出结果为:

X.shape:(506, 13). y.shape:(506,)

boston.feature_name:['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'

'B' 'LSTAT']

degree:1

time used:0.003576; train_score:0.723941, sv_score:0.794958

degree:2

time used:0.030123; train_score:0.930547, sv_score:0.860465

degree:3

time used:0.137346; train_score:1.000000, sv_score:-104.429619

可以看到degree为1和上面不使用多项式是一样的。degree为3在训练集上的得分为1,在测试集上得分是负数,明显过拟合了。

所以最终应该选择degree为2的模型。

二阶多项式比一阶多项式好的多,但是测试集和训练集上的得分仍有不少差距,这可能是数据不够的原因,需要更多的讯据才能进一步提高模型的准确度。

正规方程解法和梯度下降的比较

除了梯度下降法来逼近最优解,也可以使用正规的方程解法直接计算出最终的解来。

根据吴恩达的课程,线性回归最优解为:

theta = (X^T * X)^-1 * X^T * y

其实两种方法各有优缺点:

梯度下降法:

缺点:需要选择学习率,需要多次迭代

优点:特征值很多(1万以上)时仍然能以不错的速度工作

正规方程解法:

优点:不需要设置学习率,不需要多次迭代

缺点:需要计算X的转置和逆,复杂度O3;特征值很多(1万以上)时特变慢

在分类等非线性计算中,正规方程解法并不适用,所以梯度下降法适用范围更广。

以上这篇sklearn+python:线性回归案例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持python博客。

python线性回归实例_sklearn+python:线性回归案例相关推荐

  1. python编程实例教程-Python程序设计实例教程

    图书简介 配套资源:电子课件,习题答案,教学大纲,源代码 本书特色: ★本书共14个项目,主要包括Python编程基础.网络爬虫.数据分析和数据可视化四大部分内容. ★全部代码适用于Python 3. ...

  2. python语言实例-采用python进行编程的实例有哪些?

    来源:Linux论坛 查看:2150 回复:1 Python是一门简单.易学并且很有前途的编程语言,很多人都对Python感兴趣,但是当学完Python基础用法之后,又会产生迷茫,尤其是自学的人员,不 ...

  3. python爬虫实例电商_Python案例:先爬虫爬取,再分析2000款避孕套,最后得出这个结论...

    在学过了Python爬虫.数据分析之后,曾几何时,这样一个问题一直缠绕着我. Python爬虫能用来干点什么?Python数据分析能不能让这剪不断理还乱的数据变得更有意义? 也许,想来想去,只有用来干 ...

  4. python爬虫实例解析-Python(爬虫)- 动态加载案例分析

    requests """ 基于网络请求的模块. 环境的安装:pip install requests 作用:模拟浏览器发起请求 分析requests的编码流程: 1.指定 ...

  5. python数据清洗实例_Python文本清洗案例分析:直播弹幕数据清洗

    任务需求 清洗json格式的弹幕数据(以"聆听丶芒果鱼直播间时间切片弹幕.json"为例),具体要求如下: 提取出所有弹幕类型(列表中的第1个元素)为"NM"的 ...

  6. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  7. python编程实例下载-python网络编程之文件下载实例分析

    本文实例讲述了python网络编程之文件下载实现方法.分享给大家供大家参考.具体如下: 真是越看越喜欢python啊,想要了解它提供的http和ftp下载功能,原来是如此的简单. 1.相应模块 ftp ...

  8. 【Python基础】Github标星4.7k,每天推送一个python小实例的Python库

    文章来源于Python与算法社区,作者zhenguo 推荐一个 python-small-examples 库,每天推送一个Python实例.时至今日,共有4700人 star 期间多次登上githu ...

  9. 简单python脚本实例-对Python实现简单的API接口实例讲解

    get方法 代码实现 # coding:utf-8 import json from urlparse import parse_qs from wsgiref.simple_server impor ...

最新文章

  1. OpenMP知识点汇总
  2. File.separator
  3. 设置中文环境_我花几年时间找到的学习中文好方法,值得你一看
  4. 带哨兵节点的链_Redis 哨兵节点之间相互自动发现机制(自动重写哨兵节点的配置文件)...
  5. 机器学习算法基础3-sklearn数据集与估计器
  6. mysql sql语句面试经典50题_经典sql面试及答案(50)
  7. 线性表的链式存储结构(C语言实现)
  8. 虚函数表和虚函数指针
  9. 微软收购雅虎要中国政府审批?
  10. 豆瓣链接打开之后总是跳转首页
  11. C++ 使用 OpenCV 实现证件照蓝底换成白底功能(或其他颜色如红色)详解
  12. 在visio中不借助公式编辑器在字母上方打波浪线
  13. 计算机网络实验报告:【验证性实验】
  14. 【翻译】 XDP的力量
  15. IDEA解决开两个窗口问题
  16. 智慧家庭工程师题初级
  17. Android ListView 和 ***Adapter 从本地/网络获取歌曲列表
  18. 智和网管平台国产化解决方案
  19. 《校园墙》小程序可行性分析
  20. elasticsearch备份

热门文章

  1. 实现在CentOS7环境下搭建个人github博客
  2. 马士兵java note 5
  3. DFiddler:A HTTP Packets Listener一个简易版的手机端的Fiddler。
  4. Mac下github的使用
  5. syslog记录history历史记录
  6. 如何解决Beyond Compare内容相同仍然标示红色
  7. Leetcode1706. 球会落何处[C++题解]:模拟
  8. 李永乐线性代数手写笔记-行列式与矩阵
  9. linux怎么调用静态库,Linux 静态库的创建和使用
  10. linux学习比较好的网站,推荐一个好的在线学习Linux/Unix的好网站