原始数据在这里

1.观察数据

首先,用Pandas打开数据,并进行观察。

import numpy

import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

data = pd.read_csv('Folds5x2_pp.csv')

data.head()

会看到数据如下所示:

这份数据代表了一个循环发电厂,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。我们不用纠结于每项具体的意思。

我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型,即: PE=θ0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH 而需要学习的,就是θ0,θ1,θ2,θ3,θ4这5个参数。

接下来对数据进行归一化处理:

data = (data - data.mean())/data.std()

因为回归线的截距θ0是不受样本特征影响的,因此我们在此可以设立一个X0=1,使得回归模型为:

PE=θ0*X0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH

将方程向量化可得:

PE = hθ(x) = θx (θ应转置)

2.线性回归

在线性回归中,首先应建立 cost function,当 cost function 的值最小时所取得θ值为所求的θ。

在线性回归中,Cost function如下所示:

因此,可以在Python中建立函数求损失方程:

def CostFunction(X,y,theta):

inner = np.power((X*theta.T)-y,2)

return np.sum(inner)/(2*len(X))

然后,设初始θ为=[0,0,0,0,0],可得到最初的J(θ)值为0.49994774247491858,代码如下所示

col = data.shape[1]

X = data.iloc[:,0:col-1]

y = data.iloc[:,col-1:col]

X = np.matrix(X.values)

y = np.matrix(y.values)

theta = np.matrix(np.array([0,0,0,0,0]))

temp = np.matrix(np.zeros(theta.shape))

CostFunction(X,y,theta)

接下来,有两种方法可以使用。1.梯度下降法(gradient descent)和 2.最小二乘法(normal equation)。在此我们使用梯度下降法来求解。

梯度下降法是求得J对θ的偏导数,通过设置步长,迭代使J(θ)逐步下降,从而求得局部最优解。

公式如下所示:

j:特征编号

m:样本编号

我们可以在Python中写出计算迭代后的θ和J(θ)

def gradientDescent(X,y,theta,alpha,iters):

temp = np.matrix(np.zeros(theta.shape))

parameters = int(theta.ravel().shape[1])

cost = np.zeros(iters)

for i in range(iters):

error = (X*theta.T)-y

for j in range(parameters):

term = np.multiply(error,X[:,j])

temp[0,j] = theta[0,j] - (alpha/len(X))*np.sum(term)

theta = temp

cost[i] = CostFunction(X,y,theta)

return theta,cost

在此,我设置初始的α为0.1,可求得迭代1000次后θ0,θ1,θ2,θ3,θ4的值分别是:

-5.22080706e-14,-8.63485491e-01,-1.74182863e-01,2.16058120e-02,-1.35205248e-01

此时 J(θ)的值为0.0379648。

通过,可视化J(θ)和迭代次数可以发现,J(θ)收敛的非常快。

画图观察预测值和损失值,距离直线约近说明损失越小:

predicted = X*g.T

predicted = predicted.flatten().A[0]

y_f= y.flatten().A[0]

fig, ax = plt.subplots()

ax.scatter(y_f,predicted)

ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)

ax.set_xlabel('Measured')

ax.set_ylabel('Predicted')

plt.show()

3.sckit-learn

因为J(θ)收敛的太快了…所以我又用sckit-learn和SPSS验证了一下。

先看sckit-learn,在sklearn中,线性回归是使用的最小二乘法而不是梯度下降法,用起来也十分的简单。

代码如下:

from sklearn import linear_model

model = linear_model.LinearRegression()

model.fit(X, y)

打印出θ值后发现和梯度下降法算出来的相差无几,θ0,θ1,θ2,θ3,θ4的值分别是:

0,-0.86350078,-0.17417154,0.02160293,-0.13521023

4.SPSS

在看看SPSS

同样先将数据标准化后进行线

然后进行线性回归分析得到结果:

嘛…和前面两种方法的结果也差不多…就这样吧。

以上这篇关于多元线性回归分析——Python&SPSS就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

本文标题: 关于多元线性回归分析——Python&SPSS

本文地址: http://www.cppcns.com/jiaoben/python/301306.html

python数据导入spss_关于多元线性回归分析——PythonSPSS相关推荐

  1. python多元线性回归实例_关于多元线性回归分析——PythonSPSS

    原始数据在这里 1.观察数据 首先,用Pandas打开数据,并进行观察. import numpy import pandas as pd import matplotlib.pyplot as pl ...

  2. 基于Python的多元线性回归分析

    一.多元线性回归分析(Multiple regression) 1.与简单线性回归相比较,具有多个自变量x 2.多元回归模型 其中是误差值,与简单线性回归分析中的要求特点相一致.其余的系数和截距为参数 ...

  3. 在python中使用最小二乘法画出拟合曲线_基于jupyter notebook的python编程-----运用最小二乘法,导入文件数据模拟一元线性回归分析...

    基于jupyter notebook的python编程-----运用最小二乘法,导入文件数据模拟一元线性回归分析 用最小二乘法模拟一元线性回去曲线的目录 一.运行jupyter notebook,搭建 ...

  4. 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析

    在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ...

  5. 5.1 多元线性回归分析

    在本章中,我们将从线性回归模型开始,它是最简单的模型之一. 数据集来自于UIC数据集中的能效数据集,该数据及用来分析建筑的供热负荷能效和制冷负荷能效,其中自变量有8个,因变量有两个,实例主要分析8个自 ...

  6. 【数学建模】多元线性回归分析

    多元线性回归分析 概念 目的:作出以多个自变量估计因变量的多元线性回归方程. 资料:因变量为定量指标:自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换. 用途:解释和预报. 意义:由于事物 ...

  7. 数学建模学习笔记(9)多元线性回归分析(非常详细)

    多元线性回归分析 1.回归分析的地位.任务和分类 2.数据的分类 3.对线性的理解.系数的解释和内生性 4.取对数预处理.虚拟变量和交互效应 5.使用Stata进行多元线性回归分析 6.异方差 7.多 ...

  8. 数学建模-7.多元线性回归分析

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决 回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释 ...

  9. 用R进行多元线性回归分析建模

    概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法.当自变量与因变量之间存在线性关系时,称为多元线性回归分析. 下面我就举几个例子来说明一下 ...

最新文章

  1. nodejs端口被占用。
  2. pandas使用to_sql方法将dataframe注册为数据库表进行数据整合和数据清洗并不对比SQL操作和dataframe操作
  3. 学习redhat linux 6.1中文版笔记
  4. stl的set,multiset, map, multimap, deque, list, stack, queue, priority_queue
  5. uniapp时间戳转换
  6. API-基本数据类型与字符串的互换
  7. 自定义函数strcomp(),实现两个字符串的比较
  8. 用vue实现模态框组件
  9. m_map投影_MATLAB使用m_map工具箱演示绘制m_map logo
  10. 【设计模式 03】装饰模式——俄罗斯套娃?
  11. Java中的继承:父类和子类的关系
  12. priority_queue 用法总结
  13. MySQL,Oracle,DB2,PostgreSQL上explain的用法
  14. Matlab绘制线条消除锯齿
  15. 卫健委:2020年基本建立较完善的三级公立医院绩效考核体系
  16. 英语学习详细笔记(三)代名词
  17. pdfmake生成pdf文件
  18. 从面试官角度观察到的程序员技能瓶颈,同时给出突破瓶颈的建议
  19. 微软针对lapsus$事件的最新调查报告 中文版
  20. HTML块级元素与行内元素的转变

热门文章

  1. 机器学习项目(一):泰坦尼克号乘客生存概率分析
  2. java中update什么意思,大量教程
  3. sudo apt-get update更新软件列表
  4. python爬虫制作古诗或者藏头诗
  5. Java开发使用ProtoBuf Support
  6. 传智播客ADO.Net项目开发教程详解
  7. 如何下载廊坊市卫星地图高清版大图
  8. 【对讲机的那点事】自制VHF/UHF四分之一波长天线简易教程
  9. RocketMQ实战与原理解析
  10. 于丹《论语心得》中唯一让我感动的地方