1. 经典的线性回归分析与交叉验证
examDict={' 学习时 ':[0.50, 0.75, 1.00, 1.25,1.50,1.75, 1.75,2.00, 2.25,2.50,
2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50], '分':[10,22,13 ,43,20,22,33,50,62 ,
48,55,75,62,73,81,76,64,82,90,93]}
examDf = pd.DataFrame(examDict)
X_train,X_test,Y_train,Y_test = train_test_split(exam_X,exam_Y,train_size=0.8)
model = LinearRegression()
model.fit(X_train,Y_train)
a = model.intercept_#截距
b = model.coef_#回归系数
y_train_pred = model.predict(X_train) #预测
score = model.score(X_test,Y_test) #可决系数 0.8866470295386657
2. 经典的多元线性回归分析的模型参数的假设检验
import statsmodels.api as sm
from sklearn import datasets ## 从 scikit-learn 导入数据集
data = datasets.load_boston() ## 从数据集库加载波士顿数据集
import numpy as np
import pandas as pd
df = pd.DataFrame(data.data, columns=data.feature_names)
target = pd.DataFrame(data.target, columns=["MEDV"])
X = df[['CRIM', 'ZN', 'INDUS']] ## X 通常表示我们的输入变量 (或自变量)
y = target["MEDV"] ## Y 通常表示输出/因变量
X = sm.add_constant(X) ## 我们添加一个截距(beta_0)到我们的模型
model = sm.OLS(y, X).fit() ## sm.OLS(输出, 输入)
predictions = model.predict(X)
model.summary() ## 打印出统计模型

3. 岭回归模型

X_train,X_test,Y_train,Y_test = train_test_split(df2,df1,train_size=0.8)
model = Ridge(alpha=0.5,fit_intercept=True)
model = RidgeCV(alphas=[0.01,0.1,0.2, 0.5, 1],normalize = True,cv=10)
model.fit(X_train,Y_train)
ridge_best_alpha = model.alpha_ #得到最佳lambda值
print(f"岭回归关键正则参数={ridge_best_alpha}")
计算可决系数
a=model.intercept_
b=model.coef_
y_train_pred =model.predict(X_train)
score=model.score(X_test, Y_test)
print(score)

4. 基于最佳lambda值建模

ridge = Ridge(alpha = ridge_best_alpha,normalize = True)
ridge.fit(X_train,Y_train)
ridge_predict = ridge.predict(X_test)
计算损失函数
rmse = np.sqrt(mean_squared_error(Y_test,ridge_predict))

5.  LASSO回归模型:

lasso_cv = LassoCV(alphas = alphas, normalize=True, cv = 10, max_iter=10000)
lasso_cv.fit(x_tr,y_tr)
lasso_best_alpha = lasso_cv.alpha_
lasso_best_alpha
lasso = Lasso(alpha = lasso_best_alpha, normalize=True, max_iter=10000)
lasso.fit(x_tr, y_tr)
lasso_predict = lasso.predict(x_te) #预测
RMSE = np.sqrt(mean_squared_error(y_te,lasso_predict))

本次任务额外知识点:

seed = 7
np.random.seed(seed)
10折交叉验证
kfold = StratifiedKFold(n_splits=10, shuffle=False, random_state=seed)
固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的

y代表输出答案,y_代表标准答案
mse=tf.reduce_mean(tf.square(Y_test-yy_train_pred))

题目

3. 数据集简介
原始数据有 14 个变量的 506 个观察值,其中,medv(自住房屋房 价中位数,单位:千美元)是原始的目标变量,其他变量包括:crim(城镇 的人均犯罪率)、mn(占地面积超过 25000 平方英尺的住宅用地的比例)、indus(每个镇的非零售业务比例,单位:英亩)、chas(有关查尔斯河的 虚拟变量,如果挨着河为1,否则为0)、mo(一氧化氮浓度,单位:Ppm)、 m(平均每间住房的房间数量)、age(1940 年以前建成的自住单位的房 龄比例)、dis(五个波土顿就业中心的加权距离)、rad(高速公路的可达 性指数)、tax(每万美元全价物业值的财产税率)、ptratio(城镇学生与教 师的比例)、b(=100078-0.63)2,其中的 B 是城镇黑人的比例)、Istat(低 收入人口比例);更正过的数据集有以下附加变量:cmed(修正了的自住 房价中位数,单位:千美元)、tow(镇名称)、trat(人口普查区)、lon(人
口普查区的经度)、lat(人口普查区的纬度)。
4. 数据集使用
我们将用 comedy(修正了的自住房屋房价中位数)作为因变量, 而将 crimznindusnoxrmagedisradtaxptratiob lstat12个变量作为自变量。(数据详见BostonHousing2.csv文件)。
5. 回归任务指定
(1)利用指定的 12 个自变量与因变量 comedy 创建散布图矩阵,要目的查看各自变量与因变量之间的相关性
(2)随机地将当前数据集按照 3:1 的容量比例划分为训练集(用于建立模型)和测试集(用于检测模型的预测精度),重复此步骤十次, 并将得到十次结果制作如下的折线图,其中横坐标为次数,纵坐标为 对应次数的可决系数。如下图所示(可以与图不一致,主要体现可决系数变化规律
(3)最优回归方程的选择:从 12 个自变量中随机的抽取 n(其中 n=2,…..12)个自变量,并利用十折交叉验证计算所建模型的可决系 数,依据以上 12 个模型的可决系数大小确定哪一个模型的预测精度 较高。(并不一定使用全部自变量的模型精度最好
(4)岭回归、Lasso 回归模型中关键正则参数

多元统计分析——多元线性回归相关推荐

  1. python 多元线性回归_多元统计分析之多元线性回归的R语言实现

    多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...

  2. 【多元统计分析】均值向量和协方差阵的检验——spss上机实验

    均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...

  3. SPASS多元统计分析在无人机航线精度方面的综合评价

    SPASS多元统计分析在无人机航线精度方面的综合评价 无人机作为获取低空航空影像的载体,其航线飞行精度直接决定影像的质量与后期图像数据处理精度.GPS/IMU系统作为无人机目标航点及任务航点导航与定位 ...

  4. 多元统计分析何晓群_多元统计分析第四章作业

    关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...

  5. 多元统计分析最短距离法_多元统计分析重点

    多元统计分析重点宿舍版 第一讲:多元统计方法及应用:多元统计 方法分类(按变量.模型.因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分 析, 因子 ...

  6. 多元统计分析matlab,MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法...

    MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类 这里用最简单的实例说明以下层次聚类原理和应用发 ...

  7. 多元统计分析及R语言建模_自定义函数: msaR.R

    #*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...

  8. spss典型相关分析_R语言实战 多元统计分析Day10— —典型相关分析

    R语言实战多元统计分析Day10-- 典型相关分析 01 前言 典型相关分析是用于分析两组随机变量之间的相关性程度的一种统计方法,它能够有效的揭示两组随机变量之间的相互线性依赖关系,这种方法是由Hot ...

  9. 多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc

    应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...

  10. 【应用多元统计分析】-王学民Python主成分分析例题,特征值处理和可视化(2)

    title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...

最新文章

  1. VirtualBox在桥接模式下无网络处理
  2. Scrum立会报告+燃尽图(十二月六日总第三十七次):程序功能逻辑优化
  3. Linux属于下面哪一种软件,【单选题】下面软件中属于自由软件开放源码的是( )。 A. Unix B. Linux C. Mi...
  4. 流利说递交招股书:上半年亏1.8亿 王翌持股27.9%
  5. 浏览器本地存储的使用
  6. Redis 快速搭建与使用
  7. java中什么是底层数据结构_JavaScript 对象的底层数据结构是什么
  8. pycharm输入不了代码_最易懂的Python新手教程:从基础语法到代码详解
  9. 开发软件安装教程-MATLAB2016b安装教程图解
  10. 附件二:攻防演练保密协议.docx
  11. Python爬虫马蜂窝结伴信息
  12. 国内半导体发展现状——部分上市公司分类名单
  13. 一文读懂HBase的存储模式--BigTable
  14. Htmlcssjs 图片轮播,加箭头
  15. 分组数据方差公式_用Excel算分组方差《excel怎么求分组的数据的标准差》
  16. 什么是框架,到底为什么要使用框架?
  17. python利用以下公式求π的值_Python 计算 π 值的简单示例
  18. 成都有什么好的互联网公司推荐?
  19. react的SSR(2)
  20. 代编股票选股公式、代编公式选股、代编期货量化交易公式、代编公式选股

热门文章

  1. nlp基础—12.LSTM-CRF模型介绍
  2. SpringMVC原理
  3. Java虚拟机(JVM)字节码指令表
  4. 用Python进行数学建模(一)
  5. 小D课堂-nexus
  6. 小米平板2刷Linux教程,小米平板2刷机教程 官方线刷图文教程
  7. Java微服务面试题
  8. Eclipse安装中文简体语言包(详细)
  9. 素士科技IPO折戟,困于营销和小米
  10. 完美解析Opendrive地图格式数据