多元统计分析——多元线性回归

1. 经典的线性回归分析与交叉验证

examDict={' 学习时 ':[0.50, 0.75, 1.00, 1.25,1.50,1.75, 1.75,2.00, 2.25,2.50,
2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50], '分':[10,22,13 ,43,20,22,33,50,62 ,
48,55,75,62,73,81,76,64,82,90,93]}
examDf = pd.DataFrame(examDict)
X_train,X_test,Y_train,Y_test = train_test_split(exam_X,exam_Y,train_size=0.8)
model = LinearRegression()
model.fit(X_train,Y_train)
a = model.intercept_#截距
b = model.coef_#回归系数
y_train_pred = model.predict(X_train) #预测
score = model.score(X_test,Y_test) #可决系数 0.8866470295386657

2. 经典的多元线性回归分析的模型参数的假设检验

import statsmodels.api as sm
from sklearn import datasets ## 从 scikit-learn 导入数据集
data = datasets.load_boston() ## 从数据集库加载波士顿数据集
import numpy as np
import pandas as pd
df = pd.DataFrame(data.data, columns=data.feature_names)
target = pd.DataFrame(data.target, columns=["MEDV"])
X = df[['CRIM', 'ZN', 'INDUS']] ## X 通常表示我们的输入变量 (或自变量)
y = target["MEDV"] ## Y 通常表示输出/因变量
X = sm.add_constant(X) ## 我们添加一个截距（beta_0）到我们的模型
model = sm.OLS(y, X).fit() ## sm.OLS(输出, 输入)
predictions = model.predict(X)
model.summary() ## 打印出统计模型

3. 岭回归模型

X_train,X_test,Y_train,Y_test = train_test_split(df2,df1,train_size=0.8)
model = Ridge(alpha=0.5,fit_intercept=True)
model = RidgeCV(alphas=[0.01,0.1,0.2, 0.5, 1],normalize = True,cv=10)
model.fit(X_train,Y_train)
ridge_best_alpha = model.alpha_ #得到最佳lambda值
print(f"岭回归关键正则参数={ridge_best_alpha}")
计算可决系数
a=model.intercept_
b=model.coef_
y_train_pred =model.predict(X_train)
score=model.score(X_test, Y_test)
print(score)

4. 基于最佳lambda值建模

ridge = Ridge(alpha = ridge_best_alpha,normalize = True)
ridge.fit(X_train,Y_train)
ridge_predict = ridge.predict(X_test)
计算损失函数
rmse = np.sqrt(mean_squared_error(Y_test,ridge_predict))

5. LASSO回归模型：

lasso_cv = LassoCV(alphas = alphas, normalize=True, cv = 10, max_iter=10000)
lasso_cv.fit(x_tr,y_tr)
lasso_best_alpha = lasso_cv.alpha_
lasso_best_alpha
lasso = Lasso(alpha = lasso_best_alpha, normalize=True, max_iter=10000)
lasso.fit(x_tr, y_tr)
lasso_predict = lasso.predict(x_te) #预测
RMSE = np.sqrt(mean_squared_error(y_te,lasso_predict))

本次任务额外知识点：

seed = 7
np.random.seed(seed)
10折交叉验证
kfold = StratifiedKFold(n_splits=10, shuffle=False, random_state=seed)
固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的

y代表输出答案，y_代表标准答案
mse=tf.reduce_mean(tf.square(Y_test-yy_train_pred))

题目

3. 数据集简介

原始数据有 14 个变量的 506 个观察值，其中，medv(自住房屋房价中位数，单位:千美元)是原始的目标变量，其他变量包括:crim(城镇的人均犯罪率)、mn(占地面积超过 25000 平方英尺的住宅用地的比例)、indus(每个镇的非零售业务比例，单位:英亩)、chas(有关查尔斯河的虚拟变量，如果挨着河为1，否则为0)、mo(一氧化氮浓度，单位:Ppm)、 m(平均每间住房的房间数量)、age(1940 年以前建成的自住单位的房龄比例)、dis(五个波土顿就业中心的加权距离)、rad(高速公路的可达性指数)、tax(每万美元全价物业值的财产税率)、ptratio(城镇学生与教师的比例)、b(=100078-0.63)2，其中的 B 是城镇黑人的比例)、Istat(低收入人口比例);更正过的数据集有以下附加变量:cmed(修正了的自住房价中位数，单位:千美元)、tow(镇名称)、trat(人口普查区)、lon(人

口普查区的经度)、lat(人口普查区的纬度)。

4. 数据集使用

我们将用 comedy(修正了的自住房屋房价中位数)作为因变量，而将 crim，zn，indus，nox，rm，age，dis，rad，tax，ptratio，b， lstat 这12个变量作为自变量。(数据详见BostonHousing2.csv文件)。

5. 回归任务指定

（1）利用指定的 12 个自变量与因变量 comedy 创建散布图矩阵，主要目的查看各自变量与因变量之间的相关性。

（2）随机地将当前数据集按照 3:1 的容量比例划分为训练集（用于建立模型）和测试集(用于检测模型的预测精度)，重复此步骤十次，并将得到十次结果制作如下的折线图，其中横坐标为次数，纵坐标为对应次数的可决系数。如下图所示（可以与图不一致，主要体现可决系数变化规律）

（3）最优回归方程的选择：从 12 个自变量中随机的抽取 n（其中 n=2,…..12）个自变量，并利用十折交叉验证计算所建模型的可决系数，依据以上 12 个模型的可决系数大小确定哪一个模型的预测精度较高。（并不一定使用全部自变量的模型精度最好）

（4）岭回归、Lasso 回归模型中关键正则参数

多元统计分析——多元线性回归相关推荐

python 多元线性回归_多元统计分析之多元线性回归的R语言实现
多元统计分析之多元线性回归的R语言实现多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...
【多元统计分析】均值向量和协方差阵的检验——spss上机实验
均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...
SPASS多元统计分析在无人机航线精度方面的综合评价
SPASS多元统计分析在无人机航线精度方面的综合评价无人机作为获取低空航空影像的载体,其航线飞行精度直接决定影像的质量与后期图像数据处理精度.GPS/IMU系统作为无人机目标航点及任务航点导航与定位 ...
多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享回复关键词:多元统计分析即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
多元统计分析最短距离法_多元统计分析重点
多元统计分析重点宿舍版第一讲:多元统计方法及应用:多元统计方法分类(按变量.模型.因变量等) 多元统计分析应用选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析, 因子 ...
多元统计分析matlab,MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法...
MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类这里用最简单的实例说明以下层次聚类原理和应用发 ...
多元统计分析及R语言建模_自定义函数: msaR.R
#*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...
spss典型相关分析_R语言实战多元统计分析Day10— —典型相关分析
R语言实战多元统计分析Day10-- 典型相关分析 01 前言典型相关分析是用于分析两组随机变量之间的相关性程度的一种统计方法,它能够有效的揭示两组随机变量之间的相互线性依赖关系,这种方法是由Hot ...
多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc
应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...
【应用多元统计分析】-王学民Python主成分分析例题，特征值处理和可视化（2）
title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...

多元统计分析——多元线性回归

多元统计分析——多元线性回归相关推荐

最新文章

热门文章