https://zhuanlan.zhihu.com/p/76055830

LASSO回归模型的应用

①可视化方法确定

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
from sklearn import model_selection
from sklearn.linear_model import Lasso, LassoCV
font = {'family': 'FangSong','weight': 'bold','size': 12
}
matplotlib.rc("font", **font)
# 读取糖尿病数据集
diabetes = pd.read_excel('./data/diabetes.xlsx')
# 构造自变量(剔除患者性别、年龄和因变量)
predictors = diabetes.iloc[:, 2: -1]
# 将数据集拆分成训练集和测试集
x_train, x_test, y_train, y_test = model_selection.train_test_split(predictors, diabetes['Y'], test_size=0.2, random_state=1234)
'''
可视化方法确定λ的值
'''
# 构造不同的Lambda值
Lambdas = np.logspace(-5, 2, 200)
# 构造空列表,用于存储模型的偏回归系数
lasso_cofficients = []
for Lambda in Lambdas:lasso = Lasso(alpha=Lambda, normalize=True, max_iter=10000)lasso.fit(x_train, y_train)lasso_cofficients.append(lasso.coef_)
'''
可视化方法确定λ的值
'''
# 绘制Lambda与回归线的折线图
plt.plot(Lambdas, lasso_cofficients)
# 对x轴做对数变换
plt.xscale('log')
# 设置折线图x轴和y轴标签
plt.xlabel('Lambda')
plt.ylabel('Cofficients')
# 显示图形
plt.show()

②交叉验证法确定λ的值

# LASSO回归模型的交叉验证
lasso_cv = LassoCV(alphas=Lambdas, normalize=True, cv=10, max_iter=10000)
lasso_cv.fit(x_train, y_train)
# 输出最佳的lambda值
lasso_best_alpha = lasso_cv.alpha_  # 0.06294988990221888
print(lasso_best_alpha)

③模型的预测


# 基于最佳的lambda值建模
lasso = Lasso(alpha=lasso_best_alpha, normalize=True, max_iter=10000)
# 对"类"加以数据实体,执行回归系数的运算
lasso.fit(x_train, y_train)
# 返回LASSO回归的系数
res = pd.Series(index=['Intercept'] + x_train.columns.tolist(), data=[lasso.intercept_] + lasso.coef_.tolist())
'''
Intercept   -278.560358
BMI            6.188602
BP             0.860826
S1            -0.127627
S2            -0.000000
S3            -0.488408
S4             0.000000
S5            44.487738
S6             0.324076
系数中含有两个0,分别是S2和S4,说明这两个变量对糖尿病指数Y没有显著意义
'''
print(res)
# 模型预测
lasso_predict = lasso.predict(x_test)
# 验证预测效果
from sklearn.metrics import mean_squared_error
RMSE = np.sqrt(mean_squared_error(y_test, lasso_predict))  # 53.061437258225745
print(RMSE)

用线性回归做比较

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
from sklearn import model_selection
from statsmodels import api as sms
from sklearn.metrics import mean_squared_error
font = {'family': 'FangSong','weight': 'bold','size': 12
}
matplotlib.rc("font", **font)
# 读取糖尿病数据集
diabetes = pd.read_excel('./data/diabetes.xlsx')
# 构造自变量(剔除患者性别、年龄和因变量)
predictors = diabetes.iloc[:, 2: -1]
# 将数据集拆分成训练集和测试集
x_train, x_test, y_train, y_test = model_selection.train_test_split(predictors, diabetes['Y'], test_size=0.2, random_state=1234)
# 为自变量x添加常数列1,用于拟合截距项
x_train2 = sms.add_constant(x_train)
x_test2 = sms.add_constant(x_test)
# 构建多元线性回归模型
liner = sms.formula.OLS(y_train, x_train2).fit()
# 返回线性回归模型的系数
params = liner.params
'''
const   -406.699716
BMI        6.217649
BP         0.948245
S1        -1.264772
S2         0.901368
S3         0.962373
S4         6.694215
S5        71.614661
S6         0.376004
dtype: float64
'''
print(params)
# 模型预测
linear_predict = liner.predict(x_test2)
# 预测效果验证
RMSE = np.sqrt(mean_squared_error(y_test, linear_predict))  # 53.42623939722992
print(RMSE)

python-LASSO回归模型相关推荐

  1. Python使用sklearn构建lasso回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型

    Python使用sklearn构建lasso回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型 目录

  2. 基于Python的岭回归与LASSO回归模型介绍及实践

    基于Python的岭回归与LASSO回归模型介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 岭 ...

  3. R语言glmnet拟合lasso回归模型实战:lasso回归模型的模型系数及可视化、lasso回归模型分类评估计算(混淆矩阵、accuracy、Deviance)

    R语言glmnet拟合lasso回归模型实战:lasso回归模型的模型系数(lasso regression coefficients)及可视化.lasso回归模型分类评估计算(混淆矩阵.accura ...

  4. R构建lasso回归模型并获得最佳正则化系数

    R构建lasso回归模型并获得最佳正则化系数 目录 R构建lasso回归模型并获得最佳正则化系数 数据加载 拟合LASSO回归模型

  5. R语言使用glmnet包的glmnet函数拟合lasso回归模型:使用cv.glmnet函数获取最佳lambda值、coef函数获取每个特征的系数以及截距

    R语言使用glmnet包的glmnet函数拟合lasso回归模型:使用cv.glmnet函数获取最佳lambda值.coef函数获取每个特征的系数以及截距 目录

  6. python模型预测_【超级干货!】教你用Python做回归模型预测房价

    原标题:[超级干货!]教你用Python做回归模型预测房价 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智 ...

  7. python-sklearn岭回归与LASSO回归模型(套索)代码实操

    python-sklearn岭回归与lasso回归模型代码实操 前言 一.岭回归 1.岭回归介绍 2.代码实现 3.岭回归参数调整 4.岭迹分析,可视化分析 二.LASSO回归 1.LASSO回归介绍 ...

  8. 简单数据预测—使用Python训练回归模型并进行预测(转自蓝鲸网站分析博客)

     使用Python训练回归模型并进行预测 回归分析是一种常见的统计方法,用于确定不同变量间的相互关系.在Excel中可以通过数据分析菜单中的回归功能快速完成.本篇文章将介绍在python中使用机器 ...

  9. python时间序列滞后命令_如何在Python Pandas回归模型中使用滞后的时间序列变量?...

    我正在创建时间序列计量经济回归模型. 数据存储在Pandas数据框中. 如何使用Python进行滞后的时序经济计量分析? 我过去曾经使用过Eviews(这是一个独立的计量经济学程序,即不是Python ...

  10. 怎么用python进行回归预测_使用Python训练回归模型并进行预测

    摘要:本篇文章将介绍在python中使用机器学习库sklearn建立简单回归模型的过程. 回归分析是一种常见的统计方法,用于确定不同变量间的相互关系.在Excel中可以通过数据分析菜单中的回归功能快速 ...

最新文章

  1. selendroid之inspector
  2. OpenStack环境下nova resize报ssh连接错误
  3. 敲点JavaScript代码
  4. Chinaren,逐渐变为垃圾了。
  5. Windows下卸载TensorFlow
  6. loadrunner mysql脚本_LoadRunner11_MySQL数据库脚本
  7. Zend Framework实例教程三
  8. Azure 中国篇之网络服务—(2)Azure虚拟机使用公网ip(PIP)
  9. linux在电子信息工程行业中的应用,电子信息工程概述论文
  10. java-cef系列视频第三集:添加flash支持
  11. iperf 服务端发送数据_iperf网络测试工具
  12. access中如何画斜线_在Excel单元格中如何用斜线分割填写?
  13. SAP R3 功能详解 - 财务管理
  14. Android .9
  15. 千克转换为磅并显示(小练习)
  16. 嵌入式linux pam,PAM介绍(一)
  17. python输入某年某月某日判断这是第几天_Python编程实现输入某年某月某日计算出这一天是该年第几天的方法...
  18. Codeforces 616A
  19. python脚本模板
  20. php自动生成phpunit,[PHPUnit]自动生成PHPUnit测试骨架脚本

热门文章

  1. vmware 恢复快照时出错
  2. 博弈——ICE公平组合游戏(简单整理结论)
  3. php编写古诗,古诗写作方法集锦
  4. Hack The Box-meow
  5. 【围观】CISP-PTE 考题示例
  6. 彻底搞懂ResNet50
  7. hdu - 1789 题解
  8. 去除input边框以及选中时边框 默认样式
  9. python nonlocal 的应用
  10. [基础算法] 并查集