原文链接:http://tecdat.cn/?p=25158

原文出处:拓端数据部落公众号

本文拟合具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法,如组lasso套索、组MCP和组SCAD,以及双级选择方法,如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的实用程序。

相关 视频:Lasso回归、岭回归等正则化回归数学原理及R语言实例

Lasso回归、岭回归等正则化回归数学原理及R语言实例

本文提供了一些数据集的例子;涉及识别与低出生体重有关的风险因素。结果是连续测量(bwt,以公斤为单位的出生体重),也可以是二分法(低),即新生儿出生体重低(低于2.5公斤)。


head(X)​

原始设计矩阵由 8 个变量组成,此处已将其扩展为 16 个特征。例如,有多个种族指标函数(“其他”是参考组),并且已经使用多项式对比扩展了几个连续因素(例如年龄)(样条曲线会给出类似的结构)。因此,设计矩阵的列被 分组;这就是的设计目的。分组信息编码如下:

group

在这里,组是作为一个因子给出的;唯一的整数代码(本质上是无标签的因子)和字符向量也是允许的(然而,字符向量确实有一些限制,因为组的顺序没有被指定)。要对这个数据拟合一个组套索lasso模型。

gLas(X, y,grup)​

然后我们可以用以下方法绘制系数路径

​plot

请注意,当一个组进入模型时(例如,绿色组),它的所有系数都变成非零;这就是组套索模型的情况。要想知道这些系数是什么,我们可以使用coef。

请注意,在λ=0.05时,医生的就诊次数不包括在模型中。

为了推断模型在各种 λ值下的预测准确性,进行交叉验证。

​cv(X, y, grp)​

可以通过coef以下方式获得与最小化交叉验证误差的 λ 值对应的系数 :

​coef(cvfit)

预测值可以通过 获得 predict,它有许多选项:

predict # 对新观察结果的预测

predicttype="ngroups" # 非零组的数量

 # 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合(对完整数据集)返回为fit; 其他几种惩罚是可用的,逻辑回归和 Cox 比例风险回归的方法也是如此。


最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

拓端tecdat|R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化相关推荐

  1. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  2. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  3. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  4. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  5. R语言使用glmnet包的glmnet函数拟合lasso回归模型:使用cv.glmnet函数获取最佳lambda值、coef函数获取每个特征的系数以及截距

    R语言使用glmnet包的glmnet函数拟合lasso回归模型:使用cv.glmnet函数获取最佳lambda值.coef函数获取每个特征的系数以及截距 目录

  6. R语言创建新变量方法

    R语言创建新变量方法 在数据分析中,可能需要对数据进行求和.求均值等处理,并且将处理后的数据重新保存到原来的数据框中,这里提供三种可供解决的方法: 数据框$变量名 <- 表达式.若原数据框中含有 ...

  7. R语言的Copula变量相关性分析

    在工程.水文和金融等各学科的研究中,总是会遇到很多变量,研究这些相互纠缠的变量间的相关关系是各学科的研究的重点.虽然皮尔逊相关.秩相关等相关系数提供了变量间相关关系的粗略结果,但这些系数都存在着无法克 ...

  8. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  9. R语言使用lm函数构建带交互项的多元回归模型、使用step函数构建逐步回归模型筛选预测变量的最佳子集(step regression)

    R语言使用lm函数构建带交互项的多元回归模型.使用step函数构建逐步回归模型筛选预测变量的最佳子集(step regression) 目录

  10. R语言使用lm函数构建具有交互项的回归模型、使用:号(冒号)表示变量的交互(冒号为纯乘法、不包含乘法的构成项)

    R语言使用lm函数构建具有交互项的回归模型.使用:号(冒号)表示变量的交互(冒号为纯乘法.不包含乘法的构成项) 目录

最新文章

  1. android数据库isnull,Android中SQLite数据库知识点总结
  2. 全球最具影响力AI机构TOP100排名:中国5所高校1所研究院入围
  3. Alpha阶段事后分析
  4. 正则化方法之DropBlock
  5. 不同编程语言在发生stackoverflow之前支持的调用栈最大嵌套层数
  6. 定时器:SetTimer
  7. hdu 6127---Hard challenge(思维)
  8. java面试题二 %运算符的问题
  9. 20天掌握Pytorch文档链接
  10. springboot2.0新特性
  11. Evolution Game DP
  12. 初学者怎样快速学会 SQL
  13. ROS机器人更换新雷达需要重新配置carto和navigation的哪些参数
  14. 高德地图JS--批量规划步行路线 优化
  15. 计算机制作贺卡教案,教案与学生成果:制作电子贺卡
  16. ehcache 缓存丢失_解决Ehcache缓存警告问题
  17. [油猴脚本] 知乎免广告
  18. 安卓移动开发实验:Android Studio设计微信界面
  19. Ubuntu18.08安装到移动硬盘(UFEI引导)
  20. easyExcel导出excel文件并打包成zip压缩包下载

热门文章

  1. 微软正式提供免费杀毒软件下载 仅限7.5万份
  2. include指令的局限性
  3. Linux bash介绍
  4. 初始化和清理(垃圾回收器)
  5. 【bug】记一个有趣的“bug”
  6. 浏览器渲染过程与性能优化
  7. android 在非UI线程更新UI仍然成功原因深入剖析
  8. mysql cluster集群安装全纪录
  9. web性能压力测试工具http_load/webbench/ad
  10. 【Linux-shell】shell脚本基础语法练习