本文主要译自:Restricted cubic splines, 翻译加上自己的理解,整理如下。

在统计学里,splines 技术用来对变量进行转换。有时候我们会将连续性变量转化为分类变量(哑变量化),因为该连续性变量与结局变量之间的线性关系比较差。比如建立疾病预后模型时,年龄这个变量通常会被通过选取一个合适的界值转化为分类变量。然而,很多大佬并不推荐使用分类变量。生统大佬 Frank Harrell 教授在 Regression Modeling Strategies 一书中就有专门一个小标题是 Avoiding Categorization,并指出推荐使用splines 技巧。很多大佬都认为 categorizing (which is the dummy variable method) isn’t a good method. 转为分类变量的这种方法主要有2个缺陷:第一是会压缩变量的效应(损失了大量方差信息),第二是会出现跳跃(界点附近的跳跃会使模型拟合变差)。Restricted cubic splines (RCS) 可以很好地解决这些问题,但是RCS有个最大的缺陷就是,生物学解释性较差。

处理非线性关系的方法有很多,rms包中rms.trans提供的方法就有好几种,其中RCS是最常用的策略,以下表格进行了大致汇总:

RCS有个问题:选择多少个knots(节点)以及选择哪些位置作为 knots。Frank Harrell 教授的推荐如下:

N<100 时,选择4个knots,分别选定在:5%, 35%, 65% 和 95% 这4个百分位点处。

N≥100 时,选择5个knots,分别选定在:5%, 27.5%, 50%, 72.5% 和 95% 这5个百分位点处。

哑变量化(直接转成分类变量)的效果:

解决“效应压缩”问题(恢复方差),效果:

解决“跳跃”问题(界点前后保持连续),即采用 restricted linear spline 变换,效果:

用曲线技术平滑化(多项式平滑),效果:

笔者曾试图自己写函数变换(包括多项式变换、指数变换等)进行预处理,但是比较麻烦,需要预先评估变换的类型,而RCS这种方式,通常都比较有效,还是回归到用RCS策略吧。

RCS相关的工具包:rms包的rcs函数、splines包的bs函数等。

参考资料

Restricted cubic splines

Frank Harrell. Regression Modeling Strategies. Springer

Restricted Cubic Spline Regression: A Brief Introduction

Restricted cubic splines相关推荐

  1. 限制性立方样条(Restricted Cubic Spline)

    限制性立方样条(Restricted Cubic Spline) 一.背景 (一)什么是线性 (Linearity) ? (二)为什么要做线性假设? (三)如何面对非线性的难题? (四)多项式回归 二 ...

  2. R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型、南非心脏病数据集(South African Heart Disease)

    R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型.南非心脏病数据集(South African Heart Disease) 目录

  3. R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析详解实战:拟合连续性自变量和事件风险之间的关系:基于survival包lung数据

    R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析详解实战:拟合连续性自变量和事件风险之间的关系:基于survival包lung数据 目录

  4. R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析:拟合连续性自变量和事件风险之间的关系并绘制直方图、平滑曲线、双Y轴于同一个图像中

    R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析:拟合连续性自变量和事件风险之间的关系并绘制直方图.平滑曲线.双Y轴于同一个图像中 目录

  5. R语言基于Logistic回归绘制限制性立方样条图(Restricted Cubic Spline)

    相关介绍: 在病因推断.剂量效应研究中,时常要分析自变量和因变量的数量关系.广义线性模型,如Logistic回归.Possion回归等是应用比较广泛的方法.它的一个重要假设是通过选择合适的链接函数,因 ...

  6. R数据分析:变量间的非线性关系,多项式,样条回归和可加模型

    之前的文章中都是给大家写的变量间线性关系的做法,包括回归和广义线性回归,变量间的非线性关系其实是很常见的,今天给大家写写如何拟合论文中常见的非线性关系.包括多项式回归Polynomial regres ...

  7. R实战 | 限制性立方样条(RCS)

    RCS 在科学研究中,我们经常构建回归模型来分析自变量和因变量之间的关系.大多数的回归模型有一个重要的假设就是自变量和因变量呈线性关联.当自变量和因变量之间为非线性关系时,可以将连续型变量转化为分类变 ...

  8. R语言样条回归并绘制限制立方条图

    临床上,因变量和临床的结局有时候不是线性关系,而回归模型有一个重要的假设就是自变量和因变量呈线性关联,因此非线性关系模型用回归分析来拟合受到限制.因此,一个更好的解决方法是拟合自变量与因变量之间的非线 ...

  9. Hi-C data analysis tools and papers

    Hi-C data analysis tools and papers 全文链接如下: https://github.com/mdozmorov/HiC_tools Tools are sorted ...

最新文章

  1. Python Qt GUI设计:QScrollBar类实现窗口水平或垂直滑动条效果(拓展篇—4)
  2. latex快速入门教程
  3. 吴恩达:大数据终将帮助机器拥有自主智慧
  4. 汉字转拼音(c#) -转载
  5. mysql 数据表创建字段类型_MySQL 数据类型简介 创建数据表及其字段约束
  6. chrony软件使用说明
  7. c 直接访问mysql_C语言访问MySQL数据库的方法
  8. 壁纸网站的高清图片,完美符合视觉控的你!
  9. 【PL/SQL】处理数据
  10. 大规模业务技术架构设计与战术(架构师必看)
  11. Atitit 外观ui调整法 表单与表格列表
  12. AR Camera开发记录(一) -- Rajawali的使用
  13. Intel RST 和Optane 学习笔记
  14. 3d游戏建模都需要准备些什么
  15. MATLAB2014b安装(Ubuntu 14.10)
  16. 2.flask模板--jinja2
  17. 怎么检测声音频率和幅值_作者特稿铝板塑性损伤的电磁超声非线性检测新方法...
  18. iOS Game Center 登陆验证实现
  19. 射频day7:微带线;带状线
  20. git基础教程(11) git checkout命令,掌握这些足以

热门文章

  1. Vmware虚拟机NAT模式设置IP
  2. 国内期市前7个月成交超去年全年
  3. [转帖]地理上的济南,是个怎样的城市?
  4. 【180628】VC++方格益智小游戏
  5. 《P2SGrad Refined Gradients for Optimizing Deep Face Models》论文阅读
  6. Windows环境下配置深度强化学习环境玩Atari游戏
  7. MATLAB版 代码狗屁不通的狗屁不通文章生成器
  8. 戴尔笔记本电脑PIN码忘了, 怎么办
  9. python把一个文件夹内子文件夹下所有文件复制到指定目录下
  10. 是什么让一个优秀的派对服饰