多重线性回归要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。

医学研究中常见的生理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等,这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。

今天我们就来讨论一下,如果自变量之间存在多重共线性,如何通过有效的变量筛选来加以解决?

一、多重共线性判断

回顾一下前期讲解多重线性回归时,介绍的判断自变量多重共线性的方法。

1. 计算自变量两两之间的相关系数及其对应的P值,一般认为相关系数>0.7,且P<0.05时可考虑自变量之间存在共线性,可以作为初步判断多重共线性的一种方法。

2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(方差膨胀因子)。一般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系),则提示要考虑自变量之间存在多重共线性的问题。

二、多重共线性解决方法:变量剔除

顾名思义,当自变量之间存在多重共线性时,最简单的方法就是对共线的自变量进行一定的筛选,保留更为重要的变量,删除次要或可替代的变量,从而减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。

对于如何去把握应该删除哪一个变量,保留哪一个变量,近期也有小伙伴在微信平台中问到这个问题,下面举个例子进行一个简单的说明。

表1. 自变量相关性

如表1所示, X3和X4、X5之间相关系数>0.7,变量X4与X1、X3、X5之间相关系数>0.7,X5与X3、X4之间相关系数>0.7,说明X3、X4、X5之间存在一定的共线性,由于X4与X1的相关性也较高,故此时建议可以先将X4删除再进行模型拟合,当然也需要结合容忍度和VIF值及专业知识来进行判断。有些时候共线性不可能从统计上得到完全解决,因此在不损失重要信息的前提下,人为剔除共线的变量往往是最有效的方法。

三、多重共线性解决方法:逐步选择

当自变量之间的关系较为复杂,对于变量的取舍不易把握时,我们还可以利用逐步回归的方法进行变量筛选,以解决自变量多重共线性的问题。逐步回归法从共线性的自变量中筛选出对因变量影响较为显著的若干个变量,把对因变量贡献不大的自变量排除在模型之外,从而建立最优的回归子集,不仅克服了共线性问题,而且使得回归方程得到简化。

%        MATLAB逐步回归
mdl3 = stepwiselm(dat_del2);

实际运行证明逐步回归并不能解决多重共线性,反而可能将重要变量剔除!

https://zhuanlan.zhihu.com/p/91092190

多元回归自变量存在共线性相关推荐

  1. 为什么决策树模型不考虑变量之间的共线性?

    在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求.于是乎,查询了一下,在Quora上找到了相关答案.Is multicollinearity a prob ...

  2. 使用IBM SPSS Statistics检验变量间是否存在共线性

    共线性,指的是线性回归方程中自变量之间存在着高度相关关系而使得方程的预测结果出现偏差. 当模型存在严重共线性时,OLS估计量虽仍可能出现较好的统计显著性,但实际上其预测结果已经失去统计意义.这是因为, ...

  3. CDA二级易错点总结

    这是在群里不知名好哥哥总结的基础上(可能迭代了多个版本),本人根据个人错题做了微小的修改和补充,方便大家学习. 发现有错误和补充的欢迎大家在评论区留言. 数字化工作方法 1.二次规划:求解方法:拉格朗 ...

  4. CDA数据分析师level2(模拟题考点记录)

    CDA数据分析师level2模拟题考点记录 背景 目前CDA一级题目刷完,课看完,但是由于疫情无法出去考试,所以先复习level2.level2的考试课程大致刷了一遍,整体ppt也看过一遍,但是感觉l ...

  5. 用matlab解决多重共线性问题,多重共线性和非线性回归的问题

    前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了.当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说.最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回 ...

  6. R学习-小白笔记05

    ----回归诊断---- #样本是否符合正态分布假设? #是否存在离群值导致模型产生较大误差? #线性模型是否合理? #误差是否满足独立性,等方差,正态分布等假设条件? #是否存在多重共线性? --- ...

  7. 多元线性模型中共线性产生的原因解析

    在很多书籍中谈到了共线性问题,作为多元统计中基本假设之一,却经常被违背,影响模型稳定性和统计power.在不少的论文中谈到了,国内的很多书籍往往一笔带过.因为,属于统计计算领域内容,非专业人士,也鲜有 ...

  8. R语言学习笔记8_回归分析和相关分析

    目录 八.回归分析和相关分析 8.1 相关性及其度量 8.1.1 相关性概念 8.1.2 相关分析 8.2 一元线性回归分析 8.2.1 数学模型 8.2.2 估计与检验 8.2.3 预测与控制 8. ...

  9. 统计建模-多元线性回归预测房价

    简单聊聊统计建模中,使用多元线性回归模型来预测房价. 文章目录 变量描述: (1)读取数据 (2)单变量描述 (3)自变量对因变量的影响分析 (4)检验变量重要性 (5)筛选出重要变量建模 (6)模型 ...

最新文章

  1. C实战:项目构建Make,Automake,CMake
  2. jquery $.trim()方法使用介绍
  3. mac笔记本修改 mysql 的密码
  4. ZZULIOJ 1111: 多个整数的逆序输出(函数专题)
  5. 虚树+树型DP SDOI2011消耗战
  6. nodejs语法问题
  7. 在AppWeb后台,管理员所有数据已经录入完毕,但用手机浏览器登录评委打分界面,发现打分界面为空,或者选手人数不对等问题,如何解决?
  8. C# 使用Graphics对象的方法绘制粗边图形/圆/椭圆/线段
  9. MaxDEA如何计算DEA-Malmquist指数
  10. caffe源码解析by薛云峰
  11. html页面睡眠函数,JavaScript sleep睡眠函数
  12. iPhone无法更新,一直卡住在“验证更新中”,如何处理?
  13. 在树莓派上安装配置远程摄像头监控motion
  14. 图片转ascii字符画C语言,将图片转为ASCII字符画
  15. 防止后缀aol.com}AOL勒索病毒*** .com}AOL勒索病毒解密工具处理方法
  16. 《禅与摩托车维修艺术》书摘
  17. pythoncookie自动登录_Python使用cookie 免密登录了解一下
  18. SQL中in和not in
  19. Custom Windows workflow Desiger 自定义Windows工作流设计器
  20. 《权力的游戏》蕴含的管理经

热门文章

  1. GWAS:使用R,比较GLM和MLM对假阳性的控制差异(复刻Nature genetics 图)
  2. 漫画:5 分钟学会红黑树算法!
  3. java 全局变量线程安全_Java线程安全问题指的是全局变量,还是静态变量?
  4. gitee图床用不了,阿里云OSS搭建图床(非常详细)
  5. 1311. Get Watched Videos by Your Friends
  6. 用3D max导入模型时,清除丢失的材质贴图和路径
  7. 将计算机移动到本手机桌面,手机传到电脑的文件怎么移动到桌面上?
  8. Python操作Excel的一些基本程序代码
  9. 时间轴照片html触摸,利用Jquery实现几款漂亮实用的时间轴(附示例代码)
  10. vue中使用novnc