[转载]另眼看待变量间多重共线性

多重共线性是使用回归算法时经常要面对的一个问题。在其他算法中,例如决策树和Naïve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的。而在营销数据中,多重共线性更是一个普遍的现象。

多重共线性的危害主要是使用上的问题。简单地说,由于变量之间的高度相关,使算法无法准确分离各个因子对目标变量的影响,因而造成系数估计的偏差加大,体现在模型输出结果上是一系列错乱现象,例如:一个原本显著的变量由于另一个变量的加入突然失掉重要性、因子对目标变量的作用方向突然出现逆转、模型的拟合度很高,但各个因子都不显著,等等。

但是,多重共线性对预测模型的危害不应该被等量齐观。换句话说,如果数据挖掘的目的是预测,则一定程度的多重共线性是可以容忍的,只要一些基本条件能够被满足。包括:变量之间虽然高度相关,但算法仍然可以找到其各自对目标变量的影响,且影响是显著的;通过了内部检验,即模型在训练样本和检验样本上的表现基本一致,没有明显的恶化迹象;各个因子对目标变量的影响方向符合经验期望或理论。

为什么预测模型可以容纳一定程度的多重共线性?这需要从建模的目的谈起。模型的效用不外两个:预测和解释。两者都会用到回归算法。但是,回归算法在用于解释模型时对多重共线性的要求要较预测模型为高。换句话说,前者对多重共线性更敏感。原因在于解释模型的功能是判断每个因子对目标变量的独特贡献,而多重共线性阻挠了这种判断。而不能准确区分出每个因子的作用,即是宣告了解释模型的失败。但是对于预测模型来说,解释的功能是次要的,预测模型的首要任务是对未来做出某种推测,而这种推测需要依赖模型的整体能力,包括模型中涉及到的所有因子。至于单个因子是否准确,只要不影响到模型的总体能力,则不必过于计较。

看到这里,有人不免会发问,既然多重共线性总的来说不是一个积极的现象,那么何必非要保留在预测模型中呢?把多余的变量拿掉就是了。问题在于,只要变量之间不是百分之百地联系在一起,拿掉一个变量总会对模型的预测能力带来影响,尤其在拿掉的变量对目标变量的影响是其它变量无法取代的情况下。换句话说,数据挖掘人员不会特意保留多重共线性,但如果发现消除多重共线性会对模型的整体能力带来严重影响时,两害相衡取其轻,则还是以保留多重共线性为好。

因此,在构造预测模型时如何处理多重共线性是一个比较微妙的议题。既不能不加控制,又不能一刀切,认为凡是多重共线性就应该消除。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/statdm/archive/2011/03/31/6292519.aspx

posted on 2012-03-18 22:07 wentingtu 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/wentingtu/archive/2012/03/18/2405171.html

[转载]另眼看待变量间多重共线性相关推荐

  1. 另眼看待变量间多重共线性

    多重共线性是使用回归算法时经常要面对的一个问题.在其他算法中,例如决策树和Naïve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能:后者干脆假 ...

  2. 利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系

    利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系 https://www.toutiao.com/i6550915552490029576/ 数据集中的变量之间可能存在复杂且未知的关系.重 ...

  3. 【转载】进程间的通信之剪贴板方法实现源码

    1 源码无私奉献 2 3 void CClipboardDlg::OnBnClickedButton1() 4 { 5 // TODO: 在此添加控件通知处理程序代码 6 //打开剪贴板 7 if(O ...

  4. ShopEx 中规格属性增加时,自动计算其对应的销售价格,同时注意模板中的变量间的计算

    在ShopEx中,增加产品的规格时,如颜色.尺寸.是否送货等配置信息,默认情况下,这些内容是需要手动计算的,若只有几个属性值还容易计算,如果每一个属性值比较多,通过手动计算将是一个灰常巨大的工作量,这 ...

  5. 【统计学笔记】如何判断变量间相关关系,并建立一元线性回归模型?

    本章内容: 判断两个变量间是否有相关关系,且关系强度如何? 如何建立一元线性回归模型,且模型效果如何? 如何利用回归方程进行预测? 为什么要进行残差分析,及如何进行分析? 索引

  6. R数据分析:变量间的非线性关系,多项式,样条回归和可加模型

    之前的文章中都是给大家写的变量间线性关系的做法,包括回归和广义线性回归,变量间的非线性关系其实是很常见的,今天给大家写写如何拟合论文中常见的非线性关系.包括多项式回归Polynomial regres ...

  7. stata 模型设定专题【计量经济系列(六)】(遗漏变量、无关变量、多重共线性、leverage、虚拟变量、线性插值......)

    stata 模型设定专题[计量经济系列(六)] 文章目录 1. 遗漏变量 与 无关变量 1.1 遗漏变量 1.2无关变量 2. 解释变量的权衡标准 3. 检验函数形式 4. 多重共线性 4.1 检验多 ...

  8. 看完这篇你还敢说分不清 Java 类 对象 实例 变量间的区别?

    看完这篇你还敢说分不清 Java 类 对象 实例 变量间的区别? 什么是类? 什么是对象? 什么是变量? 对象和类的关系: Java中的类: Java中的对象 Java中的变量 Java 中调用 对象 ...

  9. 使用IBM SPSS Statistics检验变量间是否存在共线性

    共线性,指的是线性回归方程中自变量之间存在着高度相关关系而使得方程的预测结果出现偏差. 当模型存在严重共线性时,OLS估计量虽仍可能出现较好的统计显著性,但实际上其预测结果已经失去统计意义.这是因为, ...

最新文章

  1. intellij中重命名一个文件
  2. 解析法实现一元线性回归、多元线性回归以及数据模型可视化操作
  3. 病毒c语言代码大全,谁有C语言编写的病毒源代码?
  4. 电脑怎么重置host_电脑又双叒叕卡顿?究竟要“重装”还是“重置”?原来这区别大了...
  5. bat截取字符串[转]
  6. php 日期format不要零_PHP格式化日期用法代码,包括前导零示例
  7. 视频压缩工具FFmpeg的使用(中)
  8. Nginx源码分析 - 主流程篇 - Nginx的启动流程(09)
  9. lammps运行Linux,Lammps安装教程
  10. SAP中通过删除新建未记账成本要素期间的方式更改成本要素类别
  11. 【BZOJ4200】【NOI2015】小园丁与老司机(动态规划,网络流)
  12. 正确介绍自己的项目,终于不用害怕面试了
  13. Mysql基础篇(8)—— 变量、流程控制和游标
  14. 这世界无非是“人人为我,我为人人”
  15. 【用户画像】功能实现值写入ClickHouse人群包、预估和更新分群人数,NoSQL数据库介绍
  16. 打喷嚏 打嗝 打饱嗝 打鼾 打哈切 用日语都怎么说?
  17. 计算机一级考试:选择题汇总D(精简版)
  18. mybatis(错误二) 项目启动时报“Result Maps collection already contains value forxxx”的解决方案
  19. 第4季2:并口、MIPI、LVDS的简介
  20. the mesh is compo…

热门文章

  1. 【mybatis】 “if“ 相关联的 “test“ 属性值不能包含 ‘<‘ 字符
  2. 查看redhat版本信息
  3. char类型是多少 mat_这轮面试,居然只有20%的人了解 MAT 神器
  4. mysql 默认密码_mysql数据库安装
  5. gamma分布_深度学习需要掌握的 13 个概率分布(附代码)
  6. java post 登陆_java HttpPost 密码登录和提交表单的案例
  7. docker 添加端口映射_Docker三大核心概念之容器
  8. 微星主板黑苹果_游戏机也玩二次元!微星全新“钛舞Diana”点亮冬日激情
  9. springboot教程(一)
  10. Python自动化办公之Excel拆分并自动发邮件