线性回归——多重共线性
1. 多重共线性的现象?
- 回归系数与常识相反
- 某些重要的自变量的ttt值低(ttt值越低,越不能拒绝β=0\beta=0β=0的原假设),即某些重要的自变量不能通过回归系数的显著性检验
- 本不显著的自变量却呈现出显著性
2. 什么是多重共线性?
线性回归模型的自变量之间存在近似线性关系。
3. 为什么会有多重共线性?
- 自变量之间的确存在某种线性关系
- 数据不足
- 错误地使用虚拟变量。(比如,同时将男、女两个虚拟变量都放入模型,此时必定出现共线性,称为完全共线性)
4. 如何检验多重共线性?
- VIF检验:
什么是VIF?
VIF衡量了多重共线性使相应的系数的估计值的方差的增大程度。一个系数的VIF越大,说明多重共线性增大了这个系数估计值的方差。
怎么计算VIF?
假设线性模型为Y=β0+β1X1+⋯+βpXp+eY=\beta_0+\beta_1X_1+\cdots+\beta_pX_p+eY=β0+β1X1+⋯+βpXp+e,假设要计算βk\beta_kβk的VIF,先用其它自变量对βk\beta_kβk进行回归,即Xk=β0+β1X1+⋯+βk−1Xk−1+βk+1Xk+1+⋯++βpXp+eX_k=\beta_0+\beta_1X_1+\cdots+\beta_{k-1}X_{k-1}+\beta_{k+1}X_{k+1}+\cdots++\beta_pX_p+eXk=β0+β1X1+⋯+βk−1Xk−1+βk+1Xk+1+⋯++βpXp+e
然后计算此模型的R2R^2R2,进而得到VIF=11−R2VIF=\frac{1}{1-R^2}VIF=1−R21
VIFVIFVIF越大,说明R2R^2R2越大,说明模型拟合的越好,即XkX_kXk越有可能和其它自变量有线性相关关系
有的是VIF>10,有的是VIF>5
- 相关系数分析
相关系数越大,说明越有可能存在线性相关关系。但相关系数小,不能说明不存在复共线性?(难道是因为不相关不能推出不独立,即两个变量即使相关系数很小,但依旧是不独立的?)、
5. 多重共线性有什么影响?
- 回归模型缺乏稳定性。样本的微小扰动都可能带来参数很大的变化(因为参数估计值得方差变得很大)
- 变量的显著性检验失去意义
- 难以区分每个解释变量的单独影响
- 参数的方差增大(Var(β)=σ2(X⊤X)−1Var(\beta)=\sigma^2(X^\top X)^{-1}Var(β)=σ2(X⊤X)−1,多重共线性会导致X⊤XX^\top XX⊤X接近于奇异矩阵,即使能算出逆,对角线上得值也会很大)
6. 该如何处理?
- 岭回归,岭回归牺牲了无偏性,但换来方差的减小
- 增加数据量(很难)
- 手动移除出共线性的变量。即手动删除相关性高的自变量,但有的时候我们不希望把某个自变量从模型中剔除,这样就要考虑使用其他方法。
- 主成分分析
7. 对逻辑回归的影响?
参数更新方式:
weights = weights - alpha * dataMatrix.transpose()* error
,所以对逻辑回归损失函数的最优化没影响模型参数估计不准确,有时甚至会出现回归系数的符号与实际情况完全相反的情况
本应该显著的自变量不显著,本不显著的自变量却呈现出显著性(也就是说,无法从p-值的大小判断出变量是否显著)
多重共线性使参数估计值的方差增大,模型参数不稳定,也就是每次训练得到的权重系数差异都比较大
参考:多重共线性详解
线性回归——多重共线性相关推荐
- 多元线性回归—多重共线性
多重共线性 文章目录 多重共线性 @[toc] 1 什么是多重共线性 1.1 多重共线性含义 1.2 多重共线性产生原因 2 多重共线性后果 2.1 完全型 2.2 不完全型 3 多重共线性检验 3. ...
- 统计分析---多重共线性
多重共线性 ------主要参考何晓群<应用回归分析> ------仅用于个人学习知识整理和R语言代码整理 ------看到本站的另一篇总结多重共线性文章,觉得不错,附上链接:多重共线性的 ...
- 线性回归模型详解(Linear Regression)
目录 线性与非线性 线性回归 多重共线性 常用的回归模型评估指标 算法优缺点 算法实现 回归分析的主要算法包括: 线性回归(Linear Regression) 逻辑回归(Logistic regre ...
- 文献学习(part52)--基于泛岭估计对岭估计过度压缩的改进方法
学习笔记,仅供参考,有错必纠 文章目录 基于泛岭估计对岭估计过度压缩的改进方法 摘要 引言 岭估计方法 岭估计的主要问题 改进的岭估计方法 基于泛岭估计对岭估计过度压缩的改进方法 摘要 岭估计是解决多 ...
- r语言 python 互联网数据分析_对比R语言和Python,教你实现回归分析
变量之间关系可以分为两类: 函数关系:反映了事务之间某种确定性关系 相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的:反映了事务间不完全确定关系:相关系数(r)可以衡量这种相关关系. r ...
- python cox回归_数据分析|回归分析(RPython)
0X01 前言 变量之间关系可以分为两类: 函数关系:反映了事务之间某种确定性关系 相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的:反映了事务间不完全确定关系:相关系数(r)可以衡量这 ...
- 线性回归模型中的多重共线性--Multicollinearity
1.Predictor variable 预测变量,即为自变量( independent variable)或者回归子(regressor), 即它的值不受其他变量的影响. 2.Correlation ...
- 多元线性回归中多重共线性_多重共线性如何在线性回归中成为问题。
多元线性回归中多重共线性 Linear Regression is one of the simplest and most widely used algorithms for Supervised ...
- python 回归去掉共线性_线性回归中的多重共线性与岭回归
上篇文章<简单而强大的线性回归详解>(点击跳转)详细介绍了线性回归分析方程.损失方程及求解.模型评估指标等内容,其中在推导多元线性回归使用最小二乘法的求解原理时,对损失函数求导得到参数向量 ...
- 多元线性模型分类变量方差_第三十一讲 R多元线性回归中的多重共线性和方差膨胀因子...
在前两讲中,我们介绍了多元线性回归的概念以及多元线性回归中的交互作用.今天学习的主要内容是多元线性回归中的多重共线性和方差膨胀因子. 1. 共线性的概念 1 共线性 在多元回归中,两个或多个预测变量可 ...
最新文章
- 深度学习核心技术精讲100篇(八十一)-NLP预训练模型ERNIE实战应用案例
- 【Linux】9_存储管理交换分区管理Swap
- 面试题总结16 对一个整数开根号
- 6升小米6——算法解题
- 春招实习前端面试题汇总
- c# 中通快递对接_快递共配是什么?行业前景怎么样?
- Spring AOP解析
- 获取mssqlserver数据库表的字段名称,字段说明,数据类型,主键等表的信息
- 【ide】myeclipse项目右键没有configure
- NMEA-0183通信协议
- 二叉树模型matlab实现,利用Matlab实现二叉树的树形显示
- html投影电脑,如何将电脑内容显示到投影仪或电视上?详细教程奉上
- [运算放大器]佛朗哥笔记 - 信号发生器 - 三角波发生器
- 女神舒淇同款敏感肌,应该如何修复呢??
- PHP CLI模式 - 执行代码
- Hadoop数据完整性与CheckSum校验原理
- XDOJ PM2.5
- Java实现TCP通讯
- 会员流失预测模型+会员特征分析模型+营销响应预测模型
- 2021年河南省高考适应性测试成绩查询,2021年河南省普通高中毕业班高考适应性测试英语试题...
热门文章
- “大众摄影”“北外亚非学院”等网站被挂马
- mysql5.7 alter,MySQL 5.7推荐使用ALTER USER修改密码
- 制作席慕蓉的诗html,席慕容诗歌集
- 常用Linux命令行技巧
- Screw一键生成数据库文档工具
- 程序员工资高,到底程序员的工资有多高?你不了解的程序员!
- android手机屏分辨率和屏幕逻辑,手机屏幕分辨率术语:逻辑分辨率和物理分辨率...
- 计算机培训日志范文30篇,班主任工作日志20篇.docx
- 霍夫斯特拉大学计算机科学专业排名,2019usnews美国大学排名霍夫斯特拉大学排名第140...
- 投资理财--动态市盈率静态市盈率 整理