原标题:SPSS技术:多重线性回归模型;极端值与多重共线性

欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区。 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入头条数据爱好者交流群,数据爱好者们都在这儿。

基础准备

前面我们介绍了多重线性回归模型的基础内容及SPSS软件的操作过程,同时也介绍了如何通过各种指标判断多重线性回归模型的拟合质量如何。

数据分析技术:多重线性模型;也难也不难的建模从这里开始吧!

SPSS分析技术:多重线性方差分析;自主创业不能盲目,你做好市场调研了吗?

SPSS分析技术:回归模型的自变量筛选方法;全军出击OR稳扎稳打步步为营

如果拟合质量不好,可能存在的问题主要有以下两个方面:

极端值(强点)的影响。我们都知道,在线性回归分析中,自变量回归系数的确定主要采用最小二乘法,而最小二乘法的原理就是兼顾每个数据点的影响,使得最后的离差平方和最小。最小二乘法就好比生活中的老好人,谁都不得罪,与某些小团体内的人人或者特别有个性的离群者都保持相同程度的联系,这时小团体的人很可能因为看到其与离群者的关系而刻意疏远他。用最小二乘法拟合得到的多重线性回归模型同样如此,会极大的受到极端值的影响而失去客观和准确性。

自变量间的多重共线性问题。多重共线性指自变量间存在线性相关关系,也就是说自变量间可以互相建立线性回归方程。若自变量间存在多重共线性关系,那么得到的多重线性回归模型也是不准确和不可用的。

案例分析

本篇采用的案例依旧是上篇文章:SPSS分析技术:回归模型的自变量筛选方法;全军出击OR稳扎稳打步步为营的内容。下面我们还是以上篇文章的数据来判断和解决极端值和多重共线性问题。文章的数据都已经上传到QQ群中,大家可以前往QQ群的群文件中下载,跟随学习。案例的研究背景是固体垃圾的产生量与城市不同用途土地面积之间的多重线性回归模型的建立。

极端值检查过程和结果

极端值可以用两种指标来检查:残差和极端值统计量。SPSS软件利用残差进行极端值检查需要在【分析】-【回归】-【线性】-【统计】中选择下图残差区域的个案诊断,系统默认的离群值为3个标准差(注意,这里将残差进行标准化处理)。

除此之外,还可以选择【保存】按钮,在影响统计中,将DfBeta、标准化DfBeta、DfFit、标准化DfFit和协方差比例选中。以上这些指标的分析逻辑都是比较删除某个记录前后,偏回归系数或残差的差异情况,以此来判断极端值(离群值),值越大,极端值的可能性越大。为了便于比较,其中两个标准差指标如果大于2,可以认为是极端值。

案例的分析结果

个案诊断结果,可以发现,第8个数据点的标准化残差值达到2.105,大于2,可以认为该数据点是极端值(离群值)。结合第8个数据点的标准化DfFit值1.42,虽然小于2,但是大于1。综合两个结果,可以认为该数据点是极端值。

对于极端值,我们不能盲目的直接删除了事。应该找到该值,考虑是否是录入错误或者是某些特殊情况导致该值的离群,如果是以上两种情况导致的,那么可以修改和删除该数据点。如果以上两种情况都不符合,那么需要考虑是否采用加权最小二乘法进行多重线性回归,或者增加样本量,看是否是样本量过小导致该值类似的情况出现较少,使得该值成为极端值。

多重共线性的检查与处理

自变量的多重共线性会导致得到的多重回归模型存在错误,不能显示自变量与因变量之间真实的相互关系情况。如果自变量间存在多重共线性关系,那么在用SPSS进行多重线性回归分析时,可能会出现以下这些违反逻辑的情况:

整个回归模型的假设检验是通过的,但是个别自变量的检验却无法通过。

专业上认为应该有统计学意义的自变量检验结果却是没有统计学意义。

有些自变量的回归系数大小或符号与实际情况相违背,难以解释。

增加或删除一个自变量,有些自变量的回归系数出现大的变动。

如果多重回归模型出现以上情况,那么就应该考虑自变量存在多重共线性问题。SPSS对于多重共线性的判断指标有以下几种:容忍度(Tolerance)、方差膨胀因子(VIF,Variance Inflation Factor)、特征根(Eigenvalue)、条件指数(Condition Index)和变异构成(Variance Proportion)。

容忍度(Tolerance)等于1减去以该自变量为因变量,其它自变量依旧为自变量的线性回归模型的决定系数的剩余值(1-R方)。显然,容忍度越小,共线性越严重。一般的认识是,当容忍度小于0.1时,存在严重的多重共线性。

方差膨胀系数(VIF)等于容忍度的倒数。一般情况下,VIF的值不应该大于5,放宽到容忍度的水平,就是不应该大于10。

特征根(Eigenvalue)对模型中常数项及所有自变量计算主成分,如果自变量间存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近于0。

条件指数(Condition Index)等于最大的主成分与当前主成分的比值的算数平方根。第一个主成分被定义为1。如果有几个条件指数较大,那么就提示存在多重共线性关系。

变异构成(Variance Proportion)是指回归模型中常数项和自变量项被主成分解释的比例。如果某个主成分对两个或多个自变量的解释的比例都较大,说明这几个自变量间存在一定的共线性。

在SPSS中选中【统计】按钮中的共线性诊断,就会输出上面的结果。

我们依旧使用上面的例题为例,介绍各种共线性诊断指标的作用。我们首先看容忍度和方差膨胀系数(VIF)的结果。可以看到在全部生成的四个线性回归模型中,只有最后一个模型的宾馆、餐饮用地和零售业用地这两个自变量的容差小于0.2,VIF值大于7,说明这两个自变量间存在共线性关系。

再结合特征根、条件指数和变异构成这三个指标。前面三个模型的特征根差距不大,第四个模型的前四个特征根与最后一个存在较大的差异,说明该模型可能存在共线性情况。再看条件指标,第四个模型的最后一个公因子的条件指标达到8.642,同样说明了这个可能性。最后看变异构成,最后一个公因子中,宾馆餐饮用地与零售业用地的公因子方差解释比例都达到0.96,说明它们之间存在共线性。

结合以上五个因子,我们可以认为宾馆餐饮用地与零售业用地这两个自变量间存在共线性情况。需要做进一步处理。

除了以上这五个指标以外,还可以使用前面提高过的散点图举证和简单线性相关系数矩阵来判断它们之间是否存在多重共线性关系。如果发现自变量间存在多重共线性时,可以采用以下方法解决:

逐步回归:逐步回归能够在一定程度上对多重共线性的自变量组合进行筛选,将对因变量变异解释较大的自变量保留,而将解释较小的自变量删除。遗憾的是,对于共线性较为严重时,逐步回归的变量自动筛选方法就显得无力了。

岭回归:岭回归是一种专门用于共线性数据分析的有偏估计回归方法,它实际上是一种改良的最下二乘法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价来寻求效果稍差但是回归系数更符合实际的回归方程。

主成分回归:主成分回归能够对存在多重多重共线性的自变量提取主成分,提取出来的主成分之间是完全互相独立的,然后再用提取出来的主成分与其它的自变量一起进行多重线性回归。

路径分析:如果自变量之间的联系规律比较清楚,比如很多实证研究中的变量情况。那么可以考虑使用路径分析模型。

转载请保留以下内容:

本文来源自天善社区老谢老师的博客(公众号)。

原文链接: https://ask.hellobi.com/blog/lifestatistics/7913返回搜狐,查看更多

责任编辑:

因变量 方差膨胀系数_SPSS技术:多重线性回归模型;极端值与多重共线性相关推荐

  1. 因变量 方差膨胀系数_请问如何计算潜变量的方差膨胀因子(VIF)?

    这里提供一个 Python 实现的方法和原理趣分析 方差膨胀因子是非常经典缓解多元共线性的方法,原理简单,实现优雅,效果拔群.源代码源数据可私聊俺获取,每天固定时间查看和回复. 原理趣析 多重线性回归 ...

  2. 因变量 方差膨胀系数_16种常用的数据分析方法汇总

    一.描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势.离散趋势.偏度.峰度.缺失值填充:常用方法:剔除法.均值法.最小邻居法.比率回归法.决策树法. 正态性检验:很多 ...

  3. 做多重线性回归 方差不齐怎么办

    今天我们就来继续讨论一下,如果残差不满足方差齐性时,应该如何解决? 一.残差方差齐性判断 残差方差齐性 回顾一下前面介绍过的残差方差齐性,即残差ei的大小不随预测值水平的变化而变化.我们在进行残差分析 ...

  4. R语言实战应用精讲50篇(三)-多重线性回归系列之模型评估与诊断应用案例

    前言 回归模型对数据的拟合性怎么样,有没有异常点,各自变量间存不存在多重共线? 本文进行拟合优度的评估.异常点(离群值.高杠杆值.强影响点)的识别与多重共线的诊断. 模型评估与诊断 (1)模型拟合优度 ...

  5. Python 实战多元线性回归模型,附带原理+代码

    作者 | 萝卜 来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多 ...

  6. python多元线性回归模型案例_Python 实战多元线性回归模型,附带原理+代码

    原标题:Python 实战多元线性回归模型,附带原理+代码 作者 | 萝卜 来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一 ...

  7. 原理 + 代码 | Python 实现多元线性回归模型 (建模 + 优化,附源数据)

    前言 多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争 ...

  8. numpy多元线性回归_Python 实战多元线性回归模型,附带原理+代码

    作者 | 萝卜来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多元 ...

  9. 线性回归模型度量参数2- Multiple R R-Squared adjusted R-squared

    本文解释线性回归模型的一些度量参数及其之间的关系,并通过示例说明其计算过程. 模型度量参数概述 当我们使用回归模型时,通常在输出包括一些度量拟合程度的参数. Multiple R 多个变量之间多重相关 ...

最新文章

  1. 计算机网络分类(按覆盖范围分类)“名称、范围”
  2. 韩寒:出了国才知道,外国是多么的落后(写的真委婉~不愧是韩寒)
  3. Android实现炫酷的星空变幻效果
  4. Cordova各个插件使用介绍系列(七)—$cordovaStatusbar手机状态栏显示
  5. mac系统更新后code .命令打不开vs code
  6. Vue语法学习第一课——插值
  7. shell循环,判断介绍,以及实例
  8. maven中的groupId和artifactId到底指的是什么?
  9. 重新学习 React (二) Diffing 算法
  10. VMware 设置网络
  11. python 运行pyc_Pyc文件编译和运行
  12. Web项目下的WebRoot和WebContent
  13. centos升级默认node版本
  14. firefox 模拟手机
  15. c语言汉诺塔问题详解
  16. 【历史上的今天】3 月 9 日:AlphaGo 成名之战;Mac 电脑设计者诞生;谷歌收购 Writely
  17. KITTI数据集解读
  18. 本地SVN帐号密码破解
  19. 刘德华直播观看人数破亿
  20. style = “color:####“包含的颜色名称对照表

热门文章

  1. java/php/net/python员工考勤管理系统设计
  2. [X86] 关于/usr下的ccs,df,sfw,ucb,openwin,xpg4,xpg6的含义
  3. 电脑接html线没反应,iphone数据线接电脑没反应的处理方法:
  4. Tineye (介绍)
  5. python int占用多少字节数_python中int类型占了多少个字节
  6. Altair收购EMSS公司 增强电磁求解器功能
  7. QUIC-HTTP/3介绍
  8. 【网络安全】CIS 2021网络安全创新大会《代码安全体系建设》实录
  9. 渡课学习第18天:很难受
  10. 微信小程序scroll-view上拉加载更多