回归分析的五个基本假设
回归分析的五个基本假设
最近读到一篇很棒的文章,介绍了回归分析的五个基本假设,假设失效的影响及检验方法,现总结归纳如下。为己乃梳理巩固,亦期能有助于各位。
综述
回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型。以便通过观察特定变量(自变量),来预测研究者感兴趣的变量(因变量)。
总的来说,回归分析是一种参数化方法,即为了达到分析目的,需要设定一些“自然的”假设。如果目标数据集不满足这些假设,回归分析的结果就会出现偏差。因此想要进行成功的回归分析,我们就必须先证实这些假设。
回归分析的五个基本假设
线性性 & 可加性
假设因变量为YY,自变量为X1X_1,X2X_2,则回归分析的默认假设为Y=b+a1X1+a2X2+εY=b+a_1 X_1+a_2 X_2+\varepsilon。
线性性:X1X_1每变动一个单位,YY相应变动a1a_1个单位,与X1X_1的绝对数值大小无关。
可加性:X1X_1对YY的影响是独立于其他自变量(如X2X_2)的。误差项(ε\varepsilon)之间应相互独立。
若不满足这一特性,我们称模型具有自相关性(Autocorrelation)。
自变量(X1,X2X_1,X_2)之间应相互独立。
若不满足这一特性,我们称模型具有多重共线性性(Multicollinearity)。
误差项(ε\varepsilon)的方差应为常数。
若满足这一特性,我们称模型具有同方差性(Homoskedasticity),若不满足,则为异方差性(Heteroskedasticity)。
误差项(ε\varepsilon)应呈正态分布。
假设失效的影响
线性性 & 可加性
若事实上变量之间的关系不满足线性性(如含有X21X_1^2, X31X_1^3 项),或不满足可加性(如含有X1⋅X2X_1 \cdot X_2项),则模型将无法很好的描述变量之间的关系,极有可能导致很大的泛化误差(generalization error)
自相关性(Autocorrelation)
自相关性经常发生于时间序列数据集上,后项会受到前项的影响。当自相关性发生的时候,我们测得的标准差往往会偏小,进而会导致置信区间变窄。
假设没有自相关性的情况下,自变量XX的系数为15.0215.02而标准差为2.082.08。假设同一样本是有自相关性的,测得的标准差可能会只有1.201.20,所以置信区间也会从(12.94,17.10)(12.94,17.10)缩小到(13.82,16.22)(13.82,16.22)。多重共线性性(Multicollinearity)
如果我们发现本应相互独立的自变量们出现了一定程度(甚至高度)的相关性,那我们就很难得知自变量与因变量之间真正的关系了。
当多重共线性性出现的时候,变量之间的联动关系会导致我们测得的标准差偏大,置信区间变宽。
采用岭回归,Lasso回归或弹性网(ElasticNet)回归可以一定程度上减少方差,解决多重共线性性问题。因为这些方法,在最小二乘法的基础上,加入了一个与回归系数的模有关的惩罚项,可以收缩模型的系数。
岭回归:=argminβ∈Rp(∥y−Xβ∥22+λ∥β∥22)=argmin_{\beta\in\mathbb R^p}(\Vert y-X\beta\Vert_2^2+\lambda\Vert\beta\Vert_2^2)
Lasso回归:=argminβ∈Rp(∥y−Xβ∥22+λ∥β∥1)=argmin_{\beta\in\mathbb R^p}(\Vert y-X\beta\Vert_2^2+\lambda\Vert\beta\Vert_1)
弹性网回归:=argminβ∈Rp(∥y−Xβ∥22+λ1∥β∥1+λ2∥β∥22)=argmin_{\beta\in\mathbb R^p}(\Vert y-X\beta\Vert_2^2+\lambda_1\Vert\beta\Vert_1+\lambda_2\Vert\beta\Vert_2^2)where∥Z∥p=(∑i=1N|Zi|p)(1/p)where \Vert Z\Vert_p=\bigg(\sum_{i=1}^N \vert Z_i\vert^p\bigg)^{(1/p)}
异方差性(Heteroskedasticity)
异方差性的出现意味着误差项的方差不恒定,这常常出现在有异常值(Outlier)的数据集上,如果使用标准的回归模型,这些异常值的重要性往往被高估。在这种情况下,标准差和置信区间不一定会变大还是变小。
误差项(ε\varepsilon)应呈正态分布
如果误差项不呈正态分布,意味着置信区间会变得很不稳定,我们往往需要重点关注一些异常的点(误差较大但出现频率较高),来得到更好的模型。
假设检验方法
线性性 & 可加性
观察残差(Residual)/估计值(Fitted Value,Y^\hat{Y})图。相较于图一(残差随机分布),图二的残差明显呈现了某种二次型趋势,说明回归模型没有抓住数据的某些非线性特征。
为了克服非线性性的影响,我们可以对自变量做一些非线性变换,如log(X),X−−√,X2..etc\log(X), \sqrt X, X^2.. etc自相关性(Autocorrelation)
观察杜宾-瓦特森统计量(Durbin-Watson Statistic)DW=∑Tt=2(et−et−1)2∑Tt=1e2tDW=\frac{\sum_{t=2}^T(e_t-e_{t-1})^2}{\sum_{t=1}^Te_t^2}
该统计量的值落在(0,4)(0,4)内,DW=2DW=2意味着没有自相关性,0<DW<20表明残差间有正的相关性,2<DW<42表明残差间有负的相关性。
经验上,如果DW<1DW或DW>3DW>3,则自相关性已经达到了需要示警的水平。如果事先给定了检验的方向(正/负相关性)和置信度α\alpha,也可以根据假设检验的思路进行对应计算。多重共线性性(Multicollinearity)
首先,可以通过观察自变量的散点图(Scatter Plot)来进行初步判断。
然后,针对可能存在多重共线性性的变量,我们观察其方差膨胀系数(VIF–Variance Inflation Factor)
假设回归模型为:Y=β0+β1X1+β2X2+⋯+βkXk+εY=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots+\beta_k X_k + \varepsilon
对于变量XjX_j,可证得,其估计系数βj\beta_j的方差为:var^(β^j)=s2(n−1)var^(Xj)⋅11−R2j\hat{var}(\hat{\beta}_j)=\frac{s^2}{(n-1)\hat{var}(X_j)}\cdot\frac{1}{1-R_j^2}
其中唯一与其它自变量有关的值是R2jR_j^2,R2jR_j^2是XjX_j关于其它自变量回归的残差:Xj=β0+β1X1+β2X2+⋯+βj−1Xj−1+βj+1Xj+1+⋯+βkXk+εX_j=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots + \beta_{j-1} X_{j-1} + \beta_{j+1} X_{j+1} +\cdots + \beta_k X_k + \varepsilon
11−R2j\frac{1}{1-R_j^2}便称作VIFVIF,若VIF<3VIF,说明该变量基本不存在多重共线性性问题,若VIF>10VIF>10,说明问题比较严重。异方差性(Heteroskedasticity)
观察残差(Residual)/估计值(Fitted Value,Y^\hat{Y})图。若该图呈现如上图所示的“漏斗形”,即随着Y^\hat{Y}的变化,残差有规律的变大或变小,则说明存在明显的异方差性。
或观察残差的标准差(StandardizedResidual−−−−−−−−−−−−−−−−−−√\sqrt{Standardized Residual})/估计值图(Scale Location Plot)。
也可以看出,异方差数据集呈现出明显的趋势性。
为了克服异方差性的影响,我们可以对因变量做一些非线性变换,如log(Y),Y−−√..etc\log(Y), \sqrt Y .. etc
误差项(ε\varepsilon)应呈正态分布
方法一:观察Q-Q Plot (quantile-quantile plot)如果误差项满足正态分布,Q-Q Plot里的散点会近似的落在一条直线上。若不满足正态分布,则散点会偏离该直线。
方法二:进行正态检验–如Kolmogorov-Smirnov检验,Shapiro–Wilk检验
总结
如果走在了错误的道路上,就算健步如飞,也只会渐行渐远。回归分析是久经考验的很有效的分析手段,但在使用的过程中,我们一定要时刻注意数据集是否满足建模的基本假设,是否需要调整。上述的图表在用R做回归时都会自动生成,更好的理解和观察它们会帮助我们更好地运用回归分析!
有诗云:
悟以往之不谏,知来者之可追。实迷途其未远,觉今是而昨非。
舟遥遥以轻扬,风飘飘而吹衣。问征夫以前路,恨晨光之熹微。
–《归去来兮辞》
回归分析的五个基本假设相关推荐
- 何晓群pdf 应用回归分析第五版_暨南社会学论坛|未成年人司法中的法律实证与统计应用:多元回归分析(第三期)...
12月28日(周一)上午,由美国Sam Houston State University刑事司法学院的Jihong Solomon Zhao教授主讲的"未成年人司法中的法律实证与统计应用:入 ...
- 应用回归分析第五版电子书_应用回归分析(第5版)
目录 第1章回归分析概述 1.1变量间的统计关系 1.2回归方程与回归名称的由来 1.3回归分析的主要内容及其一般模型 1.4建立实际问题回归模型的过程 1.5回归分析应用与发展述评 思考与练习 第2 ...
- 应用回归分析第五版电子书_《应用回归分析-(第5版)》【价格 目录 书评 正版】_中国图书网...
目录 第1章回归分析概述 11变量间的统计关系 12回归方程与回归名称的由来 13回归分析的主要内容及其一般模型 14建立实际问题回归模型的过程 15回归分析应用与发展述评 思考与练习 第2 ...
- 线性回归的五个基本假设
详情见博文 https://blog.csdn.net/Noob_daniel/article/details/76087829
- 回归分析-(多元)线性回归分析基础( Linear Regression)
回归分析法主要解决的问题: 1.确定变量之间是否存在相关关系,若存在,则找出数学表达式: 2.根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度. 线性回 ...
- lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比
1. 回顾最小二乘法 详细的解释在以下这个链接 https://www.matongxue.com/madocs/818 简而言之,最小二乘法展现了平方误差值最小的时候,就是最好的拟合回归线. 2. ...
- 数据挖掘训练营建模调参学习笔记
本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:-天池实验室-实时在线的数据分析协作工具,享受免费计算资源 (aliyun.com)https://tianchi.aliyun.c ...
- [Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究
多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...
- 《假设的世界-一切不能想当然》笔记
[日] 竹内薰 著 本书通过各类科学领域的事例,介绍了支配着我们头脑的各种假设,并向各位传授了不依照成见进行判断的诀窍. 序章 飞机为什么会飞 –其实啊--目前还没人能解释清楚 总结 全世界都是假设! ...
最新文章
- Android中三种超实用的滑屏方式汇总(ViewPager、ViewFlipper、ViewFlow)
- CF868F Yet Another Minimization Problem
- Linux下的tar压缩解压缩命令详解(转)
- python qt gui与数据可视化编程 pdf_《Python Qt GUI与数据可视化编程》第13章
- Scala实现WordCount
- SVN记录转excel文件的小程序
- LINQ to Objects和多线程实现文件查找与分组
- 电商项目--使用GitHub进行版本管理,完美衔接idea详细流程,Java初阶知识点,完整步骤
- echarts 动态设置y轴单位_Recharts动态设置y轴的最大值最小值
- 互联网日报 | 中国移动香港实现5G独立组网;嫦娥五号顺利进入环月轨道;钟慧娟成全球白手起家女首富...
- uboot 中Nand flash 常用操作命令解析
- 【软件测试岗面经分享】华为测试工程师面经,已成功上岸
- 计算机桌面上的微信图标不显示不出来怎么办,怎么隐藏电脑上微信的图标显示不出来怎么办...
- 农林资金 大数据审计案例_大数据审计应用案例
- FullCalendar日历控件vue使用记录
- bootstrap, boosting, bagging
- 基于vue+elementui 月子中心会所系统web
- 2021 年 8 月全国程序员薪酬出炉:北京18904元位居榜首
- Android中DialogFragment自动弹出输入法
- 让图片和文字在一行中垂直居中对齐的方法
热门文章
- android os 小米系统,小米全新OS系统MIUI 12发布:挑战iOS、22款机型首发升级
- 飞车手游显示服务器连接失败怎么办,qq飞车手游服务器拉取失败
- 原神七块石板位置在哪
- 如何去痘痘最快方法简单
- windows server 远程登录后总是出现屏幕键盘,烦死人了
- 计算机显示器模糊,显示器模糊,我来教您电脑显示器模糊怎么办
- 计算机是1946年由科学家发明,1946年第一台计算机叫什么
- 逐向双碳:绿色计算的误区与正确打开方式
- AI资源对接需求汇总:第3期
- 【调剂】关于开通上海第二工业大学2022年硕士研究生招生预调剂系统的通知