【计量经济学导论】04. 多重共线性
文章目录
- 多重共线性
- 多重共线性的含义
- 多重共线性的产生原因
- 多重共线性的后果
- 多重共线性的检验方法
- 多重共线性的修正措施
多重共线性
通过前面的三篇笔记,我们基本上搭建了一个计量经济学的分析框架,即模型设定、基本假定、参数估计、统计性质、假设检验。其中,基本假定的满足是保证一切计量分析合理性的前提条件。在这一系列的笔记中,我们都主要参考伍德里奇关于基本假定的表述,可以参考笔记《计量经济学导论02:多元回归模型》中的 MLR.1 至 MLR.6 。从本节开始,我们开始讨论违背基本假定的问题,即如果我们的样本数据没有我们认为的那么理想,我们又该作何处理。
多重共线性的含义
我们在经典假定 MLR.3 中曾提出,多元回归模型应满足不存在完全共线性的假设。在实际应用中,共线性问题是多元回归模型可能存在的一类现象,分为完全共线性和多重共线性两种。完全共线性指的指多元回归模型中的一些或全部解释变量之间存在一种确定的线性关系,而多重共线性指的是一些或全部解释变量之间存在一种不完全但高度相关的线性关系。
注意一点,如果模型中出现了完全共线性,则违背了 MLR.3 的假定;如果模型中出现了多重共线性,则不违背任何一条经典假定,只是估计效果没有那么好而已。认清这一点非常重要,对我们分析多重共线性下参数估计的统计性质有很大的帮助。下面我们给出严格的定义。
完全共线性
对于解释变量 X1,X2,⋯,XkX_1,X_2,\cdots,X_kX1,X2,⋯,Xk ,如果存在不全为 000 的常数 λ1,λ2,⋯,λk\lambda_1,\lambda_2,\cdots,\lambda_kλ1,λ2,⋯,λk,使得
λ1Xi1+λ2Xi2+...+λkXik=0,i=1,2,⋯,n,\lambda_1X_{i1}+\lambda_2X_{i2}+...+\lambda_kX_{ik}=0 \ , \ \ \ \ i=1,2,\cdots,n \ , λ1Xi1+λ2Xi2+...+λkXik=0 , i=1,2,⋯,n ,
在矩阵形式中,有 r(X)<k+1{\rm r}(\boldsymbol{X})<k+1r(X)<k+1 ,这表明数据矩阵 X\boldsymbol{X}X 中至少有一个列向量可以用其余的列向量线性表示,此时解释变量 X1,X2,⋯,XkX_1,X_2,\cdots,X_kX1,X2,⋯,Xk 中存在完全共线性。
多重共线性
对于解释变量 X1,X2,⋯,XkX_1,X_2,\cdots,X_kX1,X2,⋯,Xk ,如果存在不全为 000 的常数 λ1,λ2,⋯,λk\lambda_1,\lambda_2,\cdots,\lambda_kλ1,λ2,⋯,λk,使得
λ1Xi1+λ2Xi2+⋯+λkXik+vi=0,i=1,2,⋯,n,\lambda_1X_{i1}+\lambda_2X_{i2}+\cdots+\lambda_kX_{ik}+v_i=0 \ , \ \ \ \ i=1,2,\cdots,n \ , λ1Xi1+λ2Xi2+⋯+λkXik+vi=0 , i=1,2,⋯,n ,
其中,viv_ivi 是随机误差项,这表明中解释变量 X1,X2,⋯,XkX_1,X_2,\cdots,X_kX1,X2,⋯,Xk 只存在一种近似的线性关系,称为多重共线性。
我们可以用下面的数据举个例子:
X1X_1X1 | X2X_2X2 | X3X_3X3 |
---|---|---|
101010 | 505050 | 525252 |
151515 | 757575 | 757575 |
181818 | 909090 | 979797 |
242424 | 120120120 | 129129129 |
303030 | 150150150 | 152152152 |
383838 | 190190190 | 187187187 |
- X2X_2X2 与 X1X_1X1 之间是完全线性关系:X2=5X1X_2=5X_1X2=5X1 ;
- X3X_3X3 与 X1X_1X1 之间是不完全线性关系:X3=5X1+vX_3=5X_1+vX3=5X1+v ,其中 v=2,0,7,9,2,−3v=2,0,7,9,2,-3v=2,0,7,9,2,−3 。
多重共线性的产生原因
一般地,产生多重共线性的主要原因有以下几个方面:
模型设定错误:这个不需要解释,模型设定错误的时候什么情况都有可能发生,一定要克服。
数据采集方法不当:如果在总体中的一个较小的范围内抽样,XXX 没有显著的波动会导致 XXX 和截距项之间产生多重共线性的现象。
经济变量之间具有共同变化趋势:如时间序列数据中,GDP、就业人口、消费等数据的变化常常会具有相同的时间趋势。
模型中包含滞后变量:在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费 === f(f(f(当期收入,,, 前期收入))) ,显然,这两期收入间有较强的线性相关性。
多项式的引入:如模型中包括 X,X2,X3X,\,X^2,\,X^3X,X2,X3 作为解释变量,当 XXX 变化不大时会呈现出严重的多重共线性。
我们可以做一个实验看看 X2,X3X^2,\,X^3X2,X3 和 XXX 之间可以带来什么程度的线性相关性。注意,这里的线性相关指的是统计意义上,可以利用协方差和相关系数衡量的相关性,而非线性代数中涉及的线性相关和线性无关的概念。如果利用后者的概念来理解,X2,X3X^2,\,X^3X2,X3 和 XXX 之间确实是线性无关的。
我们知道一元回归模型中,可决系数 R2R^2R2 和样本相关系数的平方 r2r^2r2 相等,因此我们利用 Stata 软件分别做 X2,X3X^2,\,X^3X2,X3 对 XXX 的简单回归,通过 R2R^2R2 的值来检验其相关性。
在 Stata 中输入以上数据,并利用 reg
命令进行回归。可以看出 X2X^2X2 和 XXX 之间的 R2R^2R2 高达 0.94530.94530.9453 ,X3X^3X3 和 XXX 之间的 R2R^2R2 也有 0.86060.86060.8606 ,在统计意义上体现出很强的相关性。
多重共线性的后果
在这里我们先回顾两个公式:
β^=(XTX)−1XTY,\hat{\boldsymbol\beta}=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ , β^=(XTX)−1XTY ,
Var(β^j)=σ2SSTj(1−Rj2).{\rm Var}(\hat\beta_j)=\frac{\sigma^2}{{\rm SST}_j(1-R^2_j)} \ . Var(β^j)=SSTj(1−Rj2)σ2 .
当模型中出现完全共线性时, r(X)<k+1{\rm r}(\boldsymbol{X})<k+1r(X)<k+1 ,因此 det(XTX)=0{\rm det}(\boldsymbol{X}^{\rm T}\boldsymbol{X})=0det(XTX)=0 ,即矩阵 XTX\boldsymbol{X}^{\rm T}\boldsymbol{X}XTX 是奇异矩阵,此时不存在矩阵的逆 (XTX)−1\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}(XTX)−1 ,因此不存在唯一确定的解 β^\hat{\boldsymbol{\beta}}β^ 。另一方面,假设 XjX_jXj 可以被其他的解释变量线性表示,此时基于排除其他变量影响的方法,用 XjX_jXj 对其他解释变量做回归得到的 Rj2=1R_j^2=1Rj2=1 ,导致 XjX_jXj 的参数估计值的方差 Var(β^j)=∞{\rm Var}(\hat\beta_j)=\inftyVar(β^j)=∞ 。
概括起来,完全共线性的后果主要有两个方面:
- 参数估计值不唯一;
- 参数估计值的方差无限大。
当模型中出现多重共线性时,OLS 估计可以正常计算。而且由于多重共线性并没有违背任何一条经典假设,特别是高斯-马尔科夫假设,根据高斯-马尔科夫定理,多重共线性下的 OLS 估计仍然是最佳线性无偏估计量 BLUE 。但是多重共线性会造成估计的结果不够精确。仍然以 XjX_jXj 为例,当出现多重共线性时,Rj2R_j^2Rj2 会显著增大,导致参数估计的方差增大。我们可以引入方差膨胀因子 VIF{\rm VIF}VIF 来衡量多重共线性导致的方差膨胀的倍数:
VIFj=11−Rj2.{\rm VIF}_j=\frac{1}{1-R_j^2} \ . VIFj=1−Rj21 .
在这种情况下,多重共线性的后果主要有以下几个方面:
- 参数的估计值可计算,但不稳定;
- 参数估计量的方差增大;
- 对参数区间估计时,置信区间趋于变大,假设检验容易接受参数为 000 的假设;
- 可能造成 R2R^2R2 较高,但对各个参数单独的 ttt 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。
多重共线性的检验方法
经验观察法
直观来看,出现多重共线性时常常伴随着较大的 R2R^2R2 和 FFF 值,但只有几个参数的 ttt 检验显著。
简单相关系数法
简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。一般而言,如果每两个解释变量的简单相关系数比较高,例如 ∣r∣>0.8|r|>0.8∣r∣>0.8 ,则可认为存在着较严重的多重共线性。
但我们需要注意的是,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。
辅助回归法
以某一解释变量 XjX_jXj 为被解释变量,以其余解释变量作为新的解释变量,进行一个新的回归分析。
得出回归的拟合优度 Rj2R^2_jRj2 (称为判定系数)和总显著性检验的 FFF 统计量 FjF_jFj 的值。
若 FFF 检验显著,FjF_jFj 较大,可以认为存在明显的多重共线性问题。
若对于所有的 jjj 都有 Rj2>R2R^2_j>R^2Rj2>R2,可以认为存在明显的多重共线性问题。
方差膨胀因子法
方差膨胀因子的定义同上,
VIFj=11−Rj2,{\rm VIF}_j = \frac{1}{1-R^2_j} \ , VIFj=1−Rj21 ,
方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于 111 ,多重共线性越弱。若 VIFj>10{\rm VIF}_j>10VIFj>10 且辅助回归 Rj2>0.9R^2_j>0.9Rj2>0.9,可以认为存在明显的多重共线性问题,且这种多重共线性可能会过度地影响最小二乘估计。
多重共线性的修正措施
处理多重共线性的常用措施如下:
- 利用非样本的外部或先验信息作为约束条件:通过经济理论分析得到某些参数之间的关系,将这种关系作为约束条件,将此约束条件和样本信息结合起来进行受约束的最小二乘估计。
- 横截面与时间序列数据并用。
- 剔除高度共线性的变量(如逐步回归法),但可能引起模型的设定误差。
- 数据转换:
- 时间序列:做一阶差分;
- 计算相对指标;
- 将名义数据转换为实际数据;
- 将小类指标合并成大类指标。
- 选择有偏估计量(如岭回归,Lasso回归)。
- 不做任何处理,因为多重共线性下的 OLS 估计量仍然满足 BLUE 性质。
我们主要对逐步回归法和岭回归法做详细解释。
逐步回归法(Stepwise)
逐步回归法的步骤如下:
- 用被解释变量对每一个所考虑的解释变量做简单回归。
- 以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。
逐步回归法中解释变量取舍的检验判断方式:
- 若新变量的引入改进了 R2R^2R2 和 FFF 检验,且回归参数的 ttt 检验在统计上也是显著的,则在模型中保留该变量。
- 若新变量的引入未能改进 R2R^2R2 和 FFF 检验,且对其他回归参数估计值的 ttt 检验也没有带来什么影响,则认为该变量是多余变量。
- 若新变量的引入未能改进 R2R^2R2 和 FFF 检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过 ttt 检验,说明出现了严重的多重共线性。
岭回归法(Ridge Regression)
岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法,其目的是以引入偏误为代价减小参数估计量的方差。
当解释变量之间存在多重共线性时,XTX\boldsymbol{X}^{\rm T}\boldsymbol{X}XTX 是奇异的,也就是说它的行列式的值接近于 000 ,或者说该矩阵有接近于 000 的特征根,此时 OLS 估计近乎失效。岭回归方法就是用 (XTX+rD)(\boldsymbol{X}^{\rm T}\boldsymbol{X}+r\boldsymbol{D})(XTX+rD) 代替正规方程中的 XTX\boldsymbol{X}^{\rm T}\boldsymbol{X}XTX 。其中 rrr 为大于 000 的常数,称为岭回归系数,矩阵 D\boldsymbol{D}D 一般选择为主对角阵,具体计算方法如下:
D=Ik+1,或 D=[d02d12⋱dk2],\boldsymbol{D}=\boldsymbol{I}_{k+1} \ , \ \ \ \ \text{或} \ \ \ \ \boldsymbol{D}= \left[ \begin{array}{cccc} d_0^2 & & & \\ & d_1^2 & & \\ & & \ddots & \\ & & & d_k^2 \\ \end{array} \right] \ , D=Ik+1 , 或 D=⎣⎢⎢⎡d02d12⋱dk2⎦⎥⎥⎤ ,
d02=∑i=1nYi2,dj2=∑i=1nXij2,j=1,2,⋯,k.d_0^2=\sum_{i=1}^n Y_i^2 \ , \ \ \ \ d_j^2 = \sum_{i=1}^n X_{ij}^2\ ,\ \ \ \ j=1,2,\cdots,k \ . d02=i=1∑nYi2 , dj2=i=1∑nXij2 , j=1,2,⋯,k .
此时岭回归的参数估计式为:
β~(r)=(XTX+rD)−1XTY.\tilde{\boldsymbol\beta}(r)=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}+r\boldsymbol{D}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ . β~(r)=(XTX+rD)−1XTY .
关于岭回归系数的选择:由上式可知 rrr 越大,β~(r)\tilde{\boldsymbol\beta}(r)β~(r) 对 β\boldsymbol\betaβ 的偏差越大,但方差越小。因此我们需要选择一个惩罚适中的方案。理论选择最小化均方误差的 rrr :
minr{Mse(β~(r))},\min_r \left\{ {\rm Mse}\left( \tilde{\boldsymbol\beta}(r) \right) \right\} \ , rmin{Mse(β~(r))} ,
其中,均方误差的定义为:
Mse(θ^)=E(θ^−θ)2=Var(θ^)+[E(θ^)−θ]2.{\rm Mse}(\hat\theta) = {\rm E}(\hat\theta-\theta)^2={\rm Var}(\hat\theta)+\left[{\rm E}(\hat\theta)-\theta\right]^2 \ . Mse(θ^)=E(θ^−θ)2=Var(θ^)+[E(θ^)−θ]2 .
实际操作时可以利用统计软件对岭回归系数 rrr 进行搜索,直到估计的系数趋于稳定为止。
【计量经济学导论】04. 多重共线性相关推荐
- 计量经济学第六版计算机答案,伍德里奇计量经济学导论计算机习题第六章第13题c_6.13...
伍德里奇计量经济学导论计算机习题第六章第13题,答案和MATLAB代码 clear,clc; % c6.13 by % 打开文字文件和数据文件 importdata('meap00_01.des'); ...
- 【计量经济学导论】01. 简单回归模型
文章目录 简单回归模型 相关程度的度量 简单线性回归模型 简单线性回归的基本假定 普通最小二乘法 OLS 估计的代数性质 总变差的分解 拟合优度检验 参数的统计分布 变量的显著性检验 对数函数形式 简 ...
- 计量经济学导论伍德里奇第六版答案+数据集
计量经济学导论答案 计量经济学导论伍德里奇 第四版.第五版.第六版答案+数据集均有
- 伍德里奇《计量经济学导论》第5版笔记和课后答案
完整版在线阅读:http://wwxx.100xuexi.com/Ebook/195574.html 本书是伍德里奇<计量经济学导论>(第5版)教材的学习辅导书,主要包括以下内容: (1) ...
- 伍德里奇《计量经济学导论》第4版笔记和课后答案
完整版在线阅读>>> http://wwxx.100xuexi.com/Ebook/231042.html 本书是伍德里奇<计量经济学导论>教材的学习辅导书,主要包括以下 ...
- 【计量统计】计量经济学导论常见公式原理及习题解答
关键词:[Stata] [计量经济学] [习题解答] 一.简单二元回归模型 y=b0+b1x+uy = b_0 + b_1x + uy=b0+b1x+u b0b_0b0 , b1b_1b1被称 ...
- Anthony计量经济学导论-学习笔记+R语言
大概就是用R来搞经济学,用Python玩爬虫,用SAS处理数据? 终于蹭上了我想要的编程课,顺便把一元和多元回归学精! 经济学专业博士如何学好高级计量? - 知乎 General Method of ...
- 【计量经济学导论】12. 格兰杰因果关系检验
文章目录 格兰杰因果关系检验 时间序列向量自回归模型 向量自回归模型设定 VAR{\rm VAR}VAR 模型的估计 格兰杰因果关系检验 格兰杰因果关系检验的实际问题 格兰杰因果关系检验 时间序列向量 ...
- 【计量经济学导论】02. 多元回归模型
文章目录 多元回归模型 经典线性回归模型的假定 排除其他变量影响的方法 无偏性的证明 估计量的方差计算 估计量方差的成份 多元回归模型 经典线性回归模型的假定 在这一节中,我们将把回归模型由一元扩展到 ...
最新文章
- leetcode 53.最大子序和
- Mikrotik RouterOS 日常问题解析 ROS 5.4下载
- 响应式多级菜单 侧边菜单栏_使用纯HTML和OmniFaces构建动态响应的多级菜单
- 1075 链表元素分类 (25 分)
- jeesite缓存问题
- 在哪个Linux发行版上运行python,怎么在linux上运行python
- Linux 把文件内容发送给用户,linux上给其他在线用户发送信息(wall, write, talk, mesg)...
- 一起学习C语言:数组(一)
- 东方PHP授权系统修复版盗版检测源码
- 本周开源论文推荐:含人脸识别、实例分割、跟踪、SR等
- unicode编码表_6-字符编码-文件处理
- python列表数据运算_Python基础(2)——数据类型:Numbers、列表、元组、字典、字符串、数据运算...
- U盘安装ubuntu server 10.4
- JSLint说“缺少基数参数”
- nginx的web基础
- MOSS User Profile(三):查看用户配置文件修改历史
- 无监督学习K-means文本聚类实践
- .NET反编译之manager,base.AutoScaleMode修复
- 希尔密码(原理+代码)
- 计算机网络实验报告实验台,计算机控制实验台
热门文章
- 深度解析CTM项目成功的原因
- TypeScript报错解决-//@ts-ignore
- matlab怎么读取指定坐标的RGB值
- Windows Installer和即点即用版本的Office程序不能并行的问题
- JAVASE详解(上篇)
- java的springboot项目操作阿里云OSS下载文件、查看文件内容、上传文件,自定义工具类
- 2022 高德地图的使用 获取当前城市
- Is it going on-------------Docker容器的安装以及基本的操作指令
- 计算机usb接口是一种通用,USB接口大科普,你用的是哪一种?
- 信号与系统sa函数求积分_信号与系统