【中级计量经济学】Lecture 2 多重共线性

文章目录

Lecture 2 多重共线性
- 2.1 多重共线性的含义
- - 完全共线性
  - 多重共线性
- 2.2 解释变量关系与相关指标
- 2.3 多重共线性产生的后果
- - 正交的后果
  - 完全共线性的后果
  - 多重共线性产的后果
- 2.4 多重共线性的检验
- - 简单相关系数检验法
  - 直观判断法
  - 辅助回归法
  - 方差膨胀因子法
- 2.5 多重共线性补救方法
- - 修正多重共线性的经验方法
  - 逐步回归法√
  - 岭回归法（选择有偏估计量）√
  - 主成分回归法√

Lecture 2 多重共线性

2.1 多重共线性的含义

完全共线性

对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1,X2,…,Xk存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1,λ2,…,λk使得
λ1X1i+⋯+λkXki=0i=1,2,…,n\lambda_1X_{1i}+\dots+\lambda_kX_{ki}=0\\ i=1,2,\dots,n λ1X1i+⋯+λkXki=0i=1,2,…,n
表明解释变量之间存在完全共线性。

多重共线性

对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1,X2,…,Xk存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1,λ2,…,λk使得
λ1X1i+⋯+λkXki+μi=0i=1,2,…,nμi是随机变量\lambda_1X_{1i}+\dots+\lambda_kX_{ki}+\mu_i=0\\ i=1,2,\dots,n\\ \mu_i是随机变量 λ1X1i+⋯+λkXki+μi=0i=1,2,…,nμi是随机变量
表明解释变量之间是近似的线性关系。

2.2 解释变量关系与相关指标

指标1：
x′x=[∑x1i2∑x1ix2i∑x2ix1i∑x2i2]x'x=\left[ \begin{matrix} \sum x_{1i}^2&\sum x_{1i}x_{2i}\\\sum x_{2i}x_{1i}&\sum x_{2i}^2\end{matrix} \right] x′x=[∑x1i2∑x2ix1i∑x1ix2i∑x2i2]
指标2：rank(x′x)rank(x'x)rank(x′x)

完全共线性，秩等于1；其他，秩等于2.
指标3：样本简单相关系数
r(X1,X2)=∑x1ix2i∑x1i2∑x2i2r(X_1,X_2)=\frac{\sum x_{1i} x_{2i}}{\sqrt{\sum x_{1i}^2}\sum x_{2i}^2} r(X1,X2)=∑x1i2∑x2i2∑x1ix2i
相关系数接近于1，多重共线性越强；相关系数接近于0，多重共线性弱。
指标4：矩阵行列式
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ |x'x|&=\left| …
行列式接近于0，多重共线性越强；行列式接近于1，多重共线性越弱。
指标5：逆矩阵

正交

完全共线性

强多重共线性

弱多重共线性

2.3 多重共线性产生的后果

β^=[β1^β2^]Cov(β^)=σ2(x′x)−1\hat{\pmb{\beta}}=\left[\begin{matrix}\hat{\beta_1} \\\hat{\beta_2} \end{matrix}\right]\\ Cov(\hat{\pmb{\beta}})=\sigma^2(x'x)^{-1} βββ^=[β1^β2^]Cov(βββ^)=σ2(x′x)−1

正交的后果

完全共线性的后果

参数的估计值不唯一
参数估计值的方差无穷大

多重共线性产的后果

参数的估计值可计算，但不稳定。当相关系数越接近于1，参数的估计式逐渐称为不定式，估计值越来越不稳定。
参数估计的方差增大（相关性越高，参数估计量的方差越大）（以下为离差形式）
Var(β1^)=∑x2i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x1i2)(1−r122)Var(β2^)=∑x1i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x2i2)(1−r122)Var({\hat{\beta_1}})=\frac{\sum x_{2i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{1i}^2)(1-r_{12}^2)}\\ Var({\hat{\beta_2}})=\frac{\sum x_{1i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{2i}^2)(1-r_{12}^2)} Var(β1^)=(∑x1i2)(∑x2i2)−(∑x1ix2i2)∑x2i2⋅σ2=(∑x1i2)(1−r122)σ2Var(β2^)=(∑x1i2)(∑x2i2)−(∑x1ix2i2)∑x1i2⋅σ2=(∑x2i2)(1−r122)σ2

方差膨胀因子VIF=11−r122VIF=\frac{1}{1-r_{12}^2}VIF=1−r1221，r12r_{12}r12为解释变量的相关系数。
对参数区间估计时，置信区间趋于变大
βj=(βj^−tα/2(n−k−1)σ^cjj,βj^+tα/2(n−k−1)σ^cjj)\beta_j=(\hat{\beta_j}-t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}},\hat{\beta_j}+t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}}) βj=(βj^−tα/2(n−k−1)σ^cjj,βj^+tα/2(n−k−1)σ^cjj)
假设检验容易做出错误的判断（受到多重共线性影响的系数的ttt统计量变小，不容易通过显著性检验）
可能造成R2R^2R2较高，但对各个参数单独的ttt检验可能不显著，甚至可能使估计的回归系数符号相反，得出错误的结论。

2.4 多重共线性的检验

简单相关系数检验法

一般而言，如果每两个解释变量的简单相关系数大于0.5，则可认为存在着较严重的多重共线性。但有时较低的简单相关系数也可能存在多重共线性。

直观判断法

当增加或剔除一个解释变量，或者改变一个观测值时，回归参数的估计值发生较大变化（回归系数的不稳定性）；
虽然FFF值和R2R^2R2较大，但一些重要的解释变量的回归系数标准误较大，ttt检验值较小，没有通过显著性检验；
有些解释变量的回归系数所带正负号与定性分析结果违背

则回归方程可能存在严重的多重共线性。

辅助回归法

对某个XjX_jXj，用模型中的其他解释变量对其作回归，得到回归方程的拟合优度Rj2R_j^2Rj2称为该变量的判定系数。若存在部分jjj有Rj2>R2R_j^2>R^2Rj2>R2，则可以怀疑存在多重共线性；若对所有jjj都有Rj2>R2R^2_j>R^2Rj2>R2，则表明存在明显的多重共线性。（显然，Rj2R^2_jRj2越大，XjX_jXj越能被其他变量所解释，故更容易存在多重共线性。）
对判定系数作FFF检验，有

Fj=Rj2/(k−1)(1−Rj2)/(n−(k−1)−1)=Rj2/(k−1)(1−Rj2)/(n−k)∼F(k−1,n−k).F_j=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-(k-1)-1)}=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-k)}\sim F(k-1,n-k).\\ Fj=(1−Rj2)/(n−(k−1)−1)Rj2/(k−1)=(1−Rj2)/(n−k)Rj2/(k−1)∼F(k−1,n−k).

模型左边是其中1个解释变量，模型右边是k-1个剩余的解释变量

若FjF_jFj通过显著性检验，则可以认为存在明显的多重共线性。

方差膨胀因子法

方差膨胀因子越大，则表明解释变量之间存在越严重的多重共线性（VIF>5VIF>5VIF>5可以说明存在严重的多重共线性）；越接近于1，多重共线性越弱。

一说：VIF>10VIF>10VIF>10且辅助回归Rj2>0.9R_j^2>0.9Rj2>0.9一般认为多重共线性比价严重

VIF(β^j)≈11−Rj2VIF(\hat{\beta}_j)\approx\frac{1}{1-R^2_j} VIF(β^j)≈1−Rj21

2.5 多重共线性补救方法

修正多重共线性的经验方法

剔除变量法
增大样本容量
变换模型形式

一般而言，差分之后变量之间的相关型要比差分前弱得多，差分之后的模型可能降低
利用非样本先验信息
变量变换

计算相对指标/将名义数据转换为实际数据/将小类指标合并成大类指标

逐步回归法√

用YYY对每一个XjX_jXj，j=1,2,…,kj=1,2,\dots,kj=1,2,…,k做简单回归：
Yi=β0+β1Xji+μiY_i=\beta_0+\beta_1X_{ji}+\mu_i Yi=β0+β1Xji+μi
以回归系数最大（对被解释变量贡献最大）的解释变量对应的回归方程为基础，按对被解释变量贡献大小的顺序，诸葛引入其余变量。

如果新变量的引入改建了R2R^2R2和FFF值，且回归系数的ttt检验显著，则保留该变量。如果没有改进R2R^2R2和FFF值，且显著影响了其他回归参数的估计值（数值或符号），同时分身的回归系数也无法通过ttt检验，则说明出现了严重的多重线性。

岭回归法（选择有偏估计量）√

用X′X+rDX'X+rDX′X+rD代替X′XX'XX′X，rrr为岭回归系数，
KaTeX parse error: No such environment: align at position 17: …D=\left[ \begin{̲a̲l̲i̲g̲n̲}̲ d_0^2&\\ &d_1^…
d0=∑Yi2d_0=\sum Y_i^2d0=∑Yi2，dj=∑Xjid_j=\sum X_{ji}dj=∑Xji，j=1,…,kj=1,\dots,kj=1,…,k.

岭回归的参数估计式为
β~(r)=(X′X+rD)−1X′Y\tilde{\beta}(r)=(X'X+rD)^{-1}X'Y β~(r)=(X′X+rD)−1X′Y

主成分回归法√

主成分定义

x=[x1,…,xk],z=[z1,…,zk]\pmb{x}=[x_1,\dots,x_k],\pmb{z}=[z_1,\dots,z_k]xxx=[x1,…,xk],zzz=[z1,…,zk]称为主成分，需满足如下条件：
1. zjz_jzj为x1,…,xkx_1,\dots,x_kx1,…,xk的线性组合，即zj=x1α1j+⋯+xkαkj=xαjz_j=x_1\alpha_{1j}+\dots+x_k\alpha_{kj}=\pmb{x\alpha_j}zj=x1α1j+⋯+xkαkj=xαjxαjxαj，其中αj=(α1j,…,αkj)\pmb{\alpha_j}=(\alpha_{1j},\dots,\alpha_{kj})αjαjαj=(α1j,…,αkj)，j=1,…,kj=1,\dots,kj=1,…,k
2. z1,…,zkz_1,\dots,z_kz1,…,zk两两正交
3. 总变差不变，即∑j=1k=zj′zj=∑j=1k=xj′xj\displaystyle\sum_{j=1}^k=z'_jz_j=\displaystyle\sum_{j=1}^k=x'_jx_jj=1∑k=zj′zj=j=1∑k=xj′xj
4. z1′z1≥⋯≥zk′zkz_1'z_1\geq\dots\geq z_k'z_kz1′z1≥⋯≥zk′zk
求主成分步骤
1. 计算解释变量的相关系数矩阵
  R=x∗′x∗R=\pmb{{x^{*}}'x^*} R=x∗′x∗x∗′x∗x∗′x∗
2. 计算RRR的kkk个特征值
  λmax=λ1≥λ2≥⋯≥λk=λmin>0\lambda_{max}=\lambda_1\geq\lambda_2\geq\dots\geq\lambda_k=\lambda_{min}>0 λmax=λ1≥λ2≥⋯≥λk=λmin>0
  以及相应的标准化正交特征向量α1,α2,…,αk\pmb{\alpha_1},\pmb{\alpha_2},\dots,\pmb{\alpha_k}α1α1α1,α2α2α2,…,αkαkαk
  
  zj=x1∗α1j+⋯+xk∗αkj=[x1∗,…,xk∗][α1j,…,αkj]′=x∗αj,j=1,…,kz_j=x_1^*\alpha_{1j}+\dots+x_k^*\alpha_{kj}=[x_1^*,\dots,x_k^*][\alpha_{1j},\dots,\alpha_{kj}]'=\pmb{x^*\alpha_j},\ j=1,\dots,kzj=x1∗α1j+⋯+xk∗αkj=[x1∗,…,xk∗][α1j,…,αkj]′=x∗αjx∗αjx∗αj, j=1,…,k
  {z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zk=x1∗α1k+x2∗α2k+⋯+xk∗αkk\left\{\begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_k=x_1^*\alpha_{1k}+x_2^*\alpha_{2k}+\dots+x_k^*\alpha_{kk} \end{aligned}\right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zk=x1∗α1k+x2∗α2k+⋯+xk∗αkk
利用特征值检验多重共线性

模型存在多重共线性时，至少有一个特征值接近于0
计算主成分贡献率及累计贡献率

λ\lambdaλ为特征值，一般累计贡献率达到85%-95%的特征值λ1,…,λm\lambda_1,\dots,\lambda_mλ1,…,λm分别对应第1,…,m1,\dots,m1,…,m个主成分。

贡献率：λi∑j=1kλj\frac{\lambda_i}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑kλjλi，i=1,2,…,ki=1,2,\dots,ki=1,2,…,k

累计贡献率：∑j=1iλj∑j=1kλj\frac{\displaystyle \sum_{j=1}^i\lambda_j}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑kλjj=1∑iλj，i=1,2,…,ki=1,2,\dots,ki=1,2,…,k
解释变量前mmm个主成分表示为
{z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zm=x1∗α1m+x2∗α2m+⋯+xk∗αkm\left\{ \begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_m=x_1^*\alpha_{1m}+x_2^*\alpha_{2m}+\dots+x_k^*\alpha_{km} \end{aligned} \right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zm=x1∗α1m+x2∗α2m+⋯+xk∗αkm
各个观测值的综合得分
SCORE=λ1∑j=1kλjz1+⋯+λm∑j=1kλjzmSCORE=\frac{\lambda_1}{\displaystyle\sum_{j=1}^k\lambda_j}z_1+\dots+\frac{\lambda_m}{\displaystyle\sum_{j=1}^k\lambda_j}z_m SCORE=j=1∑kλjλ1z1+⋯+j=1∑kλjλmzm

衡量财务风险

指标：ROE ROA ROS NI Gross_Return
*Gross_Return：毛利 *EBITDA：税息折旧及摊销前利润
被解释变量与上面mmm个主成分进行回归
y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y^*=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^* y∗=a^1z1+a^2z2+⋯+a^mzm+e∗
根据主成分与原解释变量的关系，将主成分关系带入上面的回归方程，得到yyy与xxx的回归方程。
y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y∗=a^1(x∗α1)+a^2(x∗α2)+⋯+a^m(x∗αm)+e∗=b^1x1∗+b^2x2∗+⋯+b^kxk∗+e∗⇒y∣∣y∣∣=b^1x1∣∣x1∣∣+⋯+b^kxk∣∣xk∣∣+e∗y=c^1x1+⋯+c^kxk+e\begin{aligned} y^*&=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^*\\ y^*&=\hat{a}_1(x^*\alpha_1)+\hat{a}_2(x^*\alpha_2)+\dots+\hat{a}_m(x^*\alpha_m)+e^*\\ &=\hat{b}_1x_1^*+\hat{b}_2x_2^*+\dots+\hat{b}_kx_k^*+e^*\\ &\Rightarrow\\ \frac{y}{||y||}&=\hat{b}_1\frac{x_1}{||x_1||}+\dots+\hat{b}_k\frac{x_k}{||x_k||}+e^*\\ y&=\hat{c}_1x_1+\dots+\hat{c}_kx_k+e \end{aligned} y∗y∗∣∣y∣∣yy=a^1z1+a^2z2+⋯+a^mzm+e∗=a^1(x∗α1)+a^2(x∗α2)+⋯+a^m(x∗αm)+e∗=b^1x1∗+b^2x2∗+⋯+b^kxk∗+e∗⇒=b^1∣∣x1∣∣x1+⋯+b^k∣∣xk∣∣xk+e∗=c^1x1+⋯+c^kxk+e