文章目录

  • Lecture 2 多重共线性
    • 2.1 多重共线性的含义
      • 完全共线性
      • 多重共线性
    • 2.2 解释变量关系与相关指标
    • 2.3 多重共线性产生的后果
      • 正交的后果
      • 完全共线性的后果
      • 多重共线性产的后果
    • 2.4 多重共线性的检验
      • 简单相关系数检验法
      • 直观判断法
      • 辅助回归法
      • 方差膨胀因子法
    • 2.5 多重共线性补救方法
      • 修正多重共线性的经验方法
      • 逐步回归法√
      • 岭回归法(选择有偏估计量)√
      • 主成分回归法√

Lecture 2 多重共线性

2.1 多重共线性的含义

完全共线性

对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1​,X2​,…,Xk​存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1​,λ2​,…,λk​使得
λ1X1i+⋯+λkXki=0i=1,2,…,n\lambda_1X_{1i}+\dots+\lambda_kX_{ki}=0\\ i=1,2,\dots,n λ1​X1i​+⋯+λk​Xki​=0i=1,2,…,n
表明解释变量之间存在完全共线性。

多重共线性

对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1​,X2​,…,Xk​存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1​,λ2​,…,λk​使得
λ1X1i+⋯+λkXki+μi=0i=1,2,…,nμi是随机变量\lambda_1X_{1i}+\dots+\lambda_kX_{ki}+\mu_i=0\\ i=1,2,\dots,n\\ \mu_i是随机变量 λ1​X1i​+⋯+λk​Xki​+μi​=0i=1,2,…,nμi​是随机变量
表明解释变量之间是近似的线性关系。

2.2 解释变量关系与相关指标

  • 指标1:
    x′x=[∑x1i2∑x1ix2i∑x2ix1i∑x2i2]x'x=\left[ \begin{matrix} \sum x_{1i}^2&\sum x_{1i}x_{2i}\\\sum x_{2i}x_{1i}&\sum x_{2i}^2\end{matrix} \right] x′x=[∑x1i2​∑x2i​x1i​​∑x1i​x2i​∑x2i2​​]

  • 指标2:rank(x′x)rank(x'x)rank(x′x)

    完全共线性,秩等于1;其他,秩等于2.

  • 指标3:样本简单相关系数
    r(X1,X2)=∑x1ix2i∑x1i2∑x2i2r(X_1,X_2)=\frac{\sum x_{1i} x_{2i}}{\sqrt{\sum x_{1i}^2}\sum x_{2i}^2} r(X1​,X2​)=∑x1i2​​∑x2i2​∑x1i​x2i​​
    相关系数接近于1,多重共线性越强;相关系数接近于0,多重共线性弱。

  • 指标4:矩阵行列式
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ |x'x|&=\left| …
    行列式接近于0,多重共线性越强;行列式接近于1,多重共线性越弱。

  • 指标5:逆矩阵

正交

完全共线性

强多重共线性

弱多重共线性

2.3 多重共线性产生的后果

β^=[β1^β2^]Cov(β^)=σ2(x′x)−1\hat{\pmb{\beta}}=\left[\begin{matrix}\hat{\beta_1} \\\hat{\beta_2} \end{matrix}\right]\\ Cov(\hat{\pmb{\beta}})=\sigma^2(x'x)^{-1} β​β​​β^​=[β1​^​β2​^​​]Cov(β​β​​β^​)=σ2(x′x)−1

正交的后果

完全共线性的后果

  1. 参数的估计值不唯一
  2. 参数估计值的方差无穷大

多重共线性产的后果

  1. 参数的估计值可计算,但不稳定。当相关系数越接近于1,参数的估计式逐渐称为不定式,估计值越来越不稳定。

  2. 参数估计的方差增大(相关性越高,参数估计量的方差越大)(以下为离差形式)
    Var(β1^)=∑x2i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x1i2)(1−r122)Var(β2^)=∑x1i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x2i2)(1−r122)Var({\hat{\beta_1}})=\frac{\sum x_{2i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{1i}^2)(1-r_{12}^2)}\\ Var({\hat{\beta_2}})=\frac{\sum x_{1i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{2i}^2)(1-r_{12}^2)} Var(β1​^​)=(∑x1i2​)(∑x2i2​)−(∑x1i​x2i2​)∑x2i2​​⋅σ2=(∑x1i2​)(1−r122​)σ2​Var(β2​^​)=(∑x1i2​)(∑x2i2​)−(∑x1i​x2i2​)∑x1i2​​⋅σ2=(∑x2i2​)(1−r122​)σ2​

    方差膨胀因子VIF=11−r122VIF=\frac{1}{1-r_{12}^2}VIF=1−r122​1​,r12r_{12}r12​为解释变量的相关系数。

  3. 对参数区间估计时,置信区间趋于变大
    βj=(βj^−tα/2(n−k−1)σ^cjj,βj^+tα/2(n−k−1)σ^cjj)\beta_j=(\hat{\beta_j}-t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}},\hat{\beta_j}+t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}}) βj​=(βj​^​−tα/2​(n−k−1)σ^cjj​​,βj​^​+tα/2​(n−k−1)σ^cjj​​)

  4. 假设检验容易做出错误的判断(受到多重共线性影响的系数的ttt统计量变小,不容易通过显著性检验)

  5. 可能造成R2R^2R2较高,但对各个参数单独的ttt检验可能不显著,甚至可能使估计的回归系数符号相反,得出错误的结论。

2.4 多重共线性的检验

简单相关系数检验法

一般而言,如果每两个解释变量的简单相关系数大于0.5,则可认为存在着较严重的多重共线性。但有时较低的简单相关系数也可能存在多重共线性。

直观判断法

  • 当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化(回归系数的不稳定性);

  • 虽然FFF值和R2R^2R2较大,但一些重要的解释变量的回归系数标准误较大,ttt检验值较小,没有通过显著性检验;

  • 有些解释变量的回归系数所带正负号与定性分析结果违背

    则回归方程可能存在严重的多重共线性。

辅助回归法

  • 对某个XjX_jXj​,用模型中的其他解释变量对其作回归,得到回归方程的拟合优度Rj2R_j^2Rj2​称为该变量的判定系数。若存在部分jjj有Rj2>R2R_j^2>R^2Rj2​>R2,则可以怀疑存在多重共线性;若对所有jjj都有Rj2>R2R^2_j>R^2Rj2​>R2,则表明存在明显的多重共线性。(显然,Rj2R^2_jRj2​越大,XjX_jXj​越能被其他变量所解释,故更容易存在多重共线性。)

  • 对判定系数作FFF检验,有

Fj=Rj2/(k−1)(1−Rj2)/(n−(k−1)−1)=Rj2/(k−1)(1−Rj2)/(n−k)∼F(k−1,n−k).F_j=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-(k-1)-1)}=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-k)}\sim F(k-1,n-k).\\ Fj​=(1−Rj2​)/(n−(k−1)−1)Rj2​/(k−1)​=(1−Rj2​)/(n−k)Rj2​/(k−1)​∼F(k−1,n−k).

模型左边是其中1个解释变量,模型右边是k-1个剩余的解释变量

​ 若FjF_jFj​通过显著性检验,则可以认为存在明显的多重共线性。

方差膨胀因子法

方差膨胀因子越大,则表明解释变量之间存在越严重 的多重共线性(VIF>5VIF>5VIF>5可以说明存在严重的多重共线性);越接近于1,多重共线性越弱。

一说:VIF>10VIF>10VIF>10且辅助回归Rj2>0.9R_j^2>0.9Rj2​>0.9一般认为多重共线性比价严重

VIF(β^j)≈11−Rj2VIF(\hat{\beta}_j)\approx\frac{1}{1-R^2_j} VIF(β^​j​)≈1−Rj2​1​

2.5 多重共线性补救方法

修正多重共线性的经验方法

  • 剔除变量法

  • 增大样本容量

  • 变换模型形式

    一般而言,差分之后变量之间的相关型要比差分前弱得多,差分之后的模型可能降低

  • 利用非样本先验信息

  • 变量变换

    计算相对指标/将名义数据转换为实际数据/将小类指标合并成大类指标

逐步回归法√

用YYY对每一个XjX_jXj​,j=1,2,…,kj=1,2,\dots,kj=1,2,…,k做简单回归:
Yi=β0+β1Xji+μiY_i=\beta_0+\beta_1X_{ji}+\mu_i Yi​=β0​+β1​Xji​+μi​
以回归系数最大(对被解释变量贡献最大)的解释变量对应的回归方程为基础,按对被解释变量贡献大小的顺序,诸葛引入其余变量。

如果新变量的引入改建了R2R^2R2和FFF值,且回归系数的ttt检验显著,则保留该变量。如果没有改进R2R^2R2和FFF值,且显著影响了其他回归参数的估计值(数值或符号),同时分身的回归系数也无法通过ttt检验,则说明出现了严重的多重线性。

岭回归法(选择有偏估计量)√

用X′X+rDX'X+rDX′X+rD代替X′XX'XX′X,rrr为岭回归系数,
KaTeX parse error: No such environment: align at position 17: …D=\left[ \begin{̲a̲l̲i̲g̲n̲}̲ d_0^2&\\ &d_1^…
d0=∑Yi2d_0=\sum Y_i^2d0​=∑Yi2​,dj=∑Xjid_j=\sum X_{ji}dj​=∑Xji​,j=1,…,kj=1,\dots,kj=1,…,k.

岭回归的参数估计式为
β~(r)=(X′X+rD)−1X′Y\tilde{\beta}(r)=(X'X+rD)^{-1}X'Y β~​(r)=(X′X+rD)−1X′Y

主成分回归法√

  • 主成分定义

    x=[x1,…,xk],z=[z1,…,zk]\pmb{x}=[x_1,\dots,x_k],\pmb{z}=[z_1,\dots,z_k]xxx=[x1​,…,xk​],zzz=[z1​,…,zk​]称为主成分,需满足如下条件:

    1. zjz_jzj​为x1,…,xkx_1,\dots,x_kx1​,…,xk​的线性组合,即zj=x1α1j+⋯+xkαkj=xαjz_j=x_1\alpha_{1j}+\dots+x_k\alpha_{kj}=\pmb{x\alpha_j}zj​=x1​α1j​+⋯+xk​αkj​=xαj​​xαj​​​xαj​,其中αj=(α1j,…,αkj)\pmb{\alpha_j}=(\alpha_{1j},\dots,\alpha_{kj})αj​​αj​​​αj​=(α1j​,…,αkj​),j=1,…,kj=1,\dots,kj=1,…,k
    2. z1,…,zkz_1,\dots,z_kz1​,…,zk​两两正交
    3. 总变差不变,即∑j=1k=zj′zj=∑j=1k=xj′xj\displaystyle\sum_{j=1}^k=z'_jz_j=\displaystyle\sum_{j=1}^k=x'_jx_jj=1∑k​=zj′​zj​=j=1∑k​=xj′​xj​
    4. z1′z1≥⋯≥zk′zkz_1'z_1\geq\dots\geq z_k'z_kz1′​z1​≥⋯≥zk′​zk​
  • 求主成分步骤

    1. 计算解释变量的相关系数矩阵
      R=x∗′x∗R=\pmb{{x^{*}}'x^*} R=x∗′x∗x∗′x∗x∗′x∗

    2. 计算RRR的kkk个特征值
      λmax=λ1≥λ2≥⋯≥λk=λmin>0\lambda_{max}=\lambda_1\geq\lambda_2\geq\dots\geq\lambda_k=\lambda_{min}>0 λmax​=λ1​≥λ2​≥⋯≥λk​=λmin​>0
      以及相应的标准化正交特征向量α1,α2,…,αk\pmb{\alpha_1},\pmb{\alpha_2},\dots,\pmb{\alpha_k}α1​​α1​​​α1​,α2​​α2​​​α2​,…,αk​​αk​​​αk​

      zj=x1∗α1j+⋯+xk∗αkj=[x1∗,…,xk∗][α1j,…,αkj]′=x∗αj,j=1,…,kz_j=x_1^*\alpha_{1j}+\dots+x_k^*\alpha_{kj}=[x_1^*,\dots,x_k^*][\alpha_{1j},\dots,\alpha_{kj}]'=\pmb{x^*\alpha_j},\ j=1,\dots,kzj​=x1∗​α1j​+⋯+xk∗​αkj​=[x1∗​,…,xk∗​][α1j​,…,αkj​]′=x∗αj​​x∗αj​​​x∗αj​, j=1,…,k
      {z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zk=x1∗α1k+x2∗α2k+⋯+xk∗αkk\left\{\begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_k=x_1^*\alpha_{1k}+x_2^*\alpha_{2k}+\dots+x_k^*\alpha_{kk} \end{aligned}\right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧​​z1​=x1∗​α11​+x2∗​α21​+⋯+xk∗​αk1​z2​=x1∗​α12​+x2∗​α22​+⋯+xk∗​αk2​⋮zk​=x1∗​α1k​+x2∗​α2k​+⋯+xk∗​αkk​​

  • 利用特征值检验多重共线性

    模型存在多重共线性时,至少有一个特征值接近于0

  • 计算主成分贡献率及累计贡献率

    λ\lambdaλ为特征值,一般累计贡献率达到85%-95%的特征值λ1,…,λm\lambda_1,\dots,\lambda_mλ1​,…,λm​分别对应第1,…,m1,\dots,m1,…,m个主成分。

    贡献率:λi∑j=1kλj\frac{\lambda_i}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑k​λj​λi​​,i=1,2,…,ki=1,2,\dots,ki=1,2,…,k

    累计贡献率:∑j=1iλj∑j=1kλj\frac{\displaystyle \sum_{j=1}^i\lambda_j}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑k​λj​j=1∑i​λj​​,i=1,2,…,ki=1,2,\dots,ki=1,2,…,k

  • 解释变量前mmm个主成分表示为
    {z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zm=x1∗α1m+x2∗α2m+⋯+xk∗αkm\left\{ \begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_m=x_1^*\alpha_{1m}+x_2^*\alpha_{2m}+\dots+x_k^*\alpha_{km} \end{aligned} \right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧​​z1​=x1∗​α11​+x2∗​α21​+⋯+xk∗​αk1​z2​=x1∗​α12​+x2∗​α22​+⋯+xk∗​αk2​⋮zm​=x1∗​α1m​+x2∗​α2m​+⋯+xk∗​αkm​​

  • 各个观测值的综合得分
    SCORE=λ1∑j=1kλjz1+⋯+λm∑j=1kλjzmSCORE=\frac{\lambda_1}{\displaystyle\sum_{j=1}^k\lambda_j}z_1+\dots+\frac{\lambda_m}{\displaystyle\sum_{j=1}^k\lambda_j}z_m SCORE=j=1∑k​λj​λ1​​z1​+⋯+j=1∑k​λj​λm​​zm​

    衡量财务风险

    指标:ROE ROA ROS NI Gross_Return
    *Gross_Return:毛利 *EBITDA:税息折旧及摊销前利润

  • 被解释变量与上面mmm个主成分进行回归
    y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y^*=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^* y∗=a^1​z1​+a^2​z2​+⋯+a^m​zm​+e∗

  • 根据主成分与原解释变量的关系,将主成分关系带入上面的回归方程,得到yyy与xxx的回归方程。
    y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y∗=a^1(x∗α1)+a^2(x∗α2)+⋯+a^m(x∗αm)+e∗=b^1x1∗+b^2x2∗+⋯+b^kxk∗+e∗⇒y∣∣y∣∣=b^1x1∣∣x1∣∣+⋯+b^kxk∣∣xk∣∣+e∗y=c^1x1+⋯+c^kxk+e\begin{aligned} y^*&=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^*\\ y^*&=\hat{a}_1(x^*\alpha_1)+\hat{a}_2(x^*\alpha_2)+\dots+\hat{a}_m(x^*\alpha_m)+e^*\\ &=\hat{b}_1x_1^*+\hat{b}_2x_2^*+\dots+\hat{b}_kx_k^*+e^*\\ &\Rightarrow\\ \frac{y}{||y||}&=\hat{b}_1\frac{x_1}{||x_1||}+\dots+\hat{b}_k\frac{x_k}{||x_k||}+e^*\\ y&=\hat{c}_1x_1+\dots+\hat{c}_kx_k+e \end{aligned} y∗y∗∣∣y∣∣y​y​=a^1​z1​+a^2​z2​+⋯+a^m​zm​+e∗=a^1​(x∗α1​)+a^2​(x∗α2​)+⋯+a^m​(x∗αm​)+e∗=b^1​x1∗​+b^2​x2∗​+⋯+b^k​xk∗​+e∗⇒=b^1​∣∣x1​∣∣x1​​+⋯+b^k​∣∣xk​∣∣xk​​+e∗=c^1​x1​+⋯+c^k​xk​+e​

【中级计量经济学】Lecture 2 多重共线性相关推荐

  1. 【中级计量经济学】Lecture 10 内生性和工具变量法

    文章目录 Lecture 10 内生性和工具变量法 10.1 内生性问题 内生性的产生原因 内生性的后果 10.2 内生性问题的处理 寻找代理变量(IQ) 工具变量法(IV)估计 工具变量的选取 工具 ...

  2. 【中级计量经济学】Lecture 5 自相关

    文章目录 Lecture 5 自相关 5.1 自相关定义 5.2 自相关的产生原因 5.3 自相关的后果 5.4 自相关的检验 图示检验法√ 回归检验法 杜宾-瓦森(DW)检验法√ Ljung-Box ...

  3. 【中级计量经济学】Lecture 3 非球形扰动

    文章目录 Lecture 3 非球形扰动 3.1 非球形扰动的含义 广义回归模型 非球形扰动的两个特例 3.2 普通最小二乘估计的特性 估计参数的统计特性 3.3 广义最小二乘估计(当Ω\OmegaΩ ...

  4. 【中级计量经济学】Lecture 6 异方差

    文章目录 Lecture 6 异方差 6.1 异方差的实质 6.2 异方差类型 6.3 异方差产生原因 6.4 异方差的后果 6.5 异方差的检验 图示检验法 White检验 B-P检验 Glejse ...

  5. 【清风数学建模笔记】第七讲 多元回归分析

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预 ...

  6. 论文笔记|固定效应的解释和使用

    DeHaan E. Using and interpreting fixed effects models[J]. Available at SSRN 3699777, 2021. 虽然固定效应在金融 ...

  7. 多元分析(Multivariate Analysis)

    多元分析 简介 多元回归分析 一元线性回归 聚类分析 K-means聚类算法 K-means++算法 系统(层次聚类) 典型相关分析 主成分分析 简介 多元分析(Multivariate Analys ...

  8. 金融数学全套课程 转

    统计教材和金融数学的基础课程 金融数学基础书籍系列介绍 金融数学(Financial Mathematics),又称数理金融学.数学金融学.分析金融学,是利用数 学工具研究金融,进行数学建模.理论分析 ...

  9. 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...

最新文章

  1. RDKit | 基于分子指纹的分子相似性
  2. 便携式不锈钢管道焊接机器人_不锈钢管道焊接工艺
  3. java 银行项目对于金额的面试题_2019年面试题小结
  4. 一条SQL语句执行得很慢的原因有哪些?
  5. pymysql安装_第八章 nova组件安装2
  6. JavaScript基础---匿名函数
  7. matlab 开采沉陷 何,MATLAB在开采沉陷预计可视化中的应用
  8. 李开复写给大学生的第四封信的一些笔录
  9. 微信支付之获取code
  10. ZABBIX 4.0 安装过程记录
  11. 微信公众平台开发(十二) 发送客服消息
  12. 服务器 raid配置
  13. 苹果手机最近删除的照片删除了怎么恢复?
  14. DNS解析过程及工作原理
  15. Qt嵌入式开发的基本认识
  16. 景深与图像清晰的关系
  17. xpwifi热点设置android,windowsXP设置wifi热点教程
  18. python的str()字符串类型的方法详解
  19. R语言对COVID19分析作业
  20. 个人小程序生成链接跳转

热门文章

  1. 一支口红用了5年_一支口红多久该扔掉?保质期过了还能用吗?
  2. python迭代是什么意思_python中的迭代是什么意思?
  3. Unity 2D 混合树小例子
  4. K8S学习之污点容忍
  5. 苹果慌了,iPhone11全系大降价抢市场
  6. 电脑删除文件 找不到该项目
  7. littlefs系列:Files
  8. Box2D 中文手册
  9. fastjsonfastjson 1.2.24 反序列化导致任意命令执行
  10. 3D游戏开源引擎分析