【中级计量经济学】Lecture 2 多重共线性
文章目录
- Lecture 2 多重共线性
- 2.1 多重共线性的含义
- 完全共线性
- 多重共线性
- 2.2 解释变量关系与相关指标
- 2.3 多重共线性产生的后果
- 正交的后果
- 完全共线性的后果
- 多重共线性产的后果
- 2.4 多重共线性的检验
- 简单相关系数检验法
- 直观判断法
- 辅助回归法
- 方差膨胀因子法
- 2.5 多重共线性补救方法
- 修正多重共线性的经验方法
- 逐步回归法√
- 岭回归法(选择有偏估计量)√
- 主成分回归法√
Lecture 2 多重共线性
2.1 多重共线性的含义
完全共线性
对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1,X2,…,Xk存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1,λ2,…,λk使得
λ1X1i+⋯+λkXki=0i=1,2,…,n\lambda_1X_{1i}+\dots+\lambda_kX_{ki}=0\\ i=1,2,\dots,n λ1X1i+⋯+λkXki=0i=1,2,…,n
表明解释变量之间存在完全共线性。
多重共线性
对于解释变量X1,X2,…,XkX_1,X_2,\dots,X_kX1,X2,…,Xk存在不全为0的数λ1,λ2,…,λk\lambda_1,\lambda_2,\dots,\lambda_kλ1,λ2,…,λk使得
λ1X1i+⋯+λkXki+μi=0i=1,2,…,nμi是随机变量\lambda_1X_{1i}+\dots+\lambda_kX_{ki}+\mu_i=0\\ i=1,2,\dots,n\\ \mu_i是随机变量 λ1X1i+⋯+λkXki+μi=0i=1,2,…,nμi是随机变量
表明解释变量之间是近似的线性关系。
2.2 解释变量关系与相关指标
指标1:
x′x=[∑x1i2∑x1ix2i∑x2ix1i∑x2i2]x'x=\left[ \begin{matrix} \sum x_{1i}^2&\sum x_{1i}x_{2i}\\\sum x_{2i}x_{1i}&\sum x_{2i}^2\end{matrix} \right] x′x=[∑x1i2∑x2ix1i∑x1ix2i∑x2i2]指标2:rank(x′x)rank(x'x)rank(x′x)
完全共线性,秩等于1;其他,秩等于2.
指标3:样本简单相关系数
r(X1,X2)=∑x1ix2i∑x1i2∑x2i2r(X_1,X_2)=\frac{\sum x_{1i} x_{2i}}{\sqrt{\sum x_{1i}^2}\sum x_{2i}^2} r(X1,X2)=∑x1i2∑x2i2∑x1ix2i
相关系数接近于1,多重共线性越强;相关系数接近于0,多重共线性弱。指标4:矩阵行列式
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ |x'x|&=\left| …
行列式接近于0,多重共线性越强;行列式接近于1,多重共线性越弱。指标5:逆矩阵
正交
完全共线性
强多重共线性
弱多重共线性
2.3 多重共线性产生的后果
β^=[β1^β2^]Cov(β^)=σ2(x′x)−1\hat{\pmb{\beta}}=\left[\begin{matrix}\hat{\beta_1} \\\hat{\beta_2} \end{matrix}\right]\\ Cov(\hat{\pmb{\beta}})=\sigma^2(x'x)^{-1} βββ^=[β1^β2^]Cov(βββ^)=σ2(x′x)−1
正交的后果
完全共线性的后果
- 参数的估计值不唯一
- 参数估计值的方差无穷大
多重共线性产的后果
参数的估计值可计算,但不稳定。当相关系数越接近于1,参数的估计式逐渐称为不定式,估计值越来越不稳定。
参数估计的方差增大(相关性越高,参数估计量的方差越大)(以下为离差形式)
Var(β1^)=∑x2i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x1i2)(1−r122)Var(β2^)=∑x1i2(∑x1i2)(∑x2i2)−(∑x1ix2i2)⋅σ2=σ2(∑x2i2)(1−r122)Var({\hat{\beta_1}})=\frac{\sum x_{2i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{1i}^2)(1-r_{12}^2)}\\ Var({\hat{\beta_2}})=\frac{\sum x_{1i}^2}{(\sum x_{1i}^2)(\sum x_{2i}^2)-(\sum x_{1i}x_{2i}^2)}\sdot\sigma^2=\frac{\sigma^2}{(\sum x_{2i}^2)(1-r_{12}^2)} Var(β1^)=(∑x1i2)(∑x2i2)−(∑x1ix2i2)∑x2i2⋅σ2=(∑x1i2)(1−r122)σ2Var(β2^)=(∑x1i2)(∑x2i2)−(∑x1ix2i2)∑x1i2⋅σ2=(∑x2i2)(1−r122)σ2方差膨胀因子VIF=11−r122VIF=\frac{1}{1-r_{12}^2}VIF=1−r1221,r12r_{12}r12为解释变量的相关系数。
对参数区间估计时,置信区间趋于变大
βj=(βj^−tα/2(n−k−1)σ^cjj,βj^+tα/2(n−k−1)σ^cjj)\beta_j=(\hat{\beta_j}-t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}},\hat{\beta_j}+t_{\alpha/2}(n-k-1)\hat{\sigma}\sqrt{c_{jj}}) βj=(βj^−tα/2(n−k−1)σ^cjj,βj^+tα/2(n−k−1)σ^cjj)假设检验容易做出错误的判断(受到多重共线性影响的系数的ttt统计量变小,不容易通过显著性检验)
可能造成R2R^2R2较高,但对各个参数单独的ttt检验可能不显著,甚至可能使估计的回归系数符号相反,得出错误的结论。
2.4 多重共线性的检验
简单相关系数检验法
一般而言,如果每两个解释变量的简单相关系数大于0.5,则可认为存在着较严重的多重共线性。但有时较低的简单相关系数也可能存在多重共线性。
直观判断法
当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化(回归系数的不稳定性);
虽然FFF值和R2R^2R2较大,但一些重要的解释变量的回归系数标准误较大,ttt检验值较小,没有通过显著性检验;
有些解释变量的回归系数所带正负号与定性分析结果违背
则回归方程可能存在严重的多重共线性。
辅助回归法
对某个XjX_jXj,用模型中的其他解释变量对其作回归,得到回归方程的拟合优度Rj2R_j^2Rj2称为该变量的判定系数。若存在部分jjj有Rj2>R2R_j^2>R^2Rj2>R2,则可以怀疑存在多重共线性;若对所有jjj都有Rj2>R2R^2_j>R^2Rj2>R2,则表明存在明显的多重共线性。(显然,Rj2R^2_jRj2越大,XjX_jXj越能被其他变量所解释,故更容易存在多重共线性。)
对判定系数作FFF检验,有
Fj=Rj2/(k−1)(1−Rj2)/(n−(k−1)−1)=Rj2/(k−1)(1−Rj2)/(n−k)∼F(k−1,n−k).F_j=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-(k-1)-1)}=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-k)}\sim F(k-1,n-k).\\ Fj=(1−Rj2)/(n−(k−1)−1)Rj2/(k−1)=(1−Rj2)/(n−k)Rj2/(k−1)∼F(k−1,n−k).
模型左边是其中1个解释变量,模型右边是k-1个剩余的解释变量
若FjF_jFj通过显著性检验,则可以认为存在明显的多重共线性。
方差膨胀因子法
方差膨胀因子越大,则表明解释变量之间存在越严重 的多重共线性(VIF>5VIF>5VIF>5可以说明存在严重的多重共线性);越接近于1,多重共线性越弱。
一说:VIF>10VIF>10VIF>10且辅助回归Rj2>0.9R_j^2>0.9Rj2>0.9一般认为多重共线性比价严重
VIF(β^j)≈11−Rj2VIF(\hat{\beta}_j)\approx\frac{1}{1-R^2_j} VIF(β^j)≈1−Rj21
2.5 多重共线性补救方法
修正多重共线性的经验方法
剔除变量法
增大样本容量
变换模型形式
一般而言,差分之后变量之间的相关型要比差分前弱得多,差分之后的模型可能降低
利用非样本先验信息
变量变换
计算相对指标/将名义数据转换为实际数据/将小类指标合并成大类指标
逐步回归法√
用YYY对每一个XjX_jXj,j=1,2,…,kj=1,2,\dots,kj=1,2,…,k做简单回归:
Yi=β0+β1Xji+μiY_i=\beta_0+\beta_1X_{ji}+\mu_i Yi=β0+β1Xji+μi
以回归系数最大(对被解释变量贡献最大)的解释变量对应的回归方程为基础,按对被解释变量贡献大小的顺序,诸葛引入其余变量。
如果新变量的引入改建了R2R^2R2和FFF值,且回归系数的ttt检验显著,则保留该变量。如果没有改进R2R^2R2和FFF值,且显著影响了其他回归参数的估计值(数值或符号),同时分身的回归系数也无法通过ttt检验,则说明出现了严重的多重线性。
岭回归法(选择有偏估计量)√
用X′X+rDX'X+rDX′X+rD代替X′XX'XX′X,rrr为岭回归系数,
KaTeX parse error: No such environment: align at position 17: …D=\left[ \begin{̲a̲l̲i̲g̲n̲}̲ d_0^2&\\ &d_1^…
d0=∑Yi2d_0=\sum Y_i^2d0=∑Yi2,dj=∑Xjid_j=\sum X_{ji}dj=∑Xji,j=1,…,kj=1,\dots,kj=1,…,k.
岭回归的参数估计式为
β~(r)=(X′X+rD)−1X′Y\tilde{\beta}(r)=(X'X+rD)^{-1}X'Y β~(r)=(X′X+rD)−1X′Y
主成分回归法√
主成分定义
x=[x1,…,xk],z=[z1,…,zk]\pmb{x}=[x_1,\dots,x_k],\pmb{z}=[z_1,\dots,z_k]xxx=[x1,…,xk],zzz=[z1,…,zk]称为主成分,需满足如下条件:
- zjz_jzj为x1,…,xkx_1,\dots,x_kx1,…,xk的线性组合,即zj=x1α1j+⋯+xkαkj=xαjz_j=x_1\alpha_{1j}+\dots+x_k\alpha_{kj}=\pmb{x\alpha_j}zj=x1α1j+⋯+xkαkj=xαjxαjxαj,其中αj=(α1j,…,αkj)\pmb{\alpha_j}=(\alpha_{1j},\dots,\alpha_{kj})αjαjαj=(α1j,…,αkj),j=1,…,kj=1,\dots,kj=1,…,k
- z1,…,zkz_1,\dots,z_kz1,…,zk两两正交
- 总变差不变,即∑j=1k=zj′zj=∑j=1k=xj′xj\displaystyle\sum_{j=1}^k=z'_jz_j=\displaystyle\sum_{j=1}^k=x'_jx_jj=1∑k=zj′zj=j=1∑k=xj′xj
- z1′z1≥⋯≥zk′zkz_1'z_1\geq\dots\geq z_k'z_kz1′z1≥⋯≥zk′zk
求主成分步骤
计算解释变量的相关系数矩阵
R=x∗′x∗R=\pmb{{x^{*}}'x^*} R=x∗′x∗x∗′x∗x∗′x∗计算RRR的kkk个特征值
λmax=λ1≥λ2≥⋯≥λk=λmin>0\lambda_{max}=\lambda_1\geq\lambda_2\geq\dots\geq\lambda_k=\lambda_{min}>0 λmax=λ1≥λ2≥⋯≥λk=λmin>0
以及相应的标准化正交特征向量α1,α2,…,αk\pmb{\alpha_1},\pmb{\alpha_2},\dots,\pmb{\alpha_k}α1α1α1,α2α2α2,…,αkαkαkzj=x1∗α1j+⋯+xk∗αkj=[x1∗,…,xk∗][α1j,…,αkj]′=x∗αj,j=1,…,kz_j=x_1^*\alpha_{1j}+\dots+x_k^*\alpha_{kj}=[x_1^*,\dots,x_k^*][\alpha_{1j},\dots,\alpha_{kj}]'=\pmb{x^*\alpha_j},\ j=1,\dots,kzj=x1∗α1j+⋯+xk∗αkj=[x1∗,…,xk∗][α1j,…,αkj]′=x∗αjx∗αjx∗αj, j=1,…,k
{z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zk=x1∗α1k+x2∗α2k+⋯+xk∗αkk\left\{\begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_k=x_1^*\alpha_{1k}+x_2^*\alpha_{2k}+\dots+x_k^*\alpha_{kk} \end{aligned}\right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zk=x1∗α1k+x2∗α2k+⋯+xk∗αkk
利用特征值检验多重共线性
模型存在多重共线性时,至少有一个特征值接近于0
计算主成分贡献率及累计贡献率
λ\lambdaλ为特征值,一般累计贡献率达到85%-95%的特征值λ1,…,λm\lambda_1,\dots,\lambda_mλ1,…,λm分别对应第1,…,m1,\dots,m1,…,m个主成分。
贡献率:λi∑j=1kλj\frac{\lambda_i}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑kλjλi,i=1,2,…,ki=1,2,\dots,ki=1,2,…,k
累计贡献率:∑j=1iλj∑j=1kλj\frac{\displaystyle \sum_{j=1}^i\lambda_j}{\displaystyle \sum_{j=1}^k\lambda_j}j=1∑kλjj=1∑iλj,i=1,2,…,ki=1,2,\dots,ki=1,2,…,k
解释变量前mmm个主成分表示为
{z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zm=x1∗α1m+x2∗α2m+⋯+xk∗αkm\left\{ \begin{aligned} &z_1=x_1^*\alpha_{11}+x_2^*\alpha_{21}+\dots+x_k^*\alpha_{k1}\\ &z_2=x_1^*\alpha_{12}+x_2^*\alpha_{22}+\dots+x_k^*\alpha_{k2}\\ &\vdots\\ &z_m=x_1^*\alpha_{1m}+x_2^*\alpha_{2m}+\dots+x_k^*\alpha_{km} \end{aligned} \right. ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧z1=x1∗α11+x2∗α21+⋯+xk∗αk1z2=x1∗α12+x2∗α22+⋯+xk∗αk2⋮zm=x1∗α1m+x2∗α2m+⋯+xk∗αkm各个观测值的综合得分
SCORE=λ1∑j=1kλjz1+⋯+λm∑j=1kλjzmSCORE=\frac{\lambda_1}{\displaystyle\sum_{j=1}^k\lambda_j}z_1+\dots+\frac{\lambda_m}{\displaystyle\sum_{j=1}^k\lambda_j}z_m SCORE=j=1∑kλjλ1z1+⋯+j=1∑kλjλmzm衡量财务风险
指标:ROE ROA ROS NI Gross_Return
*Gross_Return:毛利 *EBITDA:税息折旧及摊销前利润被解释变量与上面mmm个主成分进行回归
y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y^*=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^* y∗=a^1z1+a^2z2+⋯+a^mzm+e∗根据主成分与原解释变量的关系,将主成分关系带入上面的回归方程,得到yyy与xxx的回归方程。
y∗=a^1z1+a^2z2+⋯+a^mzm+e∗y∗=a^1(x∗α1)+a^2(x∗α2)+⋯+a^m(x∗αm)+e∗=b^1x1∗+b^2x2∗+⋯+b^kxk∗+e∗⇒y∣∣y∣∣=b^1x1∣∣x1∣∣+⋯+b^kxk∣∣xk∣∣+e∗y=c^1x1+⋯+c^kxk+e\begin{aligned} y^*&=\hat{a}_1z_1+\hat{a}_2z_2+\dots+\hat{a}_mz_m+e^*\\ y^*&=\hat{a}_1(x^*\alpha_1)+\hat{a}_2(x^*\alpha_2)+\dots+\hat{a}_m(x^*\alpha_m)+e^*\\ &=\hat{b}_1x_1^*+\hat{b}_2x_2^*+\dots+\hat{b}_kx_k^*+e^*\\ &\Rightarrow\\ \frac{y}{||y||}&=\hat{b}_1\frac{x_1}{||x_1||}+\dots+\hat{b}_k\frac{x_k}{||x_k||}+e^*\\ y&=\hat{c}_1x_1+\dots+\hat{c}_kx_k+e \end{aligned} y∗y∗∣∣y∣∣yy=a^1z1+a^2z2+⋯+a^mzm+e∗=a^1(x∗α1)+a^2(x∗α2)+⋯+a^m(x∗αm)+e∗=b^1x1∗+b^2x2∗+⋯+b^kxk∗+e∗⇒=b^1∣∣x1∣∣x1+⋯+b^k∣∣xk∣∣xk+e∗=c^1x1+⋯+c^kxk+e
【中级计量经济学】Lecture 2 多重共线性相关推荐
- 【中级计量经济学】Lecture 10 内生性和工具变量法
文章目录 Lecture 10 内生性和工具变量法 10.1 内生性问题 内生性的产生原因 内生性的后果 10.2 内生性问题的处理 寻找代理变量(IQ) 工具变量法(IV)估计 工具变量的选取 工具 ...
- 【中级计量经济学】Lecture 5 自相关
文章目录 Lecture 5 自相关 5.1 自相关定义 5.2 自相关的产生原因 5.3 自相关的后果 5.4 自相关的检验 图示检验法√ 回归检验法 杜宾-瓦森(DW)检验法√ Ljung-Box ...
- 【中级计量经济学】Lecture 3 非球形扰动
文章目录 Lecture 3 非球形扰动 3.1 非球形扰动的含义 广义回归模型 非球形扰动的两个特例 3.2 普通最小二乘估计的特性 估计参数的统计特性 3.3 广义最小二乘估计(当Ω\OmegaΩ ...
- 【中级计量经济学】Lecture 6 异方差
文章目录 Lecture 6 异方差 6.1 异方差的实质 6.2 异方差类型 6.3 异方差产生原因 6.4 异方差的后果 6.5 异方差的检验 图示检验法 White检验 B-P检验 Glejse ...
- 【清风数学建模笔记】第七讲 多元回归分析
回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预 ...
- 论文笔记|固定效应的解释和使用
DeHaan E. Using and interpreting fixed effects models[J]. Available at SSRN 3699777, 2021. 虽然固定效应在金融 ...
- 多元分析(Multivariate Analysis)
多元分析 简介 多元回归分析 一元线性回归 聚类分析 K-means聚类算法 K-means++算法 系统(层次聚类) 典型相关分析 主成分分析 简介 多元分析(Multivariate Analys ...
- 金融数学全套课程 转
统计教材和金融数学的基础课程 金融数学基础书籍系列介绍 金融数学(Financial Mathematics),又称数理金融学.数学金融学.分析金融学,是利用数 学工具研究金融,进行数学建模.理论分析 ...
- 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究
多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...
最新文章
- RDKit | 基于分子指纹的分子相似性
- 便携式不锈钢管道焊接机器人_不锈钢管道焊接工艺
- java 银行项目对于金额的面试题_2019年面试题小结
- 一条SQL语句执行得很慢的原因有哪些?
- pymysql安装_第八章 nova组件安装2
- JavaScript基础---匿名函数
- matlab 开采沉陷 何,MATLAB在开采沉陷预计可视化中的应用
- 李开复写给大学生的第四封信的一些笔录
- 微信支付之获取code
- ZABBIX 4.0 安装过程记录
- 微信公众平台开发(十二) 发送客服消息
- 服务器 raid配置
- 苹果手机最近删除的照片删除了怎么恢复?
- DNS解析过程及工作原理
- Qt嵌入式开发的基本认识
- 景深与图像清晰的关系
- xpwifi热点设置android,windowsXP设置wifi热点教程
- python的str()字符串类型的方法详解
- R语言对COVID19分析作业
- 个人小程序生成链接跳转