【中级计量经济学】Lecture 9 面板数据模型

文章目录

Lecture 9 面板数据模型
- 9.1 经济数据结构的分类
- 9.2 三大面板数据模型
- - 固定效应模型（The Fixed Effect Model）
  - - 假设
    - 固定效应模型估计方法
    - - 一阶差分法估计（FD）
      - 固定效应组内变换法（FE）
      - 最小二乘虚拟变量法（LSDV）
      - 三种方法比较
  - 随机效应模型（The Random Effect Model）
  - - 假设
    - 随机效应模型估计方法
    - - 广义最小二乘估计法（GLS）
  - 混合回归模型（Pooled Regression Model）
  - - 假设
- 9.3 模型的选择
- - 固定效应模型(FE)or混合回归模型(PLS)——F检验（个体效应的显著性检验）
  - 随机效应模型(RE)or固定效应模型(FE)——Hausman检验（个体效应是否与解释变量相关的检验）
  - 混合回归模型(PLS)or随机效应模型(RE)——LM个体效应检验
  - 双重差分（DID）模型
  - - 模型形式一（不含固定效应）
    - 模型形式二（含固定效应）

Lecture 9 面板数据模型

9.1 经济数据结构的分类

截面数据（Cross-sectional data）

时间序列数据（Time-series data）

混合截面数据（Pooled cross sections）

不同时期的组间样本个体不同

面板数据（Panel data）

不同时期的组间样本个体相同（对相同样本个体跟踪调查）
面板数据优点：
1. 可以解决样本容量不足的问题，改进模型估计的有效性；
2. 有助于更好地分析经济变量之间的关系；
3. 可以估计某些难以度量的因素对解释变量的影响。

9.2 三大面板数据模型

One-way（单向效应）：只考虑个体效应（individual effect），不考虑时间效应（time effect）。
yit=β0+β1x1it+β2x2it+⋯+βkxkit+ϵitϵit=λi+uity_{it}=\beta_0+\beta_1x_{1it}+\beta_2x_{2it}+\dots+\beta_kx_{kit}+\epsilon_{it}\\ \epsilon_{it}=\lambda_i+u_{it} yit=β0+β1x1it+β2x2it+⋯+βkxkit+ϵitϵit=λi+uit
λi\lambda_iλi是不可观测的个体效应。

固定效应模型和随机效应模型都是非观测效应模型（unobserved effects model）。

固定效应模型（The Fixed Effect Model）

假设

λi\lambda_iλi对个体iii来说是常数，不随时间变化，但随不同的个体变化
λi\lambda_iλi与某个解释变量有关，即允许Cov(λi,xkit)≠0Cov(\lambda_i,x_{kit})\neq0Cov(λi,xkit)=0

结果：每一个横截面的不同个体具有固定的不同的截距项（因为λ\lambdaλ与解释变量相关，每个个体的解释变量观察值不同，所以不同个体的λ\lambdaλ不同）

固定效应模型估计方法

一阶差分法估计（FD）

固定效应组内变换法（FE）

yit=β0+β1x1it+β2x2it+⋯+βkxkit+λi+uity_{it}=\beta_0+\beta_1x_{1it}+\beta_2x_{2it}+\dots+\beta_kx_{kit}+\lambda_i+u_{it} yit=β0+β1x1it+β2x2it+⋯+βkxkit+λi+uit

给定一个个体iii，将上式两边对时间取平均：
y‾it=β0+β1x‾1i+β2x‾2i+⋯+βkx‾ki+λi+u‾i\overline y_{it}=\beta_0+\beta_1\overline x_{1i}+\beta_2\overline x_{2i}+\dots+\beta_k\overline x_{ki}+\lambda_i+\overline u_i yit=β0+β1x1i+β2x2i+⋯+βkxki+λi+ui
两式相减：
yit−y‾it=β1(x1it−x‾1i)+β2(x2it−x‾2i)+⋯+βk(xkit−x‾ki)+(uit−u‾i)y~it=β1x~1it+β2x~2it+⋯+βkx~kit+u~ity_{it}-\overline y_{it}=\beta_1(x_{1it}-\overline x_{1i})+\beta_2(x_{2it}-\overline x_{2i})+\dots+\beta_k(x_{kit}-\overline x_{ki})+(u_{it}-\overline u_i)\\ \tilde y_{it}=\beta_1\tilde x_{1it}+\beta_2\tilde x_{2it}+\dots+\beta_k\tilde x_{kit}+\tilde u_{it} yit−yit=β1(x1it−x1i)+β2(x2it−x2i)+⋯+βk(xkit−xki)+(uit−ui)y~it=β1x~1it+β2x~2it+⋯+βkx~kit+u~it
用OLS估计β\betaβ，称为固定效应估计量（Fixed Effects Estimator），记为β^FE\hat \beta_{FE}β^FE。

β^FE\hat \beta_{FE}β^FE主要使用了每个个体的组内离差信息，故也称为组内估计量（within estimator）

优势：即使个体效应与解释变量相关，也可得一致估计。
劣势：无法估计不随时间而变的变量之影响（如教育、性别、少数民族），即time invariant的变量没有得到估计

因为time invariant的变量，取时间平均前后的值相同，在第二步相减的过程中消去，所以这个变量没有得到估计。

最小二乘虚拟变量法（LSDV）

将不可观测的个体效应λi\lambda_iλi看做待估计的参数，β0+λi\beta_0+\lambda_iβ0+λi就是个体iii的截距。估计nnn个截距的方法就是引入n−1n−1n−1个虚拟变量（如果省略常数项β0\beta_0β0，则引入n个虚拟变量）。
yit=λ1D1+⋯+λn−1Dn−1+β0+β1x1it+⋯+βkitxkit+uity_{it}=\lambda_1D_1+\dots+\lambda_{n-1}D_{n-1}+\beta_0+\beta_1x_{1it}+\dots+\beta_{kit}x_{kit}+u_{it} yit=λ1D1+⋯+λn−1Dn−1+β0+β1x1it+⋯+βkitxkit+uit
对于个体iii，Di=1D_i=1Di=1，否则取0。

再进行OLS估计

优势：可以估计每个个体的异质性；可以估计不随时间变化变量的影响，可以得到组间估计量（between estimator）
劣势：对LSDV直接估计，由于LSDV中估计的变量太多，导致自由度下降很多（对拟合优度也可能产生影响），系数估计值会有细微差别。
对LSDV估计后发现某些个体的虚拟变量不显著而将其删去，那么LSDV的结果也不会与FE相同。

三种方法比较

随机效应模型（The Random Effect Model）

假设

λi\lambda_iλi对个体iii来说是随机变量，不随时间变化。
λi\lambda_iλi与所有解释变量都不相关，即对所有kkk，Cov(λi,xkit)=0Cov(\lambda_i,x_{kit})=0Cov(λi,xkit)=0

结果：每个截面的每个个体的截距项都是一个随机变量

随机效应模型估计方法

广义最小二乘估计法（GLS）

（复杂，不太会考，略）

混合回归模型（Pooled Regression Model）

假设

对所有个体来说，λi=0\lambda_i=0λi=0，即不存在个体效应

结果：设所有的横截面个体在不同时期的截距和斜率都是相同的

9.3 模型的选择

固定效应模型(FE)or混合回归模型(PLS)——F检验（个体效应的显著性检验）

H0:λ1=λ2=⋯=λn−1=0H_0:\lambda_1=\lambda_2=\dots=\lambda_{n-1}=0H0:λ1=λ2=⋯=λn−1=0，即λi=0(i=1,2…,n−1)\lambda_i=0(i=1,2\dots,n-1)λi=0(i=1,2…,n−1)，所有的个体效应都为0，即不存在个体效应。

有一个独立的常数项β0\beta_0β0，所以对于有nnn个个体，引入n−1n-1n−1个虚拟变量。

未受约束模型（Unrestricted Model）：固定效应模型（引入虚拟变量DiD_iDi）
yit=λ1D1+⋯+λn−1Dn−1+β0+β1x1it+⋯+βkitxkit+uity_{it}=\lambda_1D_1+\dots+\lambda_{n-1}D_{n-1}+\beta_0+\beta_1x_{1it}+\dots+\beta_{kit}x_{kit}+u_{it} yit=λ1D1+⋯+λn−1Dn−1+β0+β1x1it+⋯+βkitxkit+uit
受约束的模型（Restricted Model）：混合回归模型
yit=β0+β1x1it+⋯+βkitxkit+uity_{it}=\beta_0+\beta_1x_{1it}+\dots+\beta_{kit}x_{kit}+u_{it} yit=β0+β1x1it+⋯+βkitxkit+uit
FFF统计量大于临界值，拒绝原假设，则通过F检验，个体效应显著，应该选用固定效应模型；否则个体效应不显著，选用混合回归模型。

随机效应模型(RE)or固定效应模型(FE)——Hausman检验（个体效应是否与解释变量相关的检验）

H0:Cov(λi,xkit)=0H_0:Cov(\lambda_i,x_{kit})=0H0:Cov(λi,xkit)=0，模型误差项与解释变量之间正交，即个体效应（异质性）与解释变量不相关

H1:Cov(λi,xkit)≠0H_1:Cov(\lambda_i,x_{kit})\neq0H1:Cov(λi,xkit)=0，即个体效应（异质性）与解释变量相关

拒绝原假设，选择固定效应模型；接受原假设，选择随机效应模型。（可以根据固定效应和随机效应模型的假设定义来记忆）

如果Cov(λi,xkit)=0Cov(\lambda_i,x_{kit})=0Cov(λi,xkit)=0，FE 和 RE 都是一致的，但RE更有效；则FE与RE估计量将共同收敛于真实的参数值，但选择效率更高的RE;

如果Cov(λi,xkit)≠0Cov(\lambda_i,x_{kit})\neq0Cov(λi,xkit)=0，FE仍然一致，但RE是有偏的；两者的差距过大，选择FE。

该检验的缺点：不适用于异方差情形，若随机误差项存在异方差，RE不是最有效的。

混合回归模型(PLS)or随机效应模型(RE)——LM个体效应检验

H0:σu2=0H_0:\sigma_u^2=0H0:σu2=0

H1:σu2≠0H_1:\sigma_u^2\neq0H1:σu2=0

Two-way（双向效应）：同时考虑个体效应和时间效应

双重差分（DID）模型

通过该模型可以比较某一政策对不同组别的样本的影响。双重差分用于检验某一外生事件产生的影响，如：金融危机、政策变化等。

模型形式一（不含固定效应）

Yit=β0+β1Treati+β2Aftert+β3Treati×Aftert+eitY_{it}=\beta_0+\beta_1Treat_i+\beta_2After_t+\beta_3Treat_i\times After_t+e_{it} Yit=β0+β1Treati+β2Aftert+β3Treati×Aftert+eit

TreatiTreat_iTreati：处理组（受到事件影响的样本）=1，控制组（不受事件影响的样本）=0；

AftertAfter_tAftert：事件发生后=1，事件发生前=0.

	事件发生前After=0	事件发生后After=1	Difference
处理组Treat=1	β0+β1\beta_0+\beta_1β0+β1	β0+β1+β2+β3\beta_0+\beta_1+\beta_2+\beta_3β0+β1+β2+β3	⇒ΔYTreat=β2+β3\Rightarrow\Delta Y_{Treat}=\beta_2+\beta_3⇒ΔYTreat=β2+β3
控制组Treat=0	β0\beta_0β0	β0+β2\beta_0+\beta_2β0+β2	⇒ΔYControl=β2\Rightarrow\Delta Y_{Control}=\beta_2⇒ΔYControl=β2
Difference			Dif-In-Dif ⇓ΔΔY=β3\Downarrow\\\Delta\Delta Y=\beta_3⇓ΔΔY=β3

要检验的是β3\beta_3β3是否显著。

模型形式二（含固定效应）

Yit=β0+β3Treati×Aftert+λi+μt+uitY_{it}=\beta_0+\beta_3Treat_i\times After_t+\lambda_i+\mu_t+u_{it} Yit=β0+β3Treati×Aftert+λi+μt+uit