文章目录

  • 1 GMM引入
  • 2 GMM假定
    • 2.1 线性假设
    • 2.2 渐进独立平稳
    • 2.3 工具变量正交性
    • 2.4 满秩条件
    • 2.5 鞅差分序列
    • 2.6 四阶矩条件
  • 3 GMM推导
  • 4 大样本性质
    • 4.1 一致性
    • 4.2 渐进正态性
  • 5 最优权重矩阵与估计
  • 6 同方差情形
  • 7 过度识别检验
  • 8 非正交性识别
  • 9 自相关情形

1 GMM引入

线性回归模型满足如下线性形式
yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi​=xi′​β+εi​
若解释变量与随机扰动项满足Cov(xik,εi)≠0Cov(x_{ik},\varepsilon_i)\ne 0Cov(xik​,εi​)​=0,则表明解释变量xikx_{ik}xik​具有内生性,或xikx_{ik}xik​为内生解释变量。这里i,ki,ki,k分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量zzz,使得满足以下两个条件:
{Cov(x,z)≠0Cov(z,ε)=0\left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right. {Cov(x,z)​=0Cov(z,ε)=0​
第一个条件称为相关性,即工具变量与内生解释变量具有相关性(相关性越强越好);第二个条件为排斥性,即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法(2SLS)进行估计可得到一致估计量,具体思想为:通过内生解释变量对工具变量进行回归,将内生解释变量分解为不与随机扰动项相关的外生解释变量部分,与扰动项相关的内生部分;由于外生解释变量部分是关于工具变量的线性函数,因此用外生解释变量部分代替原解释变量进行回归,从而得到一致的估计量。当然,如果第一个条件,即相关性越强,则分解后的外生解释变量包含原始解释变量的信息越多,从而提高估计效率;相反,若相关性较弱,则外生解释变量包含原始变量的信息越少,估计效率大大下降。因此,需要寻找更多的工具变量,利用内生解释变量对这些工具变量进行回归,则分离后的外生解释变量包含原始内生解释变量的信息越多,估计效率越高。通过比较内生解释变量与工具变量的个数,

  • 若内生解释变量个数 > 外生解释变量个数,则待估参数不可识别(矩条件(方程)个数少于参数个数)
  • 若内生解释变量个数 = 外生解释变量个数,则待估参数恰好识别(矩条件(方程)个数等于参数个数)
  • 若内生解释变量个数 < 外生解释变量个数,则待估参数过度识别(矩条件(方程)个数大于参数个数)

第一个情况无法估计参数,第二种情况刚好能找到一组参数解,第三种情况存在无数组解。第二种情况虽然能识别参数,但每个内生解释变量都对应一个外生变量,分解的出外生解释变量不一定足够包含内生解释变量的大部分信息;第三种情况虽然有更多的工具变量,但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量,此时回到恰好识别情形。线性组合也包括无穷种,根据已有证明,在球形扰动假设条件下,2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形,但却是在球形扰动条件下成立,即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计,需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系;因为前者都不受到球形扰动假设约束,后者皆在球形扰动假设下成立。


2 GMM假定

2.1 线性假设

线性回归模型满足如下线性形式
yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi​=xi′​β+εi​
其中xi=(xi1,xi1,…xik)′\boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})'xi​=(xi1​,xi1​,…xik​)′为第iii次观测。


2.2 渐进独立平稳

被解释变量yiy_iyi​、解释变量xi\boldsymbol x _ixi​与工具变量zi\boldsymbol z_izi​(维度是LLL)构成的随机过程wi=unique{yi,xi,zi}\boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\}wi​=unique{yi​,xi​,zi​}为渐进独立平稳过程;其中unique表示这些变量不存在重叠。


2.3 工具变量正交性

既然是工具变量,至少需要符号前定变量条件,即工具变量与同期扰动项不相关;设LLL维向量gi=ziεi\boldsymbol g_i = \boldsymbol z_i \varepsilon_igi​=zi​εi​,其期望为E(gi)=E(ziεi)=0E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0E(gi​)=E(zi​εi​)=0


2.4 满秩条件

矩阵E(zixi′)E(\boldsymbol z_i \boldsymbol x_i')E(zi​xi′​)列满秩,即rank(E(zixi′))=Krank(E(\boldsymbol z_i \boldsymbol x_i')) =Krank(E(zi​xi′​))=K这里L>KL>KL>K,并记ΣZX≡E(zixi′)\boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right)ΣZX​≡E(zi​xi′​)


2.5 鞅差分序列

gi\boldsymbol g_igi​为鞅差分序列,其协方差矩阵
S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right) S≡E(gi​gi′​)=E(εi2​zi​zi′​)
可逆


2.6 四阶矩条件

关于解释变量xxx的四阶矩条件E[(xikzij)2]\mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right]E[(xik​zij​)2]存在其有限,∀i,j,k\forall i,j,k∀i,j,k


3 GMM推导

设总体矩条件
E(gi)=E(ziεi)=0\mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0} E(gi​)=E(zi​εi​)=0
的样本矩条件
gn(β^)≡1n∑i=1nzi(yi−xi′β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0} gn​(β^​)≡n1​i=1∑n​zi​(yi​−xi′​β^​)=0
其中zi\boldsymbol z_izi​的维度为LLL,参数β^\hat {\boldsymbol \beta}β^​的维度为KKK,这里工具变量个数大于内生解释变量个数,即L>KL>KL>K。此时无法找到唯一解β^\boldsymbol{\hat\beta}β^​,使得gn(β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0gn​(β^​)=0成立。我们将gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn​(β^​)转为二次型:如果存在解β^\boldsymbol{\hat\beta}β^​使得gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn​(β^​)无限接近0,则二次型
(gn(β^))1×L′(gn(β^))L×1→0\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0 (gn​(β^​))1×L′​(gn​(β^​))L×1​→0
二次型还需要一个依赖于样本的随机正定对称矩阵W^L×L\hat W_{L \times L}W^L×L​,且在大样本条件下,Plim⁡n→∞W^=WP \lim_{n\to \infty} \hat{W} =WPlimn→∞​W^=W,WWW为非随机的对称正定矩阵。定义最小化目标函数
min⁡β^J(β^,W^)≡n(gn(β^))′W^(gn(β^))\min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right) β^​min​J(β^​,W^)≡n(gn​(β^​))′W^(gn​(β^​))
其中目标函数一定大于0,而nnn是为了方便统计计算,不影响最小值点;定义GMMGMMGMM估计量为该问题的最优解,则
β^GMM(W^)≡argmin⁡β^J(β^,W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) β^​GMM​(W^)≡β^​argmin​J(β^​,W^)
显然β^\boldsymbol {\hat \beta}β^​是关于权重矩阵W^\hat WW^的函数,因此选择不同WWW对β^\boldsymbol {\hat \beta}β^​的估计效率也存在差异。W^\hat WW^的作用是对LLL个矩条件进行赋权,不同矩条件的强弱不同,则对应的方差较小(矩阵S=E(gigi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)S=E(gi​gi′​)对角线元素),此时应在W^\hat WW^种赋予更大的权重。当然最简单的方法将W^\hat WW^视为单位阵,即不同矩条件的影响相同。下面是GMMGMMGMM估计量推导过程:记SZX≡1n∑i=1nzixi′,SZy≡1n∑i=1nziyi\boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i}SZX​≡n1​∑i=1n​zi​xi′​,SZy​≡n1​∑i=1n​zi​yi​,则最小化目标函数,
J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)\begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned} J(β^​,W^)​=n(SZy​−SZX​β^​)′W^(SZy​−SZX​β^​)=n(SZy′​−β^​′SZX′​)W^(SZy​−SZX​β^​)=n(SZy′​W^−β^​′SZX′​W^)(SZy​−SZX​β^​)=n(SZy′​W^SZy​−β^​′SZX′​W^SZy​−SZy′​W^SZX​β^​+β^​′SZX′​W^SZX​β^​)=n(SZy′​W^SZy​−2β^​′SZX′​W^SZy​+β^​′SZX′​W^SZX​β^​)​
其中
(β^′SZX′W^SZy)′=Sxy′W^SZXβ^\left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}} (β^​′SZX′​W^SZy​)′=Sxy′​W^SZX​β^​
对向量β^\boldsymbol {\hat \beta}β^​求微分得
∂J(β^,W^)∂β^=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0\frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0 ∂β^​∂J(β^​,W^)​=n(−2SZX′​W^SZy​+2SZX′​W^SZX​β^​)=0
整理
SZX′W^SZXβ^=SzX′W^SZy\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} SZX′​W^SZX​β^​=SzX′​W^SZy​
根据假定2.4以及W^\hat{W}W^正定对称,解得
β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy\hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} β^​GMM​(W^)=(SZX′​W^SZX​)−1SZX′​W^SZy​
在大样本条件下(SZX′W^SZX)−1\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1}(SZX′​W^SZX​)−1满秩。在恰好识别 SZX\boldsymbol{S}_{\mathrm{ZX}}SZX​为K×KK \times KK×K维仿阵,可逆则
β^GMM(W^)=SZX−1W^−1SZX′−1SZX′W^⏟=ISZy=SZX−1SZy=β^IV\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}} β^​GMM​(W^)=SZX−1​=IW^−1SZX′−1​SZX′​W^​​SZy​​=SZX−1​SZy​=β^​IV​
即在恰好识别条件下,GMMGMMGMM估计量与IVIVIV估计量等价。因此只有在过度识别条件下,才能用GMMGMMGMM方法


4 大样本性质

4.1 一致性

在大样本条件下,GMM估计量
plim⁡n→∞β^GMM(W^)=β\operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta} plimn→∞​β^​GMM​(W^)=β
收敛于总体回归参数β\boldsymbol \betaβ。证明如下:β^GMM(W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})β^​GMM​(W^)的抽样误差为
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nziyi)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+1n∑i=1nziεi)−β=(SZX′W^SZX)−1SZX′W^g‾\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned} β^​GMM​(W^)−β​=(SZX′​W^SZX​)−1SZX′​W^(n1​i=1∑n​zi​yi​)−β=(SZX′​W^SZX​)−1SZX′​W^(n1​i=1∑n​zi​(xi′​β+εi​))−β=(SZX′​W^SZX​)−1SZX′​W^(SZX​β+n1​i=1∑n​zi​εi​)−β=(SZX′​W^SZX​)−1SZX′​W^g​​
其中g‾≡1n∑i=1ngi,gi≡ziεi\overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i}g​≡n1​∑i=1n​gi​,gi​≡zi​εi​;(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′​W^SZX​)−1⟶p​(ΣZX′​WΣZX​)−1;SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W}SZX′​W^⟶p​ΣZX′​W;g‾⟶pE(gi)=E(ziεi)=0\overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0}g​⟶p​E(gi​)=E(zi​εi​)=0;故
β^GMM(W^)−β⟶p0\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0} β^​GMM​(W^)−β⟶p​0


4.2 渐进正态性

在假定2.5(鞅差分序列假定)条件下,
n(β^GMM−β)⟶dN(0,Avar⁡(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n​(β^​GMM​−β)⟶d​N(0,Avar(β^​GMM​))
其中
Avar⁡(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1} Avar(β^​GMM​)=(ΣZX′​WΣZX′​)−1ΣZX​WSWΣZX​(ΣZX′​WΣZX​)−1

S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right) S=E(gi​gi′​)=E(εi2​zi​zi′​),ΣZX​≡E(zi​xi′​)

证明如下:抽样误差、
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g‾\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} β^​GMM​(W^)−β=(SZX′​W^SZX​)−1SZX′​W^g​

n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng‾)\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}}) n​(β^​GMM​(W^)−β)=(SZX′​W^SZX​)−1SZX′​W^(n​g​)
在假定2.5,利用中心极限定理
ng‾⟶dN(0,S)\sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S}) n​g​⟶d​N(0,S)
这里S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right)S≡E(gi​gi′​)=E(εi2​zi​zi′​);于是
n(β^GMM(W^)−β)⟶dN(0,Avar⁡(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n​(β^​GMM​(W^)−β)⟶d​N(0,Avar(β^​GMM​))
由于(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′​W^SZX​)−1⟶p​(ΣZX′​WΣZX​)−1;SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W}SZX′​W^⟶p​ΣZX′​W;故
Avar⁡(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} Avar(β^​GMM​)=(ΣZX′​WΣZX​)−1ΣZX′​WSWΣZX​(ΣZX′​WΣZX​)−1
为夹心估计量。


5 最优权重矩阵与估计

在假定2.1,2.2与2.6条件下,对于β\boldsymbol \betaβ的任意一致估计量β^\boldsymbol{ \hat \beta}β^​,其残差为ei≡yi−xi′β^e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}ei​≡yi​−xi′​β^​;则s2≡1n∑i=1nei2s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}s2≡n1​∑i=1n​ei2​是总体回归函数随机扰动项方差σ2≡E(εi2)\sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right)σ2≡E(εi2​)的一致估计量;且S^≡1n∑i=1nei2zizi′\hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime}S^≡n1​∑i=1n​ei2​zi​zi′​也是S≡E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right)S≡E(εi2​zi​zi′​)的一致估计量。经证明,使Avar⁡(β^GMM)\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)Avar(β^​GMM​)最小化的最优权重矩阵即为
W^=S^−1\hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1} W^=S^−1
为了得到最优权重矩阵,需要得到关于β\boldsymbol \betaβ的一致估计量。显然两阶段最小二乘法(2SLS)能得到参数一致估计量(尽管可能不是最优效率的);并计算残差估计权重矩阵
W^=S^−1≡(1n∑i=1nei2zizi′)−1\hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1} W^=S^−1≡(n1​i=1∑n​ei2​zi​zi′​)−1
将W^\hat{\boldsymbol{W}}W^代入目标函数最小化J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​,S^−1),即可得到β^GMM(S^−1)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right)β^​GMM​(S^−1)。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵W^\hat{\boldsymbol{W}}W^的估计量,最小化目标函数J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​,S^−1)直至参数收敛为止。


6 同方差情形

GMM估计适合非球形扰动假设(异方差与自相关)情形,对于同方差情形E(εi2∣zi)=σ2>0\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0E(εi2​∣zi​)=σ2>0,利用迭代期望公式
S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right) S≡E(zi​zi′​εi2​)=Ezi​​E(zi​zi′​εi2​∣zi​)=Ezi​​[zi​zi′​E(εi2​∣zi​)]=σ2E(zi​zi′​)
此时S~≡s2SZZ\tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z}S~≡s2SZZ​是S\boldsymbol SS的一致估计量,其中SZZ≡1nZ′Z\boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}SZZ​≡n1​Z′Z。将S~−1=(s2SZZ)−1\tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1}S~−1=(s2SZZ​)−1作为最优权重矩阵,得到
β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned} β^​GMM​(S~−1)​=(SZX′​(s2SZZ​)−1SZX​)−1SZX′​(s2SZZ​)−1SZy​=(SZX′​SZZ−1​SZX​)−1SZX′​SZZ−1​SZy​​
其中SZX≡1nZ′X,SZZ≡1nZ′Z,SZy≡1nZ′y\boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y}SZX​≡n1​Z′X,SZZ​≡n1​Z′Z,SZy​≡n1​Z′y,故
β^GMM(S~−1)=(1nX′Z⋅n(Z′Z)−1⋅1nZ′X)−11nX′Z⋅n(Z′Z)−11nZ′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned} β^​GMM​(S~−1)​=(n1​X′Z⋅n(Z′Z)−1⋅n1​Z′X)−1n1​X′Z⋅n(Z′Z)−1n1​Z′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^​2SL​​
在同方差假设下两步GMM估计等价于2SLS估计;此外,权重矩阵不需要第一步估计,只需令S^−1=SZZ−1\hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1}S^−1=SZZ−1​;故2SLS也称为一步GMM


7 过度识别检验

GMM估计适用于工具变量过度识别情形(工具变量个数 > 内生解释变量个数),如果工具变量都是外生的,则目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​GMM​,S^−1)距离000应该不远;反之,若某些工具变量存在内生性,目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​GMM​,S^−1)可能离0的距离更远。因此J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​GMM​,S^−1)可以作为过度识别的统计量:
J(β^GMM,S^−1)⟶dχ2(L−K)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K) J(β^​GMM​,S^−1)⟶d​χ2(L−K)
其中(L−K)(L-K)(L−K)表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下,J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^​GMM​,S^−1)与Sargan统计量相同。


8 非正交性识别

如果拒绝所有变量均外生,则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性,设LLL维度的工具变量zi\boldsymbol z_izi​种前L1(L1≥K)L_1(L_1 \ge K)L1​(L1​≥K)个工具变量满足外生性,后L−L1L-L_1L−L1​个工具变量存在非正交性。分别计算LLL个工具变量与L−L1L-L_1L−L1​个工具变量的JJJ统计值,并作差构造CCC统计量(或GMM距离,或Sargan差)
C≡J−J1⟶dχ2(L−L1)C \equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right) C≡J−J1​⟶d​χ2(L−L1​)
L−L1L-L_1L−L1​为不满足外生性工具变量个数。


9 自相关情形

当存在自相关时(时间序列)也可以用GMM方法,在估计时采用自相关异方差稳健标准误推断即可。


-END-

参考文献

陈强.高级计量经济学[M].高等教育出版社

内生性问题—广义矩估计相关推荐

  1. 广义矩估计的一般步骤_【基本无害】动态理性预期理论与广义矩估计02

    前期回顾 [基本无害]动态理性预期理论与广义矩估计01 如果使用 GMM 对动态理性预期模型进行识别,主要是基于动态欧拉方程,昨天我们的推文已经介绍了动态欧拉方程: 我们举了若干不同的经济学模型的例子 ...

  2. python广义矩估计_《利用Python进行数据分析》13章(中二)建模库介绍

    前文传送门: 13.3 statsmodels介绍 statsmodels是Python进行拟合多种统计模型.进行统计试验和数据探索可视化的库.Statsmodels包含许多经典的统计方法,但没有贝叶 ...

  3. 广义矩估计的一般步骤_广义矩估计.ppt

    广义矩估计 §3.3 计量经济学模型的广义矩估计(GMM, Generalized Method of Moments)(教材§3.6) 一.广义矩估计的概念 二.计量经济学模型的广义矩估计 三.OL ...

  4. 广义矩估计的一般步骤_广义矩估计法

    广义矩估计 一.背景 我们前面学了OLS 估计.工具变量估计方法,前面这几种方法都有重要假设就是需要知道分布才能估计,但是往往现实理论我们无法得到关于分布的信息,因此矩估计方法应运而生.矩估计方法的基 ...

  5. 内生性!内生性!解决方法大集合

    全文阅读:https://www.lianxh.cn/news/224e2b4e170e4.html 目录 1. 内生性的来源 1.1 遗漏变量 1.2 选择偏差 1.3 双向因果 1.4 测量误差 ...

  6. 内生性问题的产生和解决办法

    一.什么是内生性 对于一个回归问题,回归方程如下: 简单来说内生性就是自变量x1与扰动项存在相关性,即,存在内生性那么用OLS就无法得到无偏估计,结论就不可靠. 无偏估计 是指用样本统计量来估计总体的 ...

  7. lecture 11:内生性与工具变量法

    内生性问题 "内生性"名称的由来 现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的一个或多个解释变量与误差项存在相关关系. 显然,这个解释和内生性 ...

  8. 线性模型——异方差、序列相关、多重共线性与内生性的处理

    在实际的计量经济学问题中,完全满足回归的基本假设的情况并不多见.不满足基本假定的情况.称为违背基本假定 违背基本假定的情况主要包括: 随机干扰项存在异方差 随机干扰项的序列相关(或称自相关) 解释变量 ...

  9. 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...

最新文章

  1. linux 守护进程 失败,Linux守护进程
  2. Redis的各项功能解决了哪些问题?
  3. 博士申请 | 南洋理工大学骆思强老师招收大数据/机器学习方向博士生、博士后...
  4. 【数据库】第四章 JDBC、MyBatis
  5. python和java哪个好学-Python和Java对比,全面解读哪个语言最赚钱,前景最好?
  6. 女程序员上班第一件事:调整IDE颜色以适配今天的衣着妆容
  7. 一文带你全面解析postman工具的使用(基础篇)
  8. C#学习笔记(十八):数据结构和泛型
  9. lvs nginx-proxy nginx 取用户真实IP
  10. 飞机大战php 源码,飞机大战资源素材及完整代码
  11. 一个android本地txt阅读器的思路与实现
  12. php js广告,JavaScript_用JS调用谷歌 AdSense广告的方法, 具体的google广告的js文件做 - phpStudy...
  13. 2021瑞安高考成绩查询,2021年瑞安高考状元名单公布,瑞安文理科状元是谁多少分...
  14. ios中Date.prase()兼容问题
  15. (转)TensorFlow--实现人脸识别实验精讲 (Face Recognition using Tensorflow)
  16. Win10设置分屏功能
  17. uni-app卡片式轮播
  18. 马斯克称“很快”将会提高纯视觉Autopilot系统最高限速
  19. [英语语法]句法之there be结构与强调句
  20. 十大高薪热门职业健康观察报告出炉!程序员求生欲最强

热门文章

  1. 变电站运维云平台系统在台商大厦的设计与应用
  2. 3D变电站物联网可视化虚拟仿真数字孪生系统
  3. 常用开源协议详细解析
  4. SRTP/SRTCP协议
  5. 腾讯云TRTC web sdk实践
  6. 如何将华为手机进行软文营销
  7. 计算机维修基础知识pdf,电脑主板维修基础知识.pdf
  8. 全国省市区邮编等信息入库API-JAVA
  9. AMD催化剂8.12将支持Stream流加速
  10. SpaceX星际飞船原型已顺利安装整流罩 第二艘正在佛罗里达州建造