冀云阳 (广东财经大学,Dufejyy@163.com)
贺   旭 (中央财经大学)

? 连享会主页:lianxh.cn


Stata 暑期班:9天直播

? 时间:2020.7.28-8.7
? 嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
? 主页:https://gitee.com/arlionn/PX  | ? 微信版

  「基础不牢,地动山摇……」

  • Stata 暑期研讨-初级班

    • 7 月 28-30 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-高级班
    • 8 月 1-3 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-论文班
    • 8 月 5-7 日 (三天), 网络直播 + 3 天回放
  • Stata 暑期研讨-全程班
    • 7 月 28 日-8 月 7 日, 网络直播 + 9 天回放

? 强大的助教团队

这次暑期课程,我们会组织一个 30 名精英助教团队。其中,15 人为连享会往期课程中的涌现出来的优秀助教,他们有些人已经发表过《经济研究》、《管理世界》等 Top 期刊,有丰富的经验;另外 15 人则将从国内各个高校遴选,由于也是「新手」,会更清楚学员们的痛点所在。这些「助教新人」们会在开课前与「助教老手」以及授课老师们共同工作 1 个月,以便做好准备工作。我们的助教们会分成三个小组,全程为大家提供最全面、细致的答疑服务。在近几期专题课程中,我们都采用了这种「精英助教团队」模式,大大增强了大家的学习效率和自信心,诸多学员也在互动过程中结识了一批优秀的同行,相伴而行。


授课嘉宾


?  连玉君 ,西安交通大学经济学博士,中山大学岭南学院副教授,博士生导师。已在《China Economic Review》、《经济研究》、《管理世界》、《经济学(季刊)》、《金融研究》、《统计研究》等期刊发表论文 60 余篇。目前已完成 Panel VAR、Panel Threshold、Two-tier Stochastic Frontier 等计量模型的 Stata 实现程序,并编写过几十个小程序,如 winsor2, xtbalance, bdiff, ua 等。连玉君老师团队一直积极分享 Stata 应用中的经验,开设了 [连享会-主页],[连享会-直播间],[连享会-知乎] 等专栏,并定期在微信公众号 (Stata连享会) 中发布精彩推文。



? 江艇,香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在 Economics LettersReview of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文,曾应邀在多所高校讲授「应用微观计量经济学」短期前沿课程并广受好评。


目录

  • 1. 问题背景

  • 2.  过度识别检验

    • 2.1 Sargan 检验

    • 2.2 Hansen J 检验

    • 2.3 C 统计量

  • 3. 过度识别检验的 Stata 实现

    • 3.1 ivreg2 命令

    • 3.2 xtbond2 命令

  • 4. 过度识别检验统计量无法计算

    • 4.1 原因

    • 4.2 解决方法

    • 4.3 Stata 实现

  • 参考资料


1. 问题背景

OLS 有一个经典的假设:解释变量与随机误差项不相关,即 。如果存在解释变量违背了这个假设,则估计出的参数是有偏的,也是不一致的。

工具变量 (IV) 法为解决「内生解释变量」问题提供了一种可行的方法。为此,我们需要找到满足以下条件的「外生解释变量 ()」:

  • 与内生解释变量相关,即 ;
  • 与随机误差项不相关,即 。

根据「内生解释变量」与「工具变量」间的数量关系,又可以分为以下几种情况:

  • 不可识别 (unidentified):工具变量数小于内生解释变量数;
  • 恰好识别 (just or exactly indentified):工具变量数等于内生解释变量数;
  • 过度识别 (overindentified):工具变量数大于内生解释变量数。

在「恰好识别」的情况下,我们可以估计 ,而在「过度识别」的情况下,则需要通过两阶段最小二乘法 (Two Stage Least Square,2SLS 或 TSLS) 估计 。当然在「恰好识别」的情况下,我们也可以用 2SLS 进行估计。但是,在「不可识别」情况下,以上方法失效。2SLS 主要通过以下两阶段实现:

  • 第一阶段,用内生解释变量对工具变量回归;
  • 第二阶段,用被解释变量对第一阶段回归的拟合值回归。

值得注意, 2SLS 只有在「同方差」的情况下才是最优效率的,而在「过度识别」和「异方差」的情况下,广义矩估计 (Generalized Method of Moments, GMM) 才是最有效率的。关于 GMM 介绍详见:「Stata:GMM 简介及实现范例」和「GMM 简介与 Stata 实现」。

在使用工具变量之前,我们仍需进行若干检验:

  • 解释变量内生性的检验;
  • 弱工具变量检验;
  • 过度识别检验。

在「恰好识别」的情况下,我们无法检验工具变量的外生性,只能进行「定性讨论或依赖专家意见」,详见「IV-估计:工具变量不外生时也可以用!」。因此,我们重点关注「过度识别检验」的方法和在 Stata 中实现。

温馨提示: 文中链接在微信中无法生效。请点击底部

2.  过度识别检验

2.1 Sargan 检验

假设共有 个解释变量 ,其中前 个解释变量 为外生解释变量,而后 个解释变量 为内生解释变量:

同时,假设共有 个方程外的工具变量 ,其中 。过度识别原假设为:

由于「扰动项 」无法观测,故只能通过 2SLS 的残差 来考察工具变量与扰动项的相关性。为此,构造以下辅助回归:

则原假设可写为:

记辅助回归的可决系数为 ,则 Sargan 统计量 (Sargan, 1958) 为:

其中,Sargan 统计量的渐进分布为 ,其自由度为 ,即为「方程外工具变量个数」减去「内生解释变量个数」。

Note:本部分内容摘自「陈强等. 计量经济学及 Stata 应用[M]. 高等教育出版社, 2015.」,详见 200 页。

2.2 Hansen J 检验

在「同方差」假设下,2SLS 是最有效率的,而在「过度识别且存在异方差」情况下,GMM 更有效率。

考虑以下原假设:

:所有工具变量都是外生的

其实,这就是检验总体矩条件是否成立:

与总体矩条件 对应的样本矩条件为:

将上式看成一个联立方程组,未知参数 的维度为 ,方程个数为 个 (工具变量 的维度)。若 ,为不可识别,则 有无穷多解;若 ,为恰好识别,则 有唯一解,并等价于矩估计,进而等价于 2SLS;若 ,为过度识别, 无解。

在过度识别的情况下,Hansen (1982) 提出了一种可行的方案:虽然无法找到 使得样本矩等于 ,但总可以让样本矩尽量接近于 。为此,可以用「二次型」来衡量它到 向量的距离,如:

更一般地,可以用一个「权重矩阵 」来构造「二次型」,如:

其中,因子 不影响最小化。这是一个无约束的最优化问题,目标函数 是   的「二次型」函数,故可得到其解析解 (推导方法类似于 OLS),即 "GMM估计量"。

实际上,GMM 估计量的目标函数 就是检验统计量:

其中, 为过度识别的个数。此检验统计量称为「Hansen's J 统计量」。

Note:本部分内容摘自「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 146-150 页。同时,也参考了「工具变量法(四):GMM」。

2.3 C 统计量

如果过度识别检验拒绝了「所有工具变量都外生」的原假设,则可以怀疑部分工具变量不满足外生性。假设在 个工具变量 中,已知前 个工具变量 满足外生性,而怀疑后 个工具变量 不满足外生性,即要检验原假设 。为此,可以分别用 个工具变量 和 个工具变量 (假设能够满足至少恰好识别) 进行 GMM 估计,并分别记相应的 统计量和 统计量。如果 个工具变量 不满足外生性条件,则 值将会大大增加,进而倾向于拒绝原假设 。构造以下统计量:

其中, 统计量又称 GMM 距离 (GMM distance) 或 Sargan 差(difference-in-Sargan),自由度 为怀疑工具变量不满足外生性的个数。

Note:本部分内容参考「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 150、298-299 页。

温馨提示: 文中链接在微信中无法生效。请点击底部

3. 过度识别检验的 Stata 实现

3.1 ivreg2 命令

以官方 griliches76.dta 数据为例,lw 为工资对数,s 为受教育年限,expr 为工龄,tenure 为现单位工作年数,rns 为美国南方虚拟变量 (住在南方 = 1),smsa 为大城市虚拟变量 (住在大城市 = 1),iq 为智商,med 为母亲受教育年限,kww 为一项职业测试成绩 (score on knowledge in world of work test),age 为年龄,mrt 为婚姻状况 (已婚 = 1)。

在研究「智商」对「工资」的影响时,「智商」通常会被认为是一个内生的解释变量,因此我们需要为「智商」寻找工具变量。当然外生解释变量可以被看作自身的工具变量。在这里,我们将母亲受教育年限 (med)、职业测试成绩 (kww)、年龄 (age) 和婚姻状况 (mrt)作为「智商」的工具变量,并进行「过度识别」检验。

在使用 ivreg2 命令进行工具变量回归时,默认提供 Sargan 统计量,而在命令后加入 robustbwcluster 等选项时,Stata 默认提供 Hansen J 统计量。若要报告 统计量,只需在命令后加入 orthog(varlist_ex) 选项,其中 varlist_ex 为需要检验外生性的变量。关于 ivreg2 更多介绍,详见 help ivreg2

*-安装命令  ssc install ivreg2, replace

*-Sargan 检验  use http://fmwww.bc.edu/ec-p/data/hayashi/griliches76.dta  ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt)

*-Hansen J 检验  ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), robust

*-C 统计量  ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), orthog(s)
. *-Sargan 检验.   use http://fmwww.bc.edu/ec-p/data/hayashi/griliches76.dta(Wages of Very Young Men, Zvi Griliches, J.Pol.Ec. 1976)

.   ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt)

IV (2SLS) estimation--------------------

Estimates efficient for homoskedasticity onlyStatistics consistent for homoskedasticity only

                                                      Number of obs =      758                                                      F( 12,   745) =    45.91                                                      Prob > F      =   0.0000Total (centered) SS     =  139.2861498                Centered R2   =   0.4255Total (uncentered) SS   =  24652.24662                Uncentered R2 =   0.9968Residual SS             =   80.0182337                Root MSE      =    .3249

------------------------------------------------------------------------------          lw |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]-------------+----------------------------------------------------------------          iq |   .0001747   .0039035     0.04   0.964     -.007476    .0078253           s |   .0691759   .0129366     5.35   0.000     .0438206    .0945312        expr |    .029866   .0066393     4.50   0.000     .0168533    .0428788      tenure |   .0432738   .0076271     5.67   0.000     .0283249    .0582226         rns |  -.1035897    .029481    -3.51   0.000    -.1613715   -.0458079        smsa |   .1351148   .0266573     5.07   0.000     .0828674    .1873623             |        year |         67  |   -.052598   .0476924    -1.10   0.270    -.1460734    .0408774         68  |   .0794686   .0447194     1.78   0.076    -.0081797    .1671169         69  |   .2108962   .0439336     4.80   0.000     .1247878    .2970045         70  |   .2386338   .0509733     4.68   0.000     .1387281    .3385396         71  |   .2284609   .0437436     5.22   0.000     .1427251    .3141967         73  |   .3258944   .0407181     8.00   0.000     .2460884    .4057004             |       _cons |    4.39955   .2685443    16.38   0.000     3.873213    4.925887------------------------------------------------------------------------------Underidentification test (Anderson canon. corr. LM statistic):          52.436                                                   Chi-sq(4) P-val =    0.0000------------------------------------------------------------------------------Weak identification test (Cragg-Donald Wald F statistic):               13.786Stock-Yogo weak ID test critical values:  5% maximal IV relative bias    16.85                                         10% maximal IV relative bias    10.27                                         20% maximal IV relative bias     6.71                                         30% maximal IV relative bias     5.34                                         10% maximal IV size             24.58                                         15% maximal IV size             13.96                                         20% maximal IV size             10.26                                         25% maximal IV size              8.31Source: Stock-Yogo (2005).  Reproduced by permission.------------------------------------------------------------------------------Sargan statistic (overidentification test of all instruments):          87.655                                                   Chi-sq(3) P-val =    0.0000------------------------------------------------------------------------------Instrumented:         iqIncluded instruments: s expr tenure rns smsa 67.year 68.year 69.year 70.year                      71.year 73.yearExcluded instruments: med kww age mrt------------------------------------------------------------------------------
 *-Hansen J 检验.   ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), robust

IV (2SLS) estimation--------------------

Estimates efficient for homoskedasticity onlyStatistics robust to heteroskedasticity

                                                      Number of obs =      758                                                      F( 12,   745) =    46.94                                                      Prob > F      =   0.0000Total (centered) SS     =  139.2861498                Centered R2   =   0.4255Total (uncentered) SS   =  24652.24662                Uncentered R2 =   0.9968Residual SS             =   80.0182337                Root MSE      =    .3249

------------------------------------------------------------------------------             |               Robust          lw |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]-------------+----------------------------------------------------------------          iq |   .0001747   .0041241     0.04   0.966    -.0079085    .0082578           s |   .0691759   .0132907     5.20   0.000     .0431266    .0952253        expr |    .029866   .0066974     4.46   0.000     .0167394    .0429926      tenure |   .0432738   .0073857     5.86   0.000     .0287981    .0577494         rns |  -.1035897    .029748    -3.48   0.000    -.1618947   -.0452847        smsa |   .1351148    .026333     5.13   0.000     .0835032    .1867265             |        year |         67  |   -.052598   .0457261    -1.15   0.250    -.1422195    .0370235         68  |   .0794686   .0428231     1.86   0.063    -.0044631    .1634003         69  |   .2108962   .0408774     5.16   0.000     .1307779    .2910144         70  |   .2386338   .0529825     4.50   0.000     .1347901    .3424776         71  |   .2284609   .0426054     5.36   0.000     .1449558     .311966         73  |   .3258944   .0405569     8.04   0.000     .2464044    .4053844             |       _cons |    4.39955    .290085    15.17   0.000     3.830994    4.968106------------------------------------------------------------------------------Underidentification test (Kleibergen-Paap rk LM statistic):             41.537                                                   Chi-sq(4) P-val =    0.0000------------------------------------------------------------------------------Weak identification test (Cragg-Donald Wald F statistic):               13.786                         (Kleibergen-Paap rk Wald F statistic):         12.167Stock-Yogo weak ID test critical values:  5% maximal IV relative bias    16.85                                         10% maximal IV relative bias    10.27                                         20% maximal IV relative bias     6.71                                         30% maximal IV relative bias     5.34                                         10% maximal IV size             24.58                                         15% maximal IV size             13.96                                         20% maximal IV size             10.26                                         25% maximal IV size              8.31Source: Stock-Yogo (2005).  Reproduced by permission.NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.------------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):        74.165                                                   Chi-sq(3) P-val =    0.0000------------------------------------------------------------------------------Instrumented:         iqIncluded instruments: s expr tenure rns smsa 67.year 68.year 69.year 70.year                      71.year 73.yearExcluded instruments: med kww age mrt------------------------------------------------------------------------------
. *-C 统计量.   ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), orthog(age)

IV (2SLS) estimation--------------------

Estimates efficient for homoskedasticity onlyStatistics consistent for homoskedasticity only

                                                      Number of obs =      758                                                      F( 12,   745) =    45.91                                                      Prob > F      =   0.0000Total (centered) SS     =  139.2861498                Centered R2   =   0.4255Total (uncentered) SS   =  24652.24662                Uncentered R2 =   0.9968Residual SS             =   80.0182337                Root MSE      =    .3249

------------------------------------------------------------------------------          lw |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]-------------+----------------------------------------------------------------          iq |   .0001747   .0039035     0.04   0.964     -.007476    .0078253           s |   .0691759   .0129366     5.35   0.000     .0438206    .0945312        expr |    .029866   .0066393     4.50   0.000     .0168533    .0428788      tenure |   .0432738   .0076271     5.67   0.000     .0283249    .0582226         rns |  -.1035897    .029481    -3.51   0.000    -.1613715   -.0458079        smsa |   .1351148   .0266573     5.07   0.000     .0828674    .1873623             |        year |         67  |   -.052598   .0476924    -1.10   0.270    -.1460734    .0408774         68  |   .0794686   .0447194     1.78   0.076    -.0081797    .1671169         69  |   .2108962   .0439336     4.80   0.000     .1247878    .2970045         70  |   .2386338   .0509733     4.68   0.000     .1387281    .3385396         71  |   .2284609   .0437436     5.22   0.000     .1427251    .3141967         73  |   .3258944   .0407181     8.00   0.000     .2460884    .4057004             |       _cons |    4.39955   .2685443    16.38   0.000     3.873213    4.925887------------------------------------------------------------------------------Underidentification test (Anderson canon. corr. LM statistic):          52.436                                                   Chi-sq(4) P-val =    0.0000------------------------------------------------------------------------------Weak identification test (Cragg-Donald Wald F statistic):               13.786Stock-Yogo weak ID test critical values:  5% maximal IV relative bias    16.85                                         10% maximal IV relative bias    10.27                                         20% maximal IV relative bias     6.71                                         30% maximal IV relative bias     5.34                                         10% maximal IV size             24.58                                         15% maximal IV size             13.96                                         20% maximal IV size             10.26                                         25% maximal IV size              8.31Source: Stock-Yogo (2005).  Reproduced by permission.------------------------------------------------------------------------------Sargan statistic (overidentification test of all instruments):          87.655                                                   Chi-sq(3) P-val =    0.0000-orthog- option:Sargan statistic (eqn. excluding suspect orthogonality conditions):     47.413                                                   Chi-sq(2) P-val =    0.0000C statistic (exogeneity/orthogonality of suspect instruments):          40.242                                                   Chi-sq(1) P-val =    0.0000Instruments tested:   age------------------------------------------------------------------------------Instrumented:         iqIncluded instruments: s expr tenure rns smsa 67.year 68.year 69.year 70.year                      71.year 73.yearExcluded instruments: med kww age mrt------------------------------------------------------------------------------

可以看出,无论是「Sargan 检验」还是「Hansen J」检验都拒绝了「原假设:所有工具变量都外生」,表明存在一部分内生的工具变量。进一步,我们又构造了 统计量来检验工具变量 age 的外生性,检验结果显著拒绝了「原假设:工具变量 age 是外生的」。

连享会直播:Stata数据清洗 (7.21 日)


3.2 xtbond2 命令

mus08psidextract.dta 为例,该数据包含 595 名美国人 1976-1982 与工资相关的变量 (n = 595, T = 7),其中 lwage 为工资对数,wks 为工作周数,ms 为婚否,union 为是否由工会合同确定工资,occ 为是否是蓝领工人,south 为是否在美国南部,smsa 为是否住在大城市,ind 为是否在在制造业工作。

在使用 xtabond2 命令进行 GMM 回归时,Stata 同时提供 Sargan 检验、Hansen J 检验、以及 统计量。关于 Sargan 检验 和 Hansen J 检验,一般认为 Hansen J 检验结果更为稳健。

*-安装命令  ssc install xtabond2, replace

*-动态面板过度识别检验  sysuse mus08psidextract.dta, clear  xtabond2 lwage L(1/2).lwage L(0/1).wks ms union occ south smsa ind, \\\           gmm(lwage, lag(2 4)) gmm(wks ms union, lag(2 3))  \\\           iv(occ south smsa ind) nolevel twostep robust

上述命令中,L(1/2).lwage 表示 L1.wage L2.wageL(0/1).wks 表示 wks L1.wksgmm(lwage, lag(2 4)) 表示使用 lwage 的 2-4 阶作为 GMM 式工具变量,gmm(wks ms union, lag(2 3)) 表示使用 wks ms union 的 2-3 阶作为 GMM 式工具变量,iv(occ south smsa ind) 表示使用 occ south smsa ind 作为自身工具变量。

Dynamic panel-data estimation, two-step difference GMM------------------------------------------------------------------------------Group variable: id                              Number of obs      =      2380Time variable : t                               Number of groups   =       595Number of instruments = 39                      Obs per group: min =         4Wald chi2(10) =   1287.77                                      avg =      4.00Prob > chi2   =     0.000                                      max =         4------------------------------------------------------------------------------             |              Corrected       lwage |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]-------------+----------------------------------------------------------------       lwage |         L1. |    .611753   .0373491    16.38   0.000     .5385501    .6849559         L2. |   .2409058   .0319939     7.53   0.000     .1781989    .3036127             |         wks |         --. |  -.0159751   .0082523    -1.94   0.053    -.0321493     .000199         L1. |   .0039944   .0027425     1.46   0.145    -.0013807    .0093695             |          ms |   .1859324    .144458     1.29   0.198       -.0972    .4690649       union |  -.1531329   .1677842    -0.91   0.361    -.4819839    .1757181         occ |  -.0357509   .0347705    -1.03   0.304    -.1038999     .032398       south |  -.0250368   .2150806    -0.12   0.907     -.446587    .3965134        smsa |  -.0848223   .0525243    -1.61   0.106     -.187768    .0181235         ind |   .0227008   .0424207     0.54   0.593    -.0604422    .1058437------------------------------------------------------------------------------Instruments for first differences equation  Standard    D.(occ south smsa ind)  GMM-type (missing=0, separate instruments for each period unless collapsed)    L(2/3).(wks ms union)    L(2/4).lwage------------------------------------------------------------------------------Arellano-Bond test for AR(1) in first differences: z =  -4.52  Pr > z =  0.000Arellano-Bond test for AR(2) in first differences: z =  -1.60  Pr > z =  0.109------------------------------------------------------------------------------Sargan test of overid. restrictions: chi2(29)   =  59.55  Prob > chi2 =  0.001  (Not robust, but not weakened by many instruments.)Hansen test of overid. restrictions: chi2(29)   =  39.88  Prob > chi2 =  0.086  (Robust, but weakened by many instruments.)

Difference-in-Hansen tests of exogeneity of instrument subsets:  gmm(lwage, lag(2 4))    Hansen test excluding group:     chi2(18)   =  23.59  Prob > chi2 =  0.169    Difference (null H = exogenous): chi2(11)   =  16.29  Prob > chi2 =  0.131  gmm(wks ms union, lag(2 3))    Hansen test excluding group:     chi2(5)    =   6.43  Prob > chi2 =  0.266    Difference (null H = exogenous): chi2(24)   =  33.44  Prob > chi2 =  0.095  iv(occ south smsa ind)    Hansen test excluding group:     chi2(25)   =  28.00  Prob > chi2 =  0.308    Difference (null H = exogenous): chi2(4)    =  11.87  Prob > chi2 =  0.018

可以看出,工具变量总的个数为 39,而内生变量的个数为 10。同时,扰动项的差分存在一阶自相关,而不存在二阶自相关,故不能拒绝原假设「扰动项无自相关」,可以使用差分 GMM。

Sargan 统计量和 Hansen 统计量在 10% 的水平上都拒绝了「所有工具变量都外生」的原假设。值得注意的是,Sargan 统计量并不稳健,但不受工具变量过多的影响,而 Hansen 统计量虽然稳健,但受工具变量过多的影响。

关于 统计量,我们以「Difference-in-Hansen tests of exogeneity of instrument subsets」部分「iv(occ south smsa ind)」进行简要说明。首先,我们怀疑工具变量 occ south smsa ind 不满足外生性,故计算剔除这 4 个工具变量的 统计量,即「hansen test excluding group」部分。然后,我们再计算 统计量,即「Difference (null H = exogenous)」部分。最后,我们可以看出 统计量拒绝了「原假设:工具变量 occ south smsa ind 是外生的」。

Note:本部分内容参考「陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.」,详见 150、298-299 页。同时,也参考了「Which test to see in Difference-in Hansen test, excluding or difference」。关于「动态面板模型」的介绍,详见「动态面板模型」。

温馨提示: 文中链接在微信中无法生效。请点击底部

4. 过度识别检验统计量无法计算

4.1 原因

在使用 ivreg2 命令进行估计时,我们经常会发现 Sargan 检验或 Hansen J 检验始终无法通过。这可能是由于「工具变量过多」造成的,如模型中控制了年份固定效应、地区固定效应和行业固定效应等虚拟变量。

但是,当「虚拟变量的个数 < (外生变量个数 + 工具变量个数)」时,正交条件对应的方差-协方差矩阵 有可能是非满秩矩阵,此时我们无法计算出 矩阵的逆矩阵 ,从而导致过度识别检验的统计量无法计算。更为详细的介绍,可通过 help ivreg2 查看。

4.2 解决方法

利用 Frisch-Waugh-Lovell (FWL) 定理,我们可以尝试「partial out」一定数量的外生变量 (通常主要是虚拟变量),以保证 矩阵满秩。在使用 ivreg2 命令执行 2SLS 或 GMM 估计时,我们可以加入 partial() 选项,选项中先填入所有外生的虚拟变量,如有必要,可以进一步加入其它外生的解释变量。

Note:关于「partial out」更多详细介绍,请参考 help ivreg2。关于「Frisch-Waugh-Lovell (FWL)」定理的详细介绍,详见「Frisch-Waugh定理与部分回归图:图示多元线性回归的系数」。

温馨提示: 文中链接在微信中无法生效。请点击底部

4.3 Stata 实现

接下来,以案例形式简要介绍「partial out」的原理。

范例 1:partial out 连续变量

    sysuse "auto.dta", clear    rename (price length weight) (Y X1 X2)

    ivregress 2sls Y X1 X2    est store m0  //原始结果

    *-Partial out X2    ivregress 2sls Y X2      //从 y  中除去 X2 的影响    predict e_y, res

    ivregress 2sls X1 X2     //从 X1 中除去 X2 的影响    predict e_x1, res

    ivregress 2sls e_y e_x1  //partial out 后的的回归结果    est store m1

    esttab m0 m1, nogap    restore
    --------------------------------------------                          (1)             (2)                            Y             e_y    --------------------------------------------    X1                 -97.96*                      (-2.55)    X2                  4.699***                       (4.27)    e_x1                               -97.96*                                      (-2.55)    _cons             10386.5*       2.04e-12                       (2.46)          (0.00)    --------------------------------------------    N                      74              74    --------------------------------------------    t statistics in parentheses    * p<0.05, ** p<0.01, *** p<0.001

    *-Notes:    (1) 如果采用 regress 进行回归,SE 会有微小差异,        主要是因为 regress 会针对小样本进行自由度调整。    (2) 采用 IV/GMM 估计,即 ivregress 命令就不会有这个问题了。

范例 2:partial out 虚拟变量

  sysuse auto, clear  drop if rep78==.  global yx "price wei len mpg"

  ivregress 2sls $yx i.rep78  est store m0

  bysort rep78: center $yx, inplace //prefix(c_)  ivregress 2sls $yx  est store m1

  esttab m0 m1, nogap nobase  restore
      --------------------------------------------                            (1)             (2)                          price           price      --------------------------------------------      weight              5.187***        5.187***                         (4.74)          (4.74)      length             -124.2***       -124.2***                        (-3.29)         (-3.29)      mpg                -126.8          -126.8                        (-1.60)         (-1.60)      2.rep78            1137.3                         (0.67)      3.rep78            1254.6                         (0.80)      4.rep78            2267.2                         (1.42)      5.rep78            3850.8*                         (2.29)      _cons             14614.5*      0.0000116                         (2.52)          (0.00)      --------------------------------------------      N                      69              69      --------------------------------------------      t statistics in parentheses      * p<0.05, ** p<0.01, *** p<0.001

     *-Note: FE 模型其实就是先 partial out 公司虚拟变量,然后再对转换后的数据执行 OLS 回归。

范例 3:是否加入 partial() 选项无影响

Acem_data_done.dta 数据为例,进行演示说明:

*-数据下载地址* https://gitee.com/arlionn/data/blob/master/data01/Acem_data_done.dta

  use Acem_data_done.dta, clear  global y "change_gdp"  global x "change_dependency"  global z "devo1990 lpop1990 base_dependency" // 控制变量  global IVs "birthrate1960_1965 birthrate1965_1970 birthrate1970_1975 birthrate1975_1980 birthrate1980_1985 birthrate1985_1990"// 工具变量

  ivregress 2sls $y ($x=$IVs) $z i.region_code, robust  //官方命令    est store a1

    ivreg2 $y ($x=$IVs) $z i.region_code, robust    // 等价-外部命令   est store a2   // without -partial()- option

  ivreg2 $y ($x=$IVs) $z i.region_code, robust ///  partial(lpop1990 i.region_code base_dependency)  est store c5   // with -partial()- option   

*-手动计算:(特别注意:此时的 SE 是错误的!)* Step1:   reg $x $IVs $z i.region_code  cap drop xhat predict xhat

* Step2:      reg $y xhat $z i.region_code  est store a3

*-对比结果:  local m "a1 a2 c5 a3"  esttab `m' `s', nogap  replace        ///  b(%6.3f) s(N r2_a rkf j jp)    ///  star(* 0.1 ** 0.05 *** 0.01)   ///  order(change_dependency xhat)  ///  indicate("Region Dummies =*.region_code")  ///  addnotes("*** 1% ** 5% * 10%") nobase

----------------------------------------------------------------------------                   (a1)            (a2)             (c5)            (a3)                no-parital      no-partial       partial-out       by-handCMD          ivregress         ivreg2          ivreg2          regress----------------------------------------------------------------------------change_dep~y        1.703***        1.703***        1.703***                   (4.14)          (4.14)          (4.14)xhat                                                                1.703***                                                                   (3.80)devo1990           -0.190***       -0.190***       -0.190***       -0.190***                  (-4.22)         (-4.22)         (-4.22)         (-4.58)lpop1990           -0.017          -0.017                          -0.017                  (-0.83)         (-0.83)                         (-0.96)base_depen~y       -0.041          -0.041                          -0.041                  (-0.14)         (-0.14)                         (-0.13)_cons               1.899***        1.899***                        1.899***                   (4.99)          (4.99)                          (5.54)Region Dum~s          Yes             Yes              No             Yes----------------------------------------------------------------------------N                 169.000         169.000         169.000         169.000r2_a                0.179           0.179          -0.024           0.261rkf                                19.365          19.365j                                   4.280           4.280jp                                  0.510           0.510----------------------------------------------------------------------------t statistics in parentheses, p<0.1, ** p<0.05, *** p<0.01

Notes:(1) a1 与 c5 结果完全相同,因此 partial out 部分变量不影响系数估计值;(2) partial out 的目的是为了减少干扰项的方差协方差矩阵 的维度,以便合理计算 Sargan 和 Hansen J 统计量。

范例4:是否加入 partial 选项有显著影响

我们将通过下例来演示加入 partial 选项引起的变化。

use http://fmwww.bc.edu/ec-p/data/hayashi/griliches76.dta, clearivreg2 lw s expr tenure rns smsa i.year (iq=med kww age), cluster(year)

执行完上述命令后,会出现如下提示,即由于矩条件的协方差矩阵非满秩,过度识别检验的结果无法显示。在此情况下,可筛除一些虚拟变量。

Warning: estimated covariance matrix of moment conditions not of full rank.overidentification statistic not reported, and standard errors and model tests should be interpreted with caution.

Possible causes: number of clusters insufficient to calculate robust covariance matrix singleton dummy variable (dummy with one 1 and N-1 0s or vice versa).

partial option may address problem.

下面利用 partial() 选项筛除年份虚拟变量后回归,即可呈现 Hansen J 的检验结果。

ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age), cluster(year) partial(i.year)

参考资料

温馨提示: 文中链接在微信中无法生效。请点击底部

  • Stata:GMM 简介及实现范例 -Link-
  • GMM 简介与 Stata 实现 -Link-
  • IV-估计:工具变量不外生时也可以用!-Link-
  • 工具变量法(四):GMM -Link-
  • 动态面板模型 -Link1-  Link2-
  • Frisch-Waugh定理与部分回归图:图示多元线性回归的系数 -Link-
  • 陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.
  • 陈强. 计量经济学及 Stata 应用[M]. 高等教育出版社, 2015.
  • Which test to see in Difference-in Hansen test, excluding or difference -Link-
  • Sargan J D. The estimation of economic relationships using instrumental variables[J]. Econometrica: Journal of the Econometric Society, 1958: 393-415. -Link-
  • Hansen L P. Large sample properties of generalized method of moments estimators[J]. Econometrica: Journal of the Econometric Society, 1982: 1029-1054. -Link-

? ? ? ?
连享会主页:? www.lianxh.cn
直播视频:lianxh.duanshu.com

免费公开课:

  • 直击面板数据模型:https://gitee.com/arlionn/PanelData - 连玉君,时长:1小时40分钟
  • Stata 33 讲:https://gitee.com/arlionn/stata101 - 连玉君, 每讲 15 分钟.
  • 部分直播课课程资料下载 ? https://gitee.com/arlionn/Live (PPT,dofiles等)

温馨提示: 文中链接在微信中无法生效。请点击底部



关于我们

  • ? 连享会 ( 主页:lianxh.cn ) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • ? 直达连享会:百度一下:连享会】即可直达连享会主页。亦可进一步添加 主页,知乎,面板数据,研究设计 等关键词细化搜索。
  • ? 公众号推文分类: 历史推文分为多个专辑,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。

    连享会 · 推文专辑:
    Stata资源 | 数据处理 | Stata绘图 | Stata程序
    结果输出 | 回归分析 | 时序 | 面板 | 离散数据
    交乘调节 | DID | RDD  |  因果推断 |  SFA-TFP-DEA
    文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具


连享会主页  lianxh.cn

?  连享会小程序:扫一扫,看推文,看视频……



? 扫码加入连享会微信群,提问交流更方便


? 连享会学习群-常见问题解答汇总:
?  https://gitee.com/arlionn/WD

函数或变量 rtenslearn_c 无法识别_Stata:过度识别检验一文读懂相关推荐

  1. stata 将数据集变量名称导出_一文读懂空间计量经济学及stata操作

    在Stata 15中,推出了最新的空间计量官方命令,均以sp开头,表示 spatial data),可以处理横截面与面板形式的空间数据.本文主要为大家介绍空间计量命令之spregress的使用. 一. ...

  2. 一文读懂C++虚函数的内存模型

    一文读懂C++虚函数的内存模型 1.前言 2.虚函数简介 3.虚函数表简介 4.有继承关系的虚函数表剖析 4.1.单继承无虚函数覆盖的情况 4.2.单继承有虚函数覆盖的情况 4.3.多重继承的情况 4 ...

  3. python随机森林变量重要性_推荐 :一文读懂随机森林的解释和实现(附python代码)...

    原标题:推荐 :一文读懂随机森林的解释和实现(附python代码) 作者:WilliamKoehrsen:翻译:和中华:校对:李润嘉 本文约6000字,建议阅读15分钟. 本文从单棵决策树讲起,然后逐 ...

  4. 一文读懂什么是Python魔法函数

    一文读懂什么是Python魔法函数 Python的魔法函数是指Python的类中,一系列函数名由双下划线包裹的函数. 笔者最初接触到魔法函数的使用是在Pytorch中,在Pytorch中的Datase ...

  5. 函数或变量 rtenslearn_c 无法识别_深度学习的数学-卷积神经网络的结构和变量关系...

    前言 本篇博客主要介绍卷积神经网络的组成部分,以及变量表示,最后附上卷积神经网络代价函数的计算 正文 前文中学到的神经网络都是全连接类型的,隐藏层对输入层有着各自固定的偏好模式,满足偏好模式(权重和偏 ...

  6. go 调用其他文件函数_一文读懂Go中软件包概念

    Go编程语言的软件包管理和部署的完整概述 如果您熟悉Java或NodeJS之类的语言,那么您可能非常熟悉软件包. 包不过是带有一些代码文件的目录,该目录从单个引用点公开了不同的变量(功能). 让我解释 ...

  7. 廖雪峰讲python高阶函数求导公式_一文读懂Python 高阶函数

    高阶函数 将函数作为参数传入,这样的函数称为高阶函数.函数式编程就是指这种高度抽象的编程范式. 变量可以指向函数,函数的参数能接收变量,那么一个函数就可以接收另一个函数作为参数,这种函数就称之为高阶函 ...

  8. 一文读懂:深扒人脸识别60年技术发展史

    来源:与非网 摘要: "他来听我的演唱会,门票换了手铐一对".最近歌神张学友变阿SIR,演唱会上频频抓到罪犯,将人脸识别技术又一次推到了大众的视线中. "他来听我的演唱会 ...

  9. 一文读懂身份证ocr识别

    2004年,我国推出二代身份证并大力普及,时至今日应该所有国民都已统一更换了.二代身份证中内嵌有一枚国密智能芯片,加密存储了公民的所有基本信息(姓名.性别.民族.出生日期.身份证号.证件照片.家庭住址 ...

最新文章

  1. C++中一些你不知道的冷知识
  2. 关于收到部分还款SAP系统两种处理方法的说明和比较
  3. 鸿蒙os首批适配机型,鸿蒙OS正式版首批名单曝光,适配速度让人意外,8款机型恭喜了...
  4. html 自动滚动标签,HTML滚动标签(marquee标签)
  5. typeorm_Nestjs 热更新 + typeorm 配置
  6. 我们相信加密! 教程
  7. Javascript 构造函数模式、原型模式
  8. 图片处理拓展篇 : 图片转字符画(ascii)
  9. python如何读取数据时出现错误_在python3中,关于redis读取数据带有‘b’的问题...
  10. linux挂载点 知乎,使用 Linux stat 命令创建灵活的文件列表 | Linux 中国
  11. 【博客项目】—登录验证功能实现( 五)
  12. 《南溪的目标检测学习笔记》——模型预处理的学习笔记
  13. c语言程序报告的前言,C语言 程序代码编写规范前言
  14. 宇视存储服务器vs系列,宇视产品系列之存储产品篇1.pptx
  15. java cnzz_cnzz统计图标不显示
  16. Alkyne-PEG2000-Maleimide,含有炔基和马来西安亚楠的PEG,Alk-PEG2000-MAL
  17. 软件测试教程第2版(宫云战主编)
  18. nutch核心代码分析——crawl.injector总结
  19. hexo支持mathjax
  20. python里raise是什么意思_python raise有什么用

热门文章

  1. 爱问et连接mysql_什么叫数据库主机
  2. java 导出word_Java 生成Word文档
  3. 学习笔记 mysql_MySQL 学习笔记
  4. iPhoneX设计稿适配Android,UI设计干货:关于IPHONE X适配问题
  5. c语言大作业之镖行天下,天下识君--如何最快速度刷完天下识君
  6. 热议:这样的开源项目,你会支持吗?
  7. 关于虚拟内存,你需要了解的一些概念
  8. 邻域闭包matlab,闭包 - it610.com
  9. python 异常分类_python的异常处理
  10. 如何判断照片是否ps