一行代码实现安慰剂检验

1. 什么是安慰剂检验

随着「因果推断方法」在实证研究中的使用比例不断提升，越来越多的文章也会进行安慰剂检验。其检验基本原理与医学中的安慰剂类似，即使用「假的政策发生时间或实验组」进行分析，以检验能否得到政策效应。如果依然得到了政策效应，则表明基准回归中的政策效应并不可靠。进一步，经济结果可能是由其他不可观测因素导致的，而非关注的政策所产生。

2. 为什么要进行安慰剂检验

在实证研究中，无论是稳健性检验，还是安慰剂检验，亦或是异质性分析，其背后真实的目的只有两方面：

第一，使得文章故事性更强，逻辑更加严密；
第二，为因果推断服务，让读者相信研究对象之间的因果效应。

当然，不同的因果推断方法有着不同的安慰剂检验方法，这也进一步说明安慰剂检验是为因果推断服务的。而无论是哪一种因果推断方法，其对应的安慰剂检验思想均可理解为「构造伪政策」。

例如，在使用 DID 方法后，通过随机构造实验组，并模拟 10000 次，然后将系数或 t 值在一张图中绘制出来，以告诉读者前文的识别是可靠的。

如果想要更加完美，一定要解释为什么进行安慰剂检验，比如文章中的结果可能来源于其他因素。当然，这里需要具体问题具体分析。不过，方法还是可以照搬，而应用的场景和解释不可生搬硬套。

3. 常见的安慰剂检验方法

3.1 改变政策发生时间

通过将政策发生时间前置以进行安慰剂检验的方法在双重差分中十分常见。实际上，这与我们经常看到的平行趋势检验是同一种方法。设定一个虚拟的政策发生年份代替真实的政策发生年份，之后纳入回归即可。

王永钦和吴娴 (2019) 利用 2018 年 6 月 1 日中国人民银行扩大中期借贷便利 (MLF) 担保品范围政策这一准自然实验和债券市场微观数据，采用三重差分法识别了基于抵押品的货币政策的作用机制和政策效果。但是，文章结论的潜在威胁是，债券利差的下降可能是由市场的周期性变化而非政策导致的。为了证明前文回归结果的稳健性，作者设定了 2015 年 6 月 1 日为虚拟的货币政策实施时间，使用了 2015 年 1 月 1 日—2015 年 9 月 30 日发行的 AA 级以上公司信用类债券和金融债数据进行了安慰剂检验。

林毅夫等 (2020) 使用双重差分法、三重差分法和合成控制法来识别消费券的发放效果，并评估政府在助力经济复苏中的作用。但潜在的威胁是，发券城市的市民本身就有更强的消费倾向。为此，作者进行了安慰剂检验，分别假设消费券发放的时间提前 30 天或者 15 天，然后考察这些虚拟的消费券发放是否会影响支付笔数。

关于采用改变政策发生时间进行安慰剂检验的方法，还可参考以下文献：

[1] 曹春方, 张超. 产权权利束分割与国企创新——基于中央企业分红权激励改革的证据[J]. 管理世界, 2020, 36(09):155-168. -Link-
[2] 李广众, 贾凡胜. 财政层级改革与税收征管激励重构——以财政 “省直管县” 改革为自然实验的研究[J]. 管理世界, 2020, 36(08):32-50. -Link-
[3] 林毅夫, 沈艳, 孙昂. 中国政府消费券政策的经济效应[J]. 经济研究, 2020, 55(07):4-20. -Link-
[4] 许红梅, 李春涛. 社保费征管与企业避税——来自《社会保险法》实施的准自然实验证据[J]. 经济研究, 2020, 55(06):122-137. -Link-
[5] 刘诗源, 林志帆, 冷志鹏. 税收激励提高企业创新水平了吗?——基于企业生命周期理论的检验[J]. 经济研究, 2020, 55(06):105-121. -Link-
[6] 徐超, 庞雨蒙, 刘迪. 地方财政压力与政府支出效率——基于所得税分享改革的准自然实验分析[J]. 经济研究, 2020, 55(06):138-154.-Link-
[7] 许明, 李逸飞. 最低工资政策、成本不完全传递与多产品加成率调整[J]. 经济研究, 2020, 55(04):167-183.-Link-
[8] 刘啟仁, 赵灿. 税收政策激励与企业人力资本升级[J]. 经济研究, 2020, 55(04):70-85.-Link-
[9] 张克中, 欧阳洁, 李文健. 缘何 “减税难降负”：信息技术、征税能力与企业逃税[J]. 经济研究, 2020, 55(03):116-132.-Link-
[10] 尹志超, 沛瑶, 张琳琬. “为有源头活水来”：精准扶贫对农户信贷的影响[J]. 管理世界, 2020, 36(02):59-71+194+218.-Link-
[11] 施新政, 高文静, 陆瑶, 李蒙蒙. 资本市场配置效率与劳动收入份额——来自股权分置改革的证据[J]. 经济研究, 2019, 54(12):21-37.-Link-
[12] 王永钦, 吴娴. 中国创新型货币政策如何发挥作用：抵押品渠道[J]. 经济研究, 2019, 54(12):86-101.-Link-
[13] 黄俊威, 龚光明. 融资融券制度与公司资本结构动态调整——基于 “准自然实验” 的经验证据[J]. 管理世界, 2019, 35(10):64-81.-Link-
[14] 吕越, 陆毅, 吴嵩博, 王勇. “一带一路” 倡议的对外投资促进效应——基于 2005—2016 年中国企业绿地投资的双重差分检验[J]. 经济研究, 2019, 54(09):187-202.-Link-
[15] 唐宜红, 俞峰, 林发勤, 张梦婷. 中国高铁、贸易成本与企业出口研究[J]. 经济研究, 2019, 54(07):158-173.-Link-
[16] 徐现祥, 李书娟. 官员偏爱籍贯地的机制研究——基于资源转移的视角[J]. 经济研究, 2019, 54(07):111-126.-Link-
[17]朱晓文, 吕长江. 家族企业代际传承:海外培养还是国内培养?[J]. 经济研究, 2019, 54(01):68-84.-Link-
[18] 刘啟仁, 赵灿, 黄建忠. 税收优惠、供给侧改革与企业投资[J]. 管理世界, 2019, 35(01):78-96+114.-Link-
[19] 魏志华, 曾爱民, 吴育辉, 李常青. IPO首日限价政策能否抑制投资者 “炒新”?[J]. 管理世界, 2019, 35(01):192-210.-Link-

3.2 随机生成实验组

另一种常见的安慰剂检验的方式是随机生成实验组。

刘瑞明等 (2020) 根据中国文化体制改革的 “准自然实验”，采用中国 283 个地级市 2002—2016 年间的面板数据，评估了文化体制改革对地区旅游业发展的影响。对于文章的结论而言，一个可能的质疑是，人均国内旅游人次、人均国内旅游收入、人均国内外旅游总人次和人均国内外旅游总收入四个指标的统计显著可能来自于某些随机因素。为此，作者借鉴 Li 等 (2016) 和 Cantoni 等 (2017) 的方法进行安慰剂检验，以判断文化体制改革的旅游促进效应是否是由其他随机性因素引起的。

具体来看，刘瑞明等 (2020) 通过随机生成实验组的方式进行安慰剂检验，以判断文化体制改革的旅游促进效应是否是由其他随机性因素引起的。利用这一方法进行安慰剂检验主要目的是，排除由其他随机因素造成的经济后果，以得到更加可信的因果识别效应。通过随机抽取实验组，重复多次，提取安慰剂结果系数或 t 值，然后将其绘制在图中，并观察真实的政策效应与安慰剂结果。当真实的政策效应与安慰剂检验结果显著不同时，可排除其他随机因素对结果的干扰。具体可见下图：

通过观察图 5 至图 8，可以发现，对于人均国内旅游人次、人均国内旅游收入、人均国内外旅游总人次和人均国内外旅游总收入四个指标，仅有极少数回归的 t 值大于真实回归系数的 t 值，这说明文化体制改革对国内旅游收入和人次的作用比较稳健，的确促进了地区旅游业的发展。

张克中等 (2020) 为研究信息技术、征税能力与企业逃税间关系，借助 “金税三期” 工程这一准自然实验，利用 2008—2016 年上市公司的微观数据和双重差分的估计方法进行相关分析。并借鉴 Chetty 等 (2009) 的做法，随机安排 “金税三期” 工程实施的年份和地区，重复此过程 10000 次，来进行安慰剂检验。

关于随机生成实验组进行安慰剂检验的方法，还可参考以下文献：

[1] 曹春方, 张超. 产权权利束分割与国企创新——基于中央企业分红权激励改革的证据[J]. 管理世界, 2020, 36(09):155-168.-Link-
[2] 刘畅, 曹光宇, 马光荣. 地方政府融资平台挤出了中小企业贷款吗?[J]. 经济研究, 2020, 55(03):50-64.-Link-
[3] 周波, 赵国昌. 中国间接税税负归宿研究:汽车市场准自然实验的证据[J]. 经济研究, 2020, 55(03):133-147.-Link-
[4] 张克中, 欧阳洁, 李文健. 缘何 “减税难降负”：信息技术、征税能力与企业逃税[J]. 经济研究, 2020, 55(03):116-132.-Link-
[5] 毛其淋. 贸易政策不确定性是否影响了中国企业进口?[J]. 经济研究, 2020, 55(02):148-164.-Link-
[6] 刘瑞明, 毛宇, 亢延锟. 制度松绑、市场活力激发与旅游经济发展——来自中国文化体制改革的证据[J]. 经济研究, 2020, 55(01):115-131.-Link-
[7] 吕越, 陆毅, 吴嵩博, 王勇. “一带一路” 倡议的对外投资促进效应——基于 2005—2016 年中国企业绿地投资的双重差分检验[J]. 经济研究, 2019, 54(09):187-202.-Link-
[8] 宋弘, 孙雅洁, 陈登科. 政府空气污染治理效应评估——来自中国 “低碳城市” 建设的经验研究[J]. 管理世界, 2019, 35(06):95-108+195.-Link-
[9] 周茂, 李雨浓, 姚星, 陆毅. 人力资本扩张与中国城市制造业出口升级:来自高校扩招的证据[J]. 管理世界, 2019, 35(05):64-77+198-199.-Link-

3.3 替换样本安慰剂检验

替换样本进行安慰剂检验与随机生成实验组的方法较为相似。不同之处在于，随机生成实验组的安慰剂检验方法最终结果以图形展示，而替换样本安慰剂检验结果多以表格形式展示。在实际操作过程中，替换样本安慰剂检验不需要重复模拟，这在技术上显得容易一点，但在理论逻辑上更加严谨。比如，某政策颁布后，受政策影响的是污染行业，在因果识别后，可对非污染行业进行分析，探究是否存在政策效应 (亦或对政策范围外的污染行业进行分析)。如果对于非污染行业依然存在所谓的政策效应，那么前文的分析并不可靠。例如：

张琦等 (2019) 以《环境空气质量标准 (2012)》的实施为准自然实验，采用双重差分法检验了新标准实施引致的官员动机变化对企业环保决策的影响。文章以 74 个试点城市以外的其他城市中重污染企业作为安慰剂样本，进行了证伪检验。

汪德华等 (2019) 基于 2013 年 CHIP 数据，运用截面数据双差法，评估了 20 世纪 90 年代中期二片地区 “国家贫困地区义务教育工程” 的政策效果。并以不受政策影响的样本作为分析对象，进行了安慰剂检验。

关于替换样本进行安慰剂检验的方法，还可参考以下文献：

[1] 毛其淋. 贸易政策不确定性是否影响了中国企业进口?[J]. 经济研究, 2020, 55(02):148-164.-Link-
[2] 汪德华, 邹杰, 毛中根. “扶教育之贫” 的增智和增收效应——对 20 世纪 90 年代 “国家贫困地区义务教育工程” 的评估[J]. 经济研究, 2019, 54(09):155-171.-Link-
[3] 张琦, 郑瑶, 孔东民. 地区环境治理压力、高管经历与企业环保投资——一项基于《环境空气质量标准(2012)》的准自然实验[J]. 经济研究, 2019, 54(06):183-198.-Link-
[4] 唐为. 分权、外部性与边界效应[J]. 经济研究, 2019, 54(03):103-118.-Link-

3.4 替换变量安慰剂检验

替换变量进行安慰剂检验主要分为替换被解释变量和替换解释变量。与稳健性检验有所不同的是，稳健性检验希望在替换变量后结果依然稳健，而安慰剂检验希望替换变量后结果不再显著。首先，替换被解释变量。某项政策实施后，对特定经济活动会产生影响，但并不是对所有的经济活动都会产生影响。因此，将被解释变量替换为预期不会受到政策影响的变量进行安慰剂检验，以排除其他可能的干扰因素。例如：

陈林和万攀兵 (2019) 以双重差分法实证检验了《京都议定书》的政策效果。由于《京都议定书》未将 PM2.5 纳入减排考核目标，这诱使 CDM 项目实施方对 PM2.5 的防治有所忽略。可以预期，CDM 项目的实施并不会对以 PM2.5 为代表的常规空气污染物产生显著的减排效果。因此，以 PM2.5 为被解释变量进行安慰剂检验。

其次，替换解释变量。这一方法似乎没那么常用，或者说与前文的随机生成实验组和替换样本安慰剂检验有些类似之处。做法主要是将解释变量替换为看起来相似，但经济意义不同的变量。例如：

梁斌和冀慧 (2020) 在研究失业保险如何影响求职努力时，使用 “有失业保险” 的虚拟变量作为解释变量进行安慰剂检验。这主要是因为 “有失业保险” 不等于 “领取失业保险金”。

马黎珺等 (2019) 通过机器学习对 2009-2015 年的分析师报告进行了文本分析，以检验分析师报告的文字内容是否传递增量信息。结果表明，在控制了定量信息的影响之后，分析师报告中前瞻性语句的情感与报告发布后的累积超额收益显著正相关，说明前瞻性语句向市场传递了增量信息。在文章的稳健性检验部分，采用伪前瞻性语句对主要结果进行了安慰剂检验，以排除窗口期内其他并发事件对本文结果的影响。

关于替换变量进行安慰剂检验的方法，还可参考以下文献：

[1] 沈坤荣, 周力. 地方政府竞争、垂直型环境规制与污染回流效应[J]. 经济研究, 2020, 55(03):35-49.-Link-
[2] 梁斌, 冀慧. 失业保险如何影响求职努力?——来自 “中国时间利用调查” 的证据[J]. 经济研究, 2020, 55(03):179-197.-Link-
[3] 郑新业, 王宇澄, 张力. 政府部门间政策协调的理论和经验证据[J]. 经济研究, 2019, 54(10):24-40.-Link-
[4] 马黎珺, 伊志宏, 张澈. 廉价交谈还是言之有据?——分析师报告文本的信息含量研究[J]. 管理世界, 2019, (07):182-200.-Link-
[5] 陈林, 万攀兵.《京都议定书》及其清洁发展机制的减排效应——基于中国参与全球环境治理微观项目数据的分析[J]. 经济研究, 2019, 54(03):55-71.-Link-
[6] 范子英, 赵仁杰. 法治强化能够促进污染治理吗?——来自环保法庭设立的证据[J]. 经济研究, 2019, 54(03):21-37.-Link-

4. 因果推断方法对应的安慰剂检验

工具变量：替换样本；
双重差分：改变政策发生时间与随机生成实验组；
断点回归：改变断点和查看控制变量是否有跳跃；
合成控制：将控制组看做实验组进行分析。

5. Permute命令

permute permvar exp_list [, options] : command

permvar : 需要进行随机抽样的变量，即 DID 中的，或交互项
exp_list : 需要提取的统计量，一般是回归系数
options 有以下设定：
- reps(#) : 抽样次数
- enumerate : 计算所有可能的不同排列
- rseed(#) : 设定抽样种子
- strara(varlist) : 分层抽样
- saving(file) : 保存抽样值
command : 回归命令

5. 1实例

该数据共有 17 个样本，按照 group 分为两组。我们假设 group = 1 是处理组，group = 0 是控制组。用 group 对 y 进行回归，可以发现两组之间存在显著差异。

. reg y group ------------------------------------------------------------------------y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------+----------------------------------------------------------------group |      5.288      2.306    2.294   0.037        0.374      10.202_cons |      3.545      1.370    2.588   0.021        0.626       6.465
------------------------------------------------------------------------

接下来，我们需要进行安慰剂检验，以检验该结论是否收到不可观测因素的影响。我们对 group 进行随机抽样，重复 500 次：

permute group _b[group], reps(500) rseed(123): reg y group

其基本结果如下：

Monte Carlo permutation results               Number of observations =  17
Permutation variable: group                   Number of permutations = 500Command: regress y group_pm_1: _b[group]--------------------------------------------------------------------------|                                               Monte Carlo error|                                              -------------------T |    T(obs)       Test       c       n      p  SE(p)   [95% CI(p)]
--------+-----------------------------------------------------------------_pm_1 |  5.287879      lower     491     500  .9820  .0059  .9661  .9917|                upper      10     500  .0200  .0063  .0096  .0365|            two-sided                  .0400  .0088  .0228  .0572
--------------------------------------------------------------------------
Notes: For lower one-sided test, c = #{T <= T(obs)} and p = p_lower = c/n.For upper one-sided test, c = #{T >= T(obs)} and p = p_upper = c/n.For two-sided test, p = 2*min(p_lower, p_upper); SE and CI approximate.

_pm_1 是我们的实际估计系数，即之前 OLS 的估计结果。Test 是指单侧检验还是双侧检验。可以看到，500 次抽样中，有 491 次的抽样估计结果小于 5.288，仅有 10 次大于 5.288 (有时候实际抽样次数相加不一定等于设定的抽样次数，但会十分接近)。

该结果说明在随机抽样的情况下，估计值大于 5.288 的概率仅为 2%，无疑是一个小概率事件。双侧检验的结果也显示，估计值的绝对值大于 5.288 的概率为 4%，同样是一个小概率事件。

通过上述操作，我们即可以推断出，不可观测的因素，OLS 估计结果受到不可观测因素影响的可能性较小。

5. 2 绘图

作为安慰剂检验的标志性动作，我们一般都会绘制一个估计系数的核密度分布图。我们同样也可以这么做：

. permute group beta = _b[group],  ///reps(500) rseed(123) saving("simulations.dta"):  ///reg y group

引入 saving 命令，将抽样估计系数保存到 simulations.dta 文件中。随后使用 dpplot 命令进行绘图。

use "simulations.dta", clear
#delimit ;
dpplot beta, xline(5.288, lc(black*0.5) lp(dash))xline(0, lc(black*0.5) lp(solid))xtitle("Estimator", size(*0.8)) xlabel(-8(4)8, format(%4.1f) labsize(small))ytitle("Density", size(*0.8)) ylabel(, nogrid format(%4.1f) labsize(small)) note("") caption("") graphregion(fcolor(white)) ;
#delimit cr
graph export "安慰剂检验.png", width(1000) replace

稍作修饰之后，下图就是很典型的安慰剂检验结果了。可以看到，估计系数分布在零的附近，且服从正态分布，符合安慰剂检验的预期。

在实际的 DID 应用中，大家可以将本文的 group 替换为 treat，或者是 treat 和 post 的交互项，这两种做法都是可行的。reg 命令也可以替换为 xtreg、reghdfe 等常用的估计命令，设置一系列固定效应等，permute 都可以完美兼容。