倾向得分匹配的stata命令_计量方法的适用条件汇总（二）：倾向得分匹配

独家揭秘：

计量经济学的魅力与激情：陈强老师的高级计量现场班侧记(2019.5.1)

如何学好高级计量：探秘陈强老师的高级计量及Stata现场班(2019.10.1)

接上期推文，本期探讨倾向得分匹配的适用条件。

倾向得分匹配(PSM)

倾向得分匹配(Propensity Score Matching，简记PSM)是估计处理效应(treatment effects)的一种流行方法。考虑横截面数据，其中为结果变量(outcome variable)，为处理变量(treatment variable，表示是否得到政策处理)，而为一系列控制变量或协变量(covariates)。

作为一种匹配估计量(matching estimator)，PSM依然使用反事实分析(counterfactual analysis)进行因果推断。考虑处理组的某位个体，我们希望找到控制组的某位个体，使得二者的特征最为接近，即；然后，将个体的结果变量作为个体若未受处理的反事实结果，故个体的处理效应可估计为(其中，为个体受处理的潜在结果)。

依次估计处理组每位个体的处理效应，然后进行简单算术平均，即为“处理组平均处理效应”(Average Treatment Effects on the Treated，简记ATT)。其中，在计算与之间的距离时，由于受到量纲及变量波动幅度的影响，一般并不使用欧氏距离(Euclidean distance)，而使用标准化的马氏距离(Mahalanobis distance)。

然而，由于的维度通常较高，故可能不易在高维空间找到足够近的邻居；这是“维度灾难”(curse of dimensionality)的一种表现。而倾向得分匹配使用倾向得分(propensity score)作为一种降维工具。所谓“倾向得分”，就是每位个体进入处理组的概率，可通过将处理变量对协变量进行逻辑回归(Logit)来获得。

对于处理组的每位个体，寻找控制组中与其倾向得分最为接近的个体进行匹配，然后计算处理组的平均处理效应。在具体匹配方法上，可使用一对一或一对多，或在某个半径(caliper)内进行匹配，以及使用核函数(kernel function)作为权重进行整体匹配(global matching)，在此不再赘述。

PSM的适用条件主要包括以下两个假定：

PSM1.1 可忽略性(Ignorability)。给定协变量，则潜在结果独立于处理变量。

可忽略性的含义是，给定，则对于分组变量的影响可忽略。这意味着，在给定的条件下，的取值可视为随机决定(as good as randomly assigned, conditional on )，故类似于“条件随机实验”(conditionally randomized trial)。在文献中，可忽略性的假定也称为“无混淆性”(unconfoundedness)，“条件独立假定”(conditional independence assumption)，或“依可测变量选择”(selection on observables)。

本质上，“适用条件PSM1.1”是一个很强的外生性条件。它意味着不存在未度量的“混淆变量”(confounder)；即使有遗漏变量，也不与处理变量相关，故没有遗漏变量偏差。因此，原则上，也可以使用OLS估计平均处理效应。然而，若使用OLS，则不清楚是否应在回归方程中加入平方项、交互项或其他非线性项。而倾向得分匹配则可视为一种更稳健的非参数估计，尽管在其第一阶段使用Logit回归估计倾向得分时依然使用了参数方法。

很遗憾，可忽略性假定并不可检验。退而求其次，通常要求应包含较为丰富的一系列协变量，以增大“依可测变量选择”成立的可能性。然而，即使包含很多变量，也仍可能遗漏某些关键变量，比如不可观测的个体能力，而个体能力可能同时影响潜在结果与处理变量。如果在理论上怀疑存在这种情况，则可忽略性假定可能不成立，故无法使用PSM。此时，需要寻找其他合适的方法进行因果推断，比如工具变量法、双重差分法或断点回归等。

PSM1.2 共同支撑(Common Support)。共同支撑假定也称为“重叠假定”(overlap assumption)，即处理组与控制组的倾向得分取值有足够多的重叠区域，参见下图：

事实上，共同支撑假定只是进行PSM估计的最低要求。显然，如果处理组与控制组的倾向得分取值无重叠区域，则无法进行匹配。在某种意义上，共同支撑假定类似于OLS的“无严格多重共线性”(no strict multicollinearity)假定，只是对于数据的最低要求。在实践中，对于在共同支撑之外的观测值，可以直接删除。

PSM的Stata估计

在Stata中进行PSM估计，建议使用官方命令teffects psmatch，因为它可提供由Abadie and Imbens(2012)所提出的正确标准误，称为“AI Standard Errors”。早期流行的非官方命令psmatch2所提供的标准误并不正确，故无法进行有效的统计推断。有关PSM估计量的正确标准误，详见往期推文倾向得分匹配：psmatch2 还是 teffects psmatch。

PSM的缺点及替代方法

倾向得分匹配将高维的协变量压缩为一维的倾向得分(且取值介于0与1)，无疑损失了不少信息。PSM虽然可能使处理组与控制组的协变量分布更为平衡，但并没有保障；因为即使不同个体的倾向得分很接近，其协变量也可能相差较远。

为此，实证研究者在进行PSM估计后，也常进行“数据平衡检验”(data balancing test)，即考察协变量在两组数据的均值是否在匹配后变得更为接近。在理论上，PSM的有效性并不依赖于匹配之后的数据平衡性；但若在匹配之后两组数据变得更为平衡，无疑可增强实证研究者的信心。

由于PSM在压缩数据时损失了信息(第一阶段的Logit回归设定也有一定主观性)，且无法保证数据的平衡性，故PSM近年来面临越来越多的批评，以哈佛大学“大学教授”(university professor)政治学者Gary King为代表人物。

Gary King及其合作者提出另一匹配方法，即粗糙化精确匹配(Coarsen Exact Matching，简记CEM)。该方法将连续变量离散化，比如将教育年限分为小学以下、小学、初中、高中、大学、硕士、博士，然后使用此粗糙化的教育年限进行精确匹配，以保证处理组的小学毕业生一定匹配控制组的小学毕业生(若使用PSM则无此保证)，以此类推。与PSM相比，CEM可能更有效率(使用了更多协变量的信息)，且能保证数据的平衡性(通过预先设定粗糙化的程度)，故在政治学等社会科学领域越来越流行，本号将在未来另文介绍。

参考文献

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年(好评如潮的配套教学视频，可在网易云课堂购买)

陈强，《机器学习及R应用》，高等教育出版社，2020年，即将出版。

陈强，《机器学习及Python应用》，高等教育出版社，2020年，即将出版。

Upcoming Events

陈强老师亲授“高级计量经济学与Stata应用”2020年国庆节(10月1-6日)现场班占座开启，详情可点击页底“

魏老师

QQ：1143703950

Tel：010-68478566

Mail：vip@pinggu.org

We chat：13581781541

陈强老师简介

陈强，男，1971年出生，山东大学经济学院教授，数量经济学博士生导师。

分别于1992年、1995年获北京大学经济学学士、硕士学位，后留校任教。2007年获美国Northern Illinois University数学硕士与经济学博士学位。已独立发表论文于Oxford Economic Papers (lead article), Economica, Journal of Comparative Economics,《经济学(季刊)》、《世界经济》等国内外期刊。著有畅销研究生教材《高级计量经济学及Stata应用》与本科教材《计量经济学及Stata应用》，以及好评如潮的本科计量教学视频(网易云课堂)。2010年入选教育部新世纪优秀人才支持计划。

www.econometrics-stata.com

转载请注明作者与出处

Our mission is to make econometrics easy, and facilitate convincing empirical works.

倾向得分匹配的stata命令_计量方法的适用条件汇总（二）：倾向得分匹配相关推荐

倾向得分匹配的stata命令_培训对工资是否影响显著：倾向得分匹配法(PSM)及stata实现...
第一部分模型背景 1.研究目的 2.基本思想第二部分数据介绍以及语法简介 1.数据介绍 2.语法格式第三部分案例讲解以及stata实现 1.变量介绍以及数据描述性统计 2.倾向匹 ...
莫兰指数stata命令_用R计算moran's I(莫兰指数)【笨办法学空间计量之一】
假设我们将要研究11个省市区从2010年到2016年的某项经济发展指标,原始数据经过数据预处理和特征加权后(这些步骤假定读者已经熟悉,不再赘述),我们得到如图1所示的数据. 图1.png 接下来的任务 ...
莫兰指数stata命令_【第六期】Regional Study 群日报
本期看点: 一.用MATLAB估计SLX模型二.各省能源消费结构的计算问题三.stata中DID共同趋势相关代码讨论四.公式请教五.Stata画莫兰指数散点图的命令六.分析铁路影响的数据查找 ...
nginx location 匹配多个规则_后端程序员不得不会的 Nginx 转发匹配规则
一.正则表达式匹配 ~ 为区分大小写匹配 ~* 为不区分大小写匹配 !~ 和 !~* 分别为区分大小写不匹配及不区分大小写不匹配二.文件及目录匹配 -f 和 !-f 用来判断是否存在文件 -d 和 ...
stata 求输出相关系数矩阵命令_一文读懂结果输出命令大全（上）
目录描述统计量 help tabstat //Stata 官方命令描述统计量组间均值差异检验 help ttest help ttable2 help estout 相关分析命令 help p ...
stata命令汇总_第九届高级计量经济学及stata应用研讨会在京顺利举办
二零一九,寒假佳时,近30余所高校的师生齐聚北京,参加了计量经济学服务中心举办的第九届"高级计量经济学及Stata应用"现场研讨班. 本届研讨班于2019年1月19日-1月22日在 ...
stata中计算公式命令_#stata中哪个命令和stats命令等价#stata中计算命令
f的临界值在stata中怎么输入命令计算 stata怎么用命令计算有几个变量 dis `c(k)'可以看到数据中含有的变量的个数. 不过这个命令会把"股票代码"和"日期& ...
stata最大值最小值命令_用Stata实现数据标准化
本文作者:杨慧琳文字编辑:李钊颖技术总编:高金凤重磅!!!爬虫俱乐部将于2019年10月2日至10月5日在湖北武汉举行Python编程技术培训,本次培训采用理论与案例相结合的方式,旨在帮助零基础 ...
处理效应模型stata实例_【更新通知】手把手教你Stata软件操作与案例分析更新，速来！...
继3大政策效应评价方法.面板微观计量模型.空间计量模型.应用面板数据模型四大主题套餐后,手把手教你Stata系列课程推出多期DID.平行趋势检验系列专题. 该专题包含多期DID及平行趋势检验:双重差分 ...

倾向得分匹配的stata命令_计量方法的适用条件汇总（二）：倾向得分匹配

倾向得分匹配的stata命令_计量方法的适用条件汇总（二）：倾向得分匹配相关推荐

最新文章

热门文章