倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配
独家揭秘:
计量经济学的魅力与激情:陈强老师的高级计量现场班侧记(2019.5.1)
如何学好高级计量:探秘陈强老师的高级计量及Stata现场班(2019.10.1)
接上期推文,本期探讨倾向得分匹配的适用条件。
倾向得分匹配(PSM)
倾向得分匹配(Propensity Score Matching,简记PSM)是估计处理效应(treatment effects)的一种流行方法。考虑横截面数据,其中为结果变量(outcome variable),为处理变量(treatment variable,表示是否得到政策处理),而为一系列控制变量或协变量(covariates)。
作为一种匹配估计量(matching estimator),PSM依然使用反事实分析(counterfactual analysis)进行因果推断。考虑处理组的某位个体,我们希望找到控制组的某位个体,使得二者的特征最为接近,即;然后,将个体的结果变量作为个体若未受处理的反事实结果,故个体的处理效应可估计为(其中,为个体受处理的潜在结果)。
依次估计处理组每位个体的处理效应,然后进行简单算术平均,即为“处理组平均处理效应”(Average Treatment Effects on the Treated,简记ATT)。其中,在计算 与之间的距离时,由于受到量纲及变量波动幅度的影响,一般并不使用欧氏距离(Euclidean distance),而使用标准化的马氏距离(Mahalanobis distance)。
然而,由于 的维度通常较高,故可能不易在高维空间找到足够近的邻居;这是“维度灾难”(curse of dimensionality)的一种表现。而倾向得分匹配使用倾向得分(propensity score)作为一种降维工具。所谓“倾向得分”,就是每位个体进入处理组的概率,可通过将处理变量 对协变量 进行逻辑回归(Logit)来获得。
对于处理组的每位个体,寻找控制组中与其倾向得分最为接近的个体进行匹配,然后计算处理组的平均处理效应。在具体匹配方法上,可使用一对一或一对多,或在某个半径(caliper)内进行匹配,以及使用核函数(kernel function)作为权重进行整体匹配(global matching),在此不再赘述。
PSM的适用条件主要包括以下两个假定:
PSM1.1 可忽略性(Ignorability)。给定协变量,则潜在结果独立于处理变量 。
可忽略性的含义是,给定 ,则 对于分组变量 的影响可忽略。这意味着,在给定 的条件下,的取值可视为随机决定(as good as randomly assigned, conditional on ),故类似于“条件随机实验”(conditionally randomized trial)。在文献中,可忽略性的假定也称为“无混淆性”(unconfoundedness),“条件独立假定”(conditional independence assumption),或“依可测变量选择”(selection on observables)。
本质上,“适用条件PSM1.1”是一个很强的外生性条件。它意味着不存在未度量的“混淆变量”(confounder);即使有遗漏变量,也不与处理变量相关,故没有遗漏变量偏差。因此,原则上,也可以使用OLS估计平均处理效应。然而,若使用OLS,则不清楚是否应在回归方程中加入平方项、交互项或其他非线性项。而倾向得分匹配则可视为一种更稳健的非参数估计,尽管在其第一阶段使用Logit回归估计倾向得分时依然使用了参数方法。
很遗憾,可忽略性假定并不可检验。退而求其次,通常要求 应包含较为丰富的一系列协变量,以增大“依可测变量选择”成立的可能性。然而,即使包含很多变量,也仍可能遗漏某些关键变量,比如不可观测的个体能力,而个体能力可能同时影响潜在结果与处理变量。如果在理论上怀疑存在这种情况,则可忽略性假定可能不成立,故无法使用PSM。此时,需要寻找其他合适的方法进行因果推断,比如工具变量法、双重差分法或断点回归等。
PSM1.2 共同支撑(Common Support)。共同支撑假定也称为“重叠假定”(overlap assumption),即处理组与控制组的倾向得分取值有足够多的重叠区域,参见下图:
事实上,共同支撑假定只是进行PSM估计的最低要求。显然,如果处理组与控制组的倾向得分取值无重叠区域,则无法进行匹配。在某种意义上,共同支撑假定类似于OLS的“无严格多重共线性”(no strict multicollinearity)假定,只是对于数据的最低要求。在实践中,对于在共同支撑之外的观测值,可以直接删除。
PSM的Stata估计
在Stata中进行PSM估计,建议使用官方命令teffects psmatch,因为它可提供由Abadie and Imbens(2012)所提出的正确标准误,称为“AI Standard Errors”。早期流行的非官方命令psmatch2所提供的标准误并不正确,故无法进行有效的统计推断。有关PSM估计量的正确标准误,详见往期推文 倾向得分匹配:psmatch2 还是 teffects psmatch。
PSM的缺点及替代方法
倾向得分匹配将高维的协变量压缩为一维的倾向得分(且取值介于0与1),无疑损失了不少信息。PSM虽然可能使处理组与控制组的协变量分布更为平衡,但并没有保障;因为即使不同个体的倾向得分很接近,其协变量也可能相差较远。
为此,实证研究者在进行PSM估计后,也常进行“数据平衡检验”(data balancing test),即考察协变量在两组数据的均值是否在匹配后变得更为接近。在理论上,PSM的有效性并不依赖于匹配之后的数据平衡性;但若在匹配之后两组数据变得更为平衡,无疑可增强实证研究者的信心。
由于PSM在压缩数据时损失了信息(第一阶段的Logit回归设定也有一定主观性),且无法保证数据的平衡性,故PSM近年来面临越来越多的批评,以哈佛大学“大学教授”(university professor)政治学者Gary King为代表人物。
Gary King及其合作者提出另一匹配方法,即粗糙化精确匹配(Coarsen Exact Matching,简记CEM)。该方法将连续变量离散化,比如将教育年限分为小学以下、小学、初中、高中、大学、硕士、博士,然后使用此粗糙化的教育年限进行精确匹配,以保证处理组的小学毕业生一定匹配控制组的小学毕业生(若使用PSM则无此保证),以此类推。与PSM相比,CEM可能更有效率(使用了更多协变量的信息),且能保证数据的平衡性(通过预先设定粗糙化的程度),故在政治学等社会科学领域越来越流行,本号将在未来另文介绍。
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年(好评如潮的配套教学视频,可在网易云课堂购买)
陈强,《机器学习及R应用》,高等教育出版社,2020年,即将出版。
陈强,《机器学习及Python应用》,高等教育出版社,2020年,即将出版。
Upcoming Events
陈强老师亲授“高级计量经济学与Stata应用”2020年国庆节(10月1-6日)现场班占座开启,详情可点击页底“
魏老师
QQ:1143703950
Tel:010-68478566
Mail:vip@pinggu.org
We chat:13581781541
陈强老师简介
陈强,男,1971年出生,山东大学经济学院教授,数量经济学博士生导师。
分别于1992年、1995年获北京大学经济学学士、硕士学位,后留校任教。2007年获美国Northern Illinois University数学硕士与经济学博士学位。已独立发表论文于Oxford Economic Papers (lead article), Economica, Journal of Comparative Economics,《经济学(季刊)》、《世界经济》等国内外期刊。著有畅销研究生教材《高级计量经济学及Stata应用》与本科教材《计量经济学及Stata应用》,以及好评如潮的本科计量教学视频(网易云课堂)。2010年入选教育部新世纪优秀人才支持计划。
(c) 2020, 陈强,山东大学经济学院
www.econometrics-stata.com
转载请注明作者与出处
Our mission is to make econometrics easy, and facilitate convincing empirical works.
倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配相关推荐
- 倾向得分匹配的stata命令_培训对工资是否影响显著:倾向得分匹配法(PSM)及stata实现...
第一部分 模型背景 1.研究目的 2.基本思想 第二部分 数据介绍以及语法简介 1.数据介绍 2.语法格式 第三部分 案例讲解以及stata实现 1.变量介绍以及数据描述性统计 2.倾向匹 ...
- 莫兰指数stata命令_用R计算moran's I(莫兰指数)【笨办法学空间计量之一】
假设我们将要研究11个省市区从2010年到2016年的某项经济发展指标,原始数据经过数据预处理和特征加权后(这些步骤假定读者已经熟悉,不再赘述),我们得到如图1所示的数据. 图1.png 接下来的任务 ...
- 莫兰指数stata命令_【第六期】Regional Study 群日报
本期看点: 一.用MATLAB估计SLX模型 二.各省能源消费结构的计算问题 三.stata中DID共同趋势相关代码讨论 四.公式请教 五.Stata画莫兰指数散点图的命令 六.分析铁路影响的数据查找 ...
- nginx location 匹配 多个规则_后端程序员不得不会的 Nginx 转发匹配规则
一.正则表达式匹配 ~ 为区分大小写匹配 ~* 为不区分大小写匹配 !~ 和 !~* 分别为区分大小写不匹配及不区分大小写不匹配 二.文件及目录匹配 -f 和 !-f 用来判断是否存在文件 -d 和 ...
- stata 求输出相关系数矩阵命令_一文读懂结果输出命令大全(上)
目录 描述统计量 help tabstat //Stata 官方命令 描述统计量组间均值差异检验 help ttest help ttable2 help estout 相关分析命令 help p ...
- stata命令汇总_第九届高级计量经济学及stata应用研讨会在京顺利举办
二零一九,寒假佳时,近30余所高校的师生齐聚北京,参加了计量经济学服务中心举办的第九届"高级计量经济学及Stata应用"现场研讨班. 本届研讨班于2019年1月19日-1月22日在 ...
- stata中计算公式命令_#stata中哪个命令和stats命令等价#stata中计算命令
f的临界值在stata中怎么输入命令计算 stata怎么用命令计算有几个变量 dis `c(k)'可以看到数据中含有的变量的个数. 不过这个命令会把"股票代码"和"日期& ...
- stata最大值最小值命令_用Stata实现数据标准化
本文作者:杨慧琳 文字编辑:李钊颖 技术总编:高金凤 重磅!!!爬虫俱乐部将于2019年10月2日至10月5日在湖北武汉举行Python编程技术培训,本次培训采用理论与案例相结合的方式,旨在帮助零基础 ...
- 处理效应模型stata实例_【更新通知】手把手教你Stata软件操作与案例分析更新,速来!...
继3大政策效应评价方法.面板微观计量模型.空间计量模型.应用面板数据模型四大主题套餐后,手把手教你Stata系列课程推出多期DID.平行趋势检验系列专题. 该专题包含多期DID及平行趋势检验:双重差分 ...
最新文章
- 今天买书了《JavaScript 权威指南》英文版
- Xamarin iOS教程之申请付费开发者账号下载证书
- hibernate的Transaction接口理解
- 2.2.4 操作系统之作业/进程调度算法(FCFS先来先服务、SJF短作业优先、HRRN高响应比优先)
- 虚拟字符设备驱动开发步骤
- chrome插件中调用ajax,Chrome扩展程序中的Ajax调用无效
- 查找链表中倒数第k个结点(C++)
- 微软e5服务器,OFFICE365 E5调用api使E5开发者续订(不使用服务器)
- jQuery文档处理
- Solr安装及集成javaWeb
- C++ 超级玛丽制作揭秘(包含完整源文件与文档)
- 中国电信中国电信物联网开放平台-连接管理子系统 http返回为空
- h5 input 阴影_CSS3文本阴影 text-shadow
- ERROR: Command errored out with exit status 1
- QT:主页面全屏显示(根据显示屏分辨率调整主页面尺寸)
- 50 多个提高前端人效率的工具、网站和书籍整理
- 社会管理网格化 源码_全县首家镇域网格妇联——“和大王”社会治理网格化服务管理中心妇联正式成立!...
- 火影忍者379在线观看
- qt emit是什么意思_2020年11月12日 无赞赏QT吗哪 :一同站在福音之上的祷告同工...
- py3+requests+urllib+bs4+threading,爬取斗图图片
热门文章
- 讲讲大厂面试必考的假设检验
- 将您的基于 Accelerator 的 SAP Commerce Cloud Storefront 迁移到 Spartacus Storefront
- SAP Spartacus RouteReducer
- 如何自定义SAP Spartacus的路由路径
- Angular Reactive Form里的setNgReflectProperty
- 测试:abstract class不允许出现在Angular依赖注入框架的providers区域内
- Spartacus同SAP Commerce Cloud交互的示意图
- SAP Spartacus页面css类的赋值逻辑
- SAP Spartacus header区域布局设计
- 微信开发系列之十 - 在SAP C4C接收微信发送过来的服务请求回应