CHAPTER2 in Most-Harmless-Econometrics

内容

《基本无害的计量经济学》第二章：理想实验

使用软件

STATA16 MP

理论

1. 选择性偏差

我们可以举一个非常简单的例子来表述因果关系，去医院能让人变得更加健康吗？
NHIS对上述问题进行过相关数据统计，下表给出了受调群众最近去过医院和没去过医院的人的平均健康状况。

可见两者之间的平均差距是0.72，那么这就可以说明去医院会使人的健康变得更糟糕吗？
这种简单的直接比较忽略了一个严重的问题：选择去医院的人的健康状况可能本来就很差。更进一步来说：那些去医院接受治疗的人
的健康水平可能还不如没去过医院的人，对于这些人或许不去医院会使其身体状况更差，即使经过医院治疗也不一定能赶上不去医院的人。

为了进一步描述上述分析中忽略的因素，可以把接受医院与否划分为一个虚拟变量：

潜在结果={Y1iifDi=1Y0iifDi=0潜在结果= \begin{cases} Y_{1i} \ \ \ if\ D_i=1 \\ Y_{0i} \ \ \ if\ D_i=0 \end{cases}潜在结果={Y1i if Di=1Y0i if Di=0

也就是说，如果某人没有去医院，那么他的健康状况是Y0iY_{0i}Y0i，如果假设这个人去过医院，那么他的健康状况将是Y1iY_{1i}Y1i，这两者之间的差异即可表示为某人在医院接受治疗对其健康状况产生的影响——因果效应。
最终观测到某人的潜在健康状态结果YiY_iYi可以用下述线性组合表示：
Yi={Y1iifDi=1Y0iifDi=0=Y0i+(Y1i−Y0i)DiY_i= \begin{cases} Y_{1i}\ \ \ if \ D_i=1 \\ Y_{0i} \ \ \ if\ D_i=0 \end{cases} =Y_{0i}+(Y_{1i}-Y_{0i})D_iYi={Y1i if Di=1Y0i if Di=0=Y0i+(Y1i−Y0i)Di
可见当Di=1D_i=1Di=1时，Y1i−Y0iY_{1i}-Y_{0i}Y1i−Y0i即表示个体去医院对健康的影响，对于不同的个体，其处理效应的大小也有所差异。但是，在现实生活中，同时观测到上述 Y1iY_{1i}Y1i 与 Y0iY_{0i}Y0i 几乎是不可能的。所以我们需要尽可能的观测同一类人去医院治疗和不去医院治疗对健康的影响。
下面的公式就将去医院接受治疗与否带来的对平均健康水平的差异与平均因果效应（average casual effect）联系在一起：
E[Yi∣Di=1]−E[Yi∣Di=0]=(E[Y1i∣Di=1]−E[Y0i∣Di=1])+(E[Y0i∣Di=1]−E[Y0i∣Di=0])E[Y_i|D_i=1]-E[Y_i|D_i=0]=(E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1])+(E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0])E[Yi∣Di=1]−E[Yi∣Di=0]=(E[Y1i∣Di=1]−E[Y0i∣Di=1])+(E[Y0i∣Di=1]−E[Y0i∣Di=0])
上式中 E[Y1i∣Di=1]E[Y_{1i}|D_i=1]E[Y1i∣Di=1] 表示接受住院治疗的人的平均健康水平，E[Y0i∣Di=1]E[Y_{0i}|D_i=1]E[Y0i∣Di=1]表示接受住院治疗的人未接受治疗前的健康水平，
E[Y0i∣Di=0]E[Y_{0i}|D_i=0]E[Y0i∣Di=0]表示没有接受住院治疗的人的平均健康水平。因此，上式中简单的比较结果 E[Yi∣Di=1]−E[Yi∣Di=0]E[Y_i|D_i=1]-E[Y_i|D_i=0]E[Yi∣Di=1]−E[Yi∣Di=0] 可以被分解为两个部分：
1.E[Y1i∣Di=1]−E[Y0i∣Di=1]E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]E[Y1i∣Di=1]−E[Y0i∣Di=1]表示处理的平均因果效应，它可以写为 E[Y1i−Y0i∣Di=1]E[Y_{1i}-Y_{0i}|D_i=1]E[Y1i−Y0i∣Di=1] 2. E[Y0i∣Di=1]−E[Y0i∣Di=0]E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]E[Y0i∣Di=1]−E[Y0i∣Di=0]即可表示为选择性偏误（selection bias），它表示接受治疗与不接受治疗的人，在被治疗前的健康水平的平均差异。
在上述例子中，我们发现简单的直接均值 E[Yi∣Di=1]−E[Yi∣Di=0]E[Y_i|D_i=1]-E[Y_i|D_i=0]E[Yi∣Di=1]−E[Yi∣Di=0] 比较会出现选择性偏误问题，事实上，在上述例子中选择接受治疗的人的+在治疗前的健康状态(E[Y0i∣Di=1]E[Y_{0i}|D_i=1]E[Y0i∣Di=1])可能会远低于不需要接受治疗的人的健康水平（E[Y0i∣Di=0]E[Y_{0i}|D_i=0]E[Y0i∣Di=0]）,因此会导致选择性偏误为负，这可能会使我们找到的因果效应 E[Yi∣Di=1]−E[Yi∣Di=0]E[Y_i|D_i=1]-E[Y_i|D_i=0]E[Yi∣Di=1]−E[Yi∣Di=0] 符号相反而与现实情况相反。所以，经济学中大部分实证研究的目的就是剔除这种选择性偏误。

2. 用随机分配解决选择性偏差

对DiD_iDi随机分配可以解决选择性偏差问题。这是因为随机分配DiD_iDi可以使其独立于YiY_iYi,考虑以下公式：
E[Yi∣Di=1]−E[Yi∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=1]E[Y_i|D_i=1]-E[Y_i|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] E[Yi∣Di=1]−E[Yi∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=1]
这也就是说，随机分配患者进行治疗得到的健康水平均值比较E[Y1i∣Di=1]−E[Y0i∣Di=0]E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0]E[Y1i∣Di=1]−E[Y0i∣Di=0]等同于因果效应。

举例

对于随机化研究方法比较著名案例之一是田纳西州师生比例改进计划（Tennessee Student Teacher Achievement Ratio Experiment，STAR）
。经济学家希望建立课堂规模（班级学生人数）与学生学习成绩之间的因果关系，但是教育学领域使用的数据大多数为非实验数据，这些数据表明课堂规模与学习成绩之间几乎没有联系，这可能是由于班级规模与学生特征有联系，从而大致选择性偏误不为0。
因此不能只简单的比较可观测数据（非随机）来考察两者之间的关系。STAR则通过随机实验跨越了这层障碍，这项实验设置三个处理组：13-17人的班级、22-25人的班级、22-25人的班级并配备一名全职助教，并将学生随机分配至这三组中。为了考察随机化分配是否成功，可以比较学生各个特征的组间均值。表2.1展示了相关特征以及学生成绩的组间均值情况。
由于随机化实验可以去掉选择性偏误。所以，可以通过对各个处理组的虚拟变量进行回归得到处理组与实验组之间的成绩差异。加入控制变量后的回归结果见表2.2。

表2.2指出，小班教学对学习成绩大概有5%的提升。

3. 对实验的回归分析

回归是研究因果关系的有利工具，假设因果效应对每个人的一样（为常数）：Y1i−Y0i=ρY_{1i}-Y_{0i}=\rhoY1i−Y0i=ρ,那么我们可以将一式写成：
Yi=α+ρDi+ηiY_i = \alpha + \rho D_i + \eta_i Yi=α+ρDi+ηi
其中，α\alphaα表示E(Y0i)E(Y_{0i})E(Y0i),ρi\rho_iρi表示Y1i−Y0iY_{1i}-Y_{0i}Y1i−Y0i,ηi\eta_iηi表示Y0i−E(Y0i)Y_{0i}-E(Y_{0i})Y0i−E(Y0i)。
对于上式，求条件期望可得：
E[Yi∣Di=1]=α+ρ+E[ηi∣Di=1]E[Y_i|D_i = 1]=\alpha +\rho + E[\eta_i |D_i =1]E[Yi∣Di=1]=α+ρ+E[ηi∣Di=1]
E[Yi∣Di=0]=α+E[ηi∣Di=0]E[Y_i|D_i = 0]=\alpha + E[\eta_i |D_i =0]E[Yi∣Di=0]=α+E[ηi∣Di=0]
E[Yi∣Di=1]−E[Yi∣Di=0]=ρ+E[ηi∣Di=1]−E[ηi∣Di=0]E[Y_i|D_i = 1]-E[Y_i|D_i = 0]=\rho + E[\eta_i |D_i =1]-E[\eta_i |D_i =0] E[Yi∣Di=1]−E[Yi∣Di=0]=ρ+E[ηi∣Di=1]−E[ηi∣Di=0]
其中，E[ηi∣Di=1]−E[ηi∣Di=0]E[\eta_i |D_i =1]-E[\eta_i |D_i =0]E[ηi∣Di=1]−E[ηi∣Di=0]可以简化为E[Y0i∣Di=1]−E[Y0i∣Di=0]E[Y_{0i} |D_i =1]-E[Y_{0i} |D_i =0]E[Y0i∣Di=1]−E[Y0i∣Di=0],即为选择性偏差。

Stata实证

这里展示上述例子中，表2.1的stata实现过程。
完整数据、stata do文件下载来自Mostly Harmless官网-krueger(1999)-webstar

clear all
set more off
eststo clear

导入数据

use webstar.dta, clear

生成变量

gen white_asian = (inlist(srace, 1, 3)) if !missing(srace)
label var white_asian "White/Asian"

计算学生测试成绩所处的分位数

local testscores "treadssk tmathssk treadss1 tmathss1 treadss2 tmathss2 treadss3 tmathss3"
foreach var of varlist `testscores' {xtile pct_`var' = `var', nq(100)
}
egen avg_pct = rowmean(pct_*)
label var avg_pct "Percentile score in kindergarten"

参考文献

安格里斯特, 皮施克. 基本无害的计量经济学: 实证研究者指南 / (美) 安格里斯特, (美) 皮施克著 ; 郎金焕, 李井奎译.[M]. 2012.

《Mostly Harmless Econometrics 》第二章：选择性偏误与随机实验相关推荐

【紫光同创国产FPGA教程】【第二章】LED流水灯实验及仿真
原创声明: 本原创教程由芯驿电子科技(上海)有限公司(ALINX)创作,版权归本公司所有,如需转载,需授权并注明出处(http://www.alinx.com). 适用于板卡型号: PGL22G/PG ...
第二章：华为VRP(理论+实验命令)
专业术语: 1.VRP(Versatile Routing Platform)通用路由平台 1.用户视图 2.系统视图一.VRP系统概述 1.什么是VRP? VRP是华为公司数据通信产品的通用操作系 ...
通信电子线路期末复习第一章和第二章上
写在前面:本文仅供个人学习使用.本课程授课教师为乐艳芬. 文章目录第一章绪论课后作业题第二章丙类谐振功率放大器 2.1小信号谐振放大器概述 2.2单谐振回路-LC谐振回路电容单位的换算计算 ...
期末复习、化学反应工程科目（第二章）
@Author:Runsen @Date:2020/6/25 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...
java第二章复习_JAVA第二章知识点
JAVA第二章知识点本章知识梳理 2.1 关键字 2.2 标识符 2.3 变量 2.4运算符 2.5 程序流程控制 2.6 方法 2.1 关键字关键字(keyword)的定义和特点定义:被ja ...
2020-08-07 光纤通信第二章知识点整理
目录 2.1 半导体激光器 2 2.1.1 激光原理的基础知识 2 2.1.2 激光激射条件 3 2.1.3 结构理论 4 2.1.4 典型分类 6 2.1.5 模式概念 7 2．1.6 基本性质 8 ...
java第二章_JAVA第二章知识点
JAVA第二章知识点本章知识梳理 2.1 关键字 2.2 标识符 2.3 变量 2.4运算符 2.5 程序流程控制 2.6 方法 2.1 关键字关键字(keyword)的定义和特点定义:被ja ...
Day1ps设计基础作业第一章第二章
Day1 ps设计基础作业第一章第二章 1.1工作区和工作流程 3种调整人像照片亮度的方式:1图像-调整-亮度/对比度,2图像-调整-色阶,3获取图像亮度+混合模式,通道(右下)按ctrl RGB的缩 ...
无线网络技术复习整理——第二章
目录第二章无线网络基础无线电频谱无线传输介质和方式损耗和衰落损耗衰减和衰减失真自由空间损耗噪声大气吸收多径折射多径传播衰落类型扩频复用和多址天线天线的分类天线的主 ...
html第二章课后选择题答案,心理学基础第二章课后习题
第二章一.单项选择题: ( )1.神经系统最基本的结构和功能单位是 . A. 树突 B．轴突 C．神经元 D．细胞体 ( )2.大脑左半球的受损会导致听觉性失语症,即病人不能理解口语单词. A. ...

《Mostly Harmless Econometrics 》第二章：选择性偏误与随机实验