观察性研究和混杂因素

观察性研究:根据经验观察推断因果作用的研究,但不能采用有控制的试验, 也不能随机地分配处理。

举个例子:
关于加利福尼亚大学伯克莱分校的研究生入学中是否存在性别歧视的研究. 他们在观测数据中发现男生录取比例高于女生, 但是, 根据学生申请专业分层后, 发现女生的录取率略高于男生. 可见, 如果没有记录学生的报考专业数据, 或者不对此做调整, 就会产生完全错误的结论. 在这个例子中, 申请专业是研究性别对录取率影响的关键因素, 称为混杂因素, 忽略这样的因素会导致因果作用估计的偏差。
判断和确定哪些变量或因素是混杂因素的问题是因果推断中最基本和关键的问题.
判断和确定哪些变量或因素是混杂因素的问题是因果推断中最基本和关键的问题.
判别混杂因素的准则大致分为两大类: 可压缩性准则和可比较性准则.
可压缩性准则根据相关关系的度量定义混杂因素. 如果相关关系的度量受第三个变量的影响, 那么该变量为混杂因素.
可比较性准则是基于潜在结果模型来定义混杂偏倚和混杂因素. 如果暴露总体的潜在结果Y1Y_1Y1​和Y0Y_0Y0​的分布分别与非暴露总体的潜在结果的分布相同,则称暴露总体与非暴露总体是可比较的 (或称可交换的), 也称为无混杂偏倚. 在这种情形下暴露对结果的平均因果作用ACE=E(Y1)−E(Y0)ACE=E(Y_1)-E(Y_0)ACE=E(Y1​)−E(Y0​)等于暴露组与非暴露组观测结果的期望之差 E(Y∣X=1)−E(Y∣X=0)E(Y|X=1)-E(Y|X=0)E(Y∣X=1)−E(Y∣X=0)
混杂因素必须满足的两个条件
(1)VVV是一个独立因素.
(2)VVV在暴露总体与在非暴露总体中的分布不同.

可忽略性假定

可忽略性假定是观察性研究中判断混杂因素和推断因果作用最重要的假定.
(处理分配机制的可忽略性 (ignorability of treatment assignment mechanism)
令 VVV表示观测的协变量, 如果满足(i)(Y1,Y0)∐X∣V和(ii)0<pr(X=1∣V)<1(i)(Y_1,Y_0) \coprod X|V和(ii)0<pr(X=1|V)<1(i)(Y1​,Y0​)∐X∣V和(ii)0<pr(X=1∣V)<1那么称处理分配机制是可忽略的.
可忽略性假定中的条件(i)(i)(i)相当于在 VVV 的每一层做了随机化分配, 那么, 在 VVV 的每一层, 平均因
果作用是可识别的, 进而对 V 求期望可以得到总体的平均因果作用. 条件 (ii)(ii)(ii) 要求在 VVV 的每一层里
接受处理或对照的概率大于 0, 这是为了保证在每一层都能得到该层平均因果作用的相合估计. 在可忽略性假定下, 平均因果作用可通过以下公式识别:
E(Y1)−E(Y0)=E[E(Y1−Y0∣V)]=E[E(Y∣X=1,V)−E(Y∣X=0,V)]E(Y_1)-E(Y_0)=E[E(Y_1-Y_0|V)]=E[E(Y|X=1,V)-E(Y|X=0,V)]E(Y1​)−E(Y0​)=E[E(Y1​−Y0​∣V)]=E[E(Y∣X=1,V)−E(Y∣X=0,V)]
可忽略性假定解释了随机化试验和观察性研究的差别. 如果处理 XXX 没有随机分配, 而仅仅是可忽略性假定成立, 那么不对混杂因素进行调整, 就会导致混杂偏倚,

当协变量 V 的分布在处理组和对照组不均衡时, 该混杂偏倚一
般不为零, 因此在进行平均因果作用的统计推断时, 需要对协变量 V 做调整.
在可忽略性假定下, 多种统计推断方法可以用来估计因果作用. 例如,当 VVV 是一个有 KKK 个水平
的离散变量时, 可以先在 V 的每一层估计 ACEk=E(Y1−Y0∣V=k)ACE_k=E(Y_1-Y_0|V=k)ACEk​=E(Y1​−Y0​∣V=k)然后估计:
ACE=∑k=1KACEkpr(V=k)ACE= \sum^K_{k=1} ACE_kpr(V=k)ACE=k=1∑K​ACEk​pr(V=k)
但是, 当 V 是高维变量或连续型变量时, 按 VVV 的值将总体分层会导致每一层的样本太少, 增大估计的方差. 在这种情形下, 通常建立一些参数模型来估计因果作用.

倾向得分和匹配

为了消除协变量的分布在处理组与对照组之间的差异, 匹配 (matching) 方法经常用在观察性研究中. 匹配方法的目的是对每一个个体匹配一个具有相同或相近协变量取值的个体集合, 使得匹配得到的数据在处理组和对照组有相同的协变量分布, 然后根据匹配数据推断因果作用. 早期的匹配方法根据一个或几个协变量直接构造匹配集合,协变量维数较高, 难以决定根据哪些协变量构造匹配集合
这是会用倾向性匹配得分(Propensity score matching)根据一个
一维的倾向得分构造匹配集合, 目前已经是观察性研究中常使用的匹配方法.

定义:

倾向得分定义为条件概率π(V)=pr(X=1∣V)\pi(V)=pr(X=1|V)π(V)=pr(X=1∣V)

定理:

如果给定协变量 VVV 时可忽略性成立,即
YX∐X∣V且0<pr(X=1∣V)<1Y_X \coprod X|V 且0<pr(X=1|V)<1YX​∐X∣V且0<pr(X=1∣V)<1
那么,给定倾向得分π(V)\pi(V)π(V)时可忽略性也成立,即
YX∐X∣π(V)且0<pr{X=1∣π(V)}<1Y_X \coprod X| \pi(V) 且0<pr \{X=1| \pi(V)\} <1YX​∐X∣π(V)且0<pr{X=1∣π(V)}<1
因此, 可以利用倾向得分分层或匹配进行因果推断, 从而避免了用高维协变量 VVV 进行分层或匹配的困难. 给定样本中个体 i=1,...,ni = 1, . . . , ni=1,...,n,
个体iii根据倾向得分得到的匹配集合定义为:

其中δ{⋅}\delta\{·\}δ{⋅}是示性函数,当括号满足条件时,取值1,否则是0,M是整数,代表某一个个体的匹配数据个数.
平均因果作用匹配估计为:

如果在实际中不知道真实的倾向得分, 可以根据数据预先估计, 然后用估计得到的倾向得分做匹配. 常用的估计倾向得分方法包括 logistic 回归和决策树等机器学习方法
匹配方法还可以用来估计处理组的平均因果作用

在一定正则条件下, 可以证明匹配估计的相合性和渐近正态性.
在一定条件下, 使用倾向得分估计值进行匹配得到的平均因果作用估计的方差比使用倾向得分的真实值还小.

逆概加权估计和回归估计

除了匹配, 倾向得分还经常用在逆概加权估计 (inverse probability weighted estimation) 中. 给定可忽略性假定, 容易证明,

据此, 可以通过拟合一个倾向得分模型 π(V;α)=pr(X=1∣V;α)π(V ; α) = pr(X = 1 | V ; α)π(V;α)=pr(X=1∣V;α)来估计平均因果作用. 倾向得分模型满足相应的矩方程 E{X−π(X;α)∣V}=0E\{X − π(X; α) | V \} = 0E{X−π(X;α)∣V}=0, 因此可以用经典的方法, 如广义矩估计 (generalized method of moments, GMM) 来估计未知参数 ααα. 得到参数估计 α~\tilde{\alpha}α~ 后, 平均因果作用的逆概加权估计为

回归估计 (regression-based estimator) 需要建立一个对结果变量的回归模型,E(Y∣X,V)=m(X,V;γ)E(Y | X, V ) = m(X, V ; γ)E(Y∣X,V)=m(X,V;γ). 为了估计平均因果作用, 需要先估计该模型的参数. 注意到该回归模型满足矩方程 E{Y−m(X,V;γ)∣X,V}=0E\{Y − m(X, V ; γ) | X, V \} = 0E{Y−m(X,V;γ)∣X,V}=0, 可以用经典的估计矩方程的方法来估计未知参数 γγγ. 在得到参数估计 γ~\tilde{γ}γ~​后, 平均因果作用的回归估计为

双稳健估计

将回归估计和逆概加权估计结合起来,并具有双稳健性质: 只要回归模型和倾向得分模型中的一个模型正确, 那么双稳健估计就有相合性.
双稳健估计同时需要一个回归模型 m(X,V;γ)=E(Y∣X,V;γ)m(X, V ; γ) = E(Y | X, V ; γ)m(X,V;γ)=E(Y∣X,V;γ) 和一个倾向得分模型 π(V;α)=pr(X=1∣V;α)π(V ; α) = pr(X = 1 | V ; α)π(V;α)=pr(X=1∣V;α). 估计未知参数 (α, γ) 的方法如第 3.4 小节所述. 得到参数估计 (α~,γ~)(\tilde{\alpha},\tilde{γ})(α~,γ~​) 后, 平均因果作用的双稳健估计为

上式的第一行等于逆概加权估计, 第二行是对逆概加权估计的一个纠偏项, 由逆概的残差和回归估计构成. 如果倾向得分模型正确, 那么逆概加权估计有相合性, 并且当样本量增加时第二行中的纠偏项趋于零. 这是因为, 根据大数定律, 上式中的第三项收敛到

其中 γ∗=plimγ~γ^∗ = plim \tilde{γ}γ∗=plimγ~​, 表示当样本量趋于无穷时 γ~\tilde{γ}γ~​ 依概率收敛的极限值. 同理第四项也收敛到 0. 因此,
ϕdr~\tilde{ϕ_{dr}}ϕdr​~​ 在倾向得分模型 π(V;α)π(V ; α)π(V;α) 正确时有相合性. 注意, 当回归模型 m(X,V;γ)m(X, V ; γ)m(X,V;γ) 错误时, 上面的推导仍然成立.
等价于:

第一行是回归估计, 第二行是对回归估计的一个纠偏项. 如果回归模型正确, 那么回归估计
有相合性, 而且可以证明, 无论倾向得分模型正确与否,当样本量增加时 第二行中的纠偏项趋于零, 因此, 在回归模型正确时有相合性, 而不需要倾向得分模型正确.
综上,ϕdr~\tilde{ϕ_{dr}}ϕdr​~​ 具有双稳健性质. 相比于回归估计和倾向得分估计, 双稳健估计提供了更多减少估计偏
差的机会. 由于双稳健估计能有效地减小模型错误导致的偏差, 这种方法越来越广泛应用在缺失数据
分析和因果推断中.
但是要注意到, 当两个模型都不正确时,双稳健估计可能会比回归估计和逆概加权估计的偏差更大,当出现特别大或者特别小的倾向得分时, 偏差会被放大, 甚至出现不合理的估计结果. 例如, 对一个取 0 和 1 值的结果变量, 当两个模型都错误时, 双稳健估计可能会得到大于 1 的结果

【因果推断的统计方法】观察性研究和可忽略性相关推荐

  1. 【因果推断的统计方法】潜在结果模型

    潜在结果模型的主要内容包括:定义.推理.假设 潜在结果模型,核心假设-没有操纵就没有因果(No Causation without Manipulation) 定义1: ACE average cau ...

  2. 【因果推断的统计方法】综述与个人理解

    因果关系定义 首先探求事物之间的因果关系是各个领域研究的[终极奥义] Democritus 德谟克里特:发现一个因果关系胜于做国王 Bacon 培根:知识就是力量,真正的知识是根据因果关系得到的知识. ...

  3. 丁鹏:多角度回顾因果推断的模型方法

    来源:集智俱乐部本文约23000字,建议阅读20+分钟 本文整理自丁鹏老师的8篇短文,从多角度回顾了因果推断的各种模型方法. [ 导读 ] 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断 ...

  4. 多角度回顾因果推断的模型方法

    来源:AI干货知识库 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断的研究,始于约尔-辛普森悖论,经由鲁宾因果模型.随机试验等改进,到朱力亚·珀尔的因果革命,如今因果科学与人工智能的结合 ...

  5. 因果推断——现代统计的思想飞跃

    来源:数学文化"公众号 编辑:李达 审核:范杰.李祺垣 1 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考.比如,亚里 ...

  6. 因果推断—现代统计的思想飞跃:过去、现在到未来(伯克利丁鹏博士万字长文)...

    来源:专知本文约12400字,建议阅读10+分钟 本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景. 转载自<数学文化>2021/第 12 卷第 ...

  7. 质性研究工具_质性研究【001】

    袁长蓉  复旦大学 博士研究生导师课程 人类是追求意义的物种,会不断地从生活细节当中不断的归纳提炼,形成精神.形成理论抽象的概念,然后再利用这些概念,这些理论反过来,解释生活. 质性研究是由地到天的研 ...

  8. 因果推断1--基本方法介绍(个人笔记)

    目录 一.因果推断介绍 1.1 什么是因果推断 1.2为什么研究因果推断 1.3因果推断阶梯 1.4因果推断问题分类 二.因果推断理论框架 2.1 定义(这些定义后面会经常用到) 2.2 Assump ...

  9. 因果推断3--DRNet(个人笔记)

    目录 Learning Counterfactual Representations for Estimating Individual Dose-Response Curves 1介绍 2相关工作 ...

  10. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖

    [专栏:前沿进展]因果推断是当下人工智能.机器学习领域中的热门话题之一.在 11 月 26 日的青源 Talk 中,北京大学助理教授.青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝 ...

最新文章

  1. Python 安装selenium
  2. robotframework接口测试(二)—post request
  3. python游戏服务器引擎_KBEngine游戏服务器引擎环境配置
  4. 强化学习(四)用蒙特卡罗法(MC)求解
  5. Windows消息映射及消息发送(SendMess、PostMess)实现
  6. 钉钉新增“下班勿扰”功能:次日上班前不接受任何消息!
  7. 贺利坚老师汇编课程54笔记:SF符号标志SIGN FLAG
  8. SQL数据去重复 Distinct 和 row_number() over()
  9. Sql Server CHAR类型
  10. pandas读取与存储操作详解
  11. c语言封皮,C语言程序设计封皮.doc
  12. p50 p51 p52 p53
  13. AWS 云上安全最佳实践
  14. html ifrme 选择器,html中iframe/css样式设置,id,class选择器的使用规则等学习2019.9.2 08:00...
  15. 阿里云配置域名CDN加速
  16. 易經大意(1) 三和 韓長庚 著24
  17. 如何使用VBA从Internet下载文件
  18. 黑苹果:仅适用ASUS Z390-H主板(败家之眼)
  19. java 数组 未初始化_Java数组未保持初始化状态
  20. HTML5 Canvas圆盘抽奖应用DEMO演示

热门文章

  1. 为你的TabBar添加Badge-感谢分享
  2. openldap中的Mirror mode模式中的主主同步
  3. 爬取王者荣耀皮肤图片
  4. Apple HomeKit
  5. matlab 读取midi,matlab miditoolbox中的midi文件生成函数的改进
  6. 电力需求侧管理及智能电力监控技术在电子设备制造行业错峰限电中的应用
  7. Andriod 布局
  8. TCP-IP学习笔记11--无线通信- 无线通信的种类 点对点通信协议
  9. UWB技术的工作原理
  10. 计数器集成芯片+分析时序逻辑电路