本文是学习brady neal于2020年开设的因果推断课程Introduction to Causal Inference的记录

概述

本chapter主要分四个部分:

  1. 辛普森悖论
  2. 为什么相关性不是因果关系
  3. 什么展示了因果关系
  4. 在观测性研究中如何发现因果关系

1 因果推断的动机:辛普森悖论

1.1 辛普森悖论案例

辛普森悖论(Simpson‘s paradox)是广泛存在于统计学事件的一个现象,指的是分组下的统计表现与总体统计表现相悖。
这里举了一个例子,假设有一个新的疾病:COVID-27

有两种针对性的疗法TTT:A(0)和B(1)
以及病情症状CCC:轻微(0)或者严重(1)
可能的结果YYY:痊愈(0)或者死亡(1)
关于它的统计结果如下

此时我们会发现一个辛普森悖论,就是,忽略基数,只看人数,我们会发现总的来说使用A的死亡率更低,但是对每一个分组来说,又是使用B的效果更好。
对于总体的死亡率计算式如下

1.2 可能的解释

事实上,上述案例中TTT,CCC,YYY三者的关系,可以通过因果图(causal graph)来表示。

应该用怎样的因果图来表示呢?

这里对出现辛普森悖论的原因进行一些可能的解释

  1. 解释1
    从数据基数上看, 医生可能更愿意给重症患者使用B治疗方法,这可能是因为B的医疗资源更加紧缺。

    为什么B中的死亡人数更多, 是因为使用B的患者中重症患者的比例更高;而A更多地被用在症状较轻的病人身上。
    在这个解释中,病人的症状CCC是采取治疗方法TTT的一种主要的原因。
    则因果图如下

  2. 解释2
    也有可能是B是处方药,很稀少,要等待,而且等待会使得病情恶化。

    而接受治疗方法A,则可能不会对病情有影响,因此大部分的人在轻症阶段就得到了救治。
    在这个解释中,治疗方法TTT是导致病情CCC的一个原因。
    则因果图如下

2 相关关系≠因果关系

2.1 案例:穿鞋和头疼

单从数据关系上看,穿着鞋子睡觉的人很多醒来都头痛,穿鞋的人大多前天晚上喝了酒,而不穿鞋的人大多前天晚上没有喝酒,我们可以统计两组人中喝酒的人数中得出来这个结论。

我们知道头疼的原因不是因为穿着鞋睡觉,但是数据却告诉我们穿着鞋睡觉的人大多醒来的时候头疼。
这是因为穿鞋睡觉的组和不穿鞋睡觉的组在关键条件上(即睡前有无喝酒)不同,他们不具有可比性,所以这两个组不能直接说明因果关系。

我们把这个现象叫做混淆(confounding),这个词需要划重点

我们没有办法让喝醉酒的人必须把鞋脱了睡觉,也就是我们无法让两组完全一样,因此没有办法确定一个单独的因果关系。
事实上我们所观测到的结果是因果关系和混杂关联的组合。

2.2 相关关系≠因果关系!

我们虽然很清楚关联性和因果关系是不等同的,但还是习惯上会有认知偏见。

回到这个头疼的案例上,如果不是像这种非常明显与头疼无关的因素(如穿鞋),我们很有可能还是会习惯性的把头疼归因到这个因素上。
这是因为我们在现实生活中所作的推断可能收到我们信息认知的影响,或者是我们进行了有动机的推理。

再用一个具体的案例来说明相关关系与因果关系的不等同,比如

看了电影nicolas cage的人的统计数量,和水池里溺死的人的统计数量变化趋势一致


但是这两者,可能只是简单的统计关系而已。我们不可能因为一个人看了电影,就觉得他溺水的可能性上升。

3 什么是因果关系

3.1 Potential outcome

潜在结果,我们进行如下定义

定义了do算子,分别求解干预人吃药后的状态Yi∣do(T=1)Y_i|_{do(T=1)}Yi​∣do(T=1)​,以及不吃药的状态Yi∣do(T=0)Y_i|_{do(T=0)}Yi​∣do(T=0)​,并且分别记为Yi(1)Y_i(1)Yi​(1)和Yi(0)Y_i(0)Yi​(0)。
最理想的情况是Yi(1)=1Y_i(1)=1Yi​(1)=1和Yi(0)=0Y_i(0)=0Yi​(0)=0,这样可以直接计算出因果效应Yi(1)−Yi(0)=1Y_i(1)-Y_i(0)=1Yi​(1)−Yi​(0)=1。
但事实上,我们不知道对于一个人来说,如果不吃药,根本就不知道吃药会发生什么(反事实),反过来,吃了药,也不知道不吃药会发生什么。

3.2 Average treatment effect

所以我们希望通过多次观测来取平均Average treatment effect (ATE)。

3.3 randomized control trials

但是记得,correlation并不等于casual,中间存在了混杂
所以我们不能只看条件期望!
这里提出了一个新的方法:randomized control trials(RCTs)

对上面这个因果图,砍断CCC和TTT之间的联系,使得TTT的决定完全random,如使用硬币翻转,不能受到别的因果关系的影响。

此时ATE就可以计算了

E[Y(1)]−E[Y(0)]=E[Y∣T=1]−E[Y∣T=0]E[Y(1)]-E[Y(0)]=E[Y|T=1]-E[Y|T=0] E[Y(1)]−E[Y(0)]=E[Y∣T=1]−E[Y∣T=0]

4 观察性研究中的因果推断

4.1 计算方法

在观察性研究中,我们已经有了一个数据集。

我们无法进行随机的实验,因为有可能是不道德的,或者不可行的,或者是不可能的。

此时的解决方法是,砍断连接,即将

变成

在这个图里,w是c,在之后的例子里w会是更复杂的变量。
此时我们可以计算对于所有WWW的统计期望(边缘概率)
E[Y(t)∣W=w]≜E[Y∣do(T=t),W=w]=E[Y∣t,w]E[Y(t)|W=w] \triangleq E[Y|do(T=t),W=w] = E[Y|t,w] E[Y(t)∣W=w]≜E[Y∣do(T=t),W=w]=E[Y∣t,w]
变成
E[Y(t)∣W=w]≜E[Y∣do(T=t)]=EWE[Y∣t,w]E[Y(t)|W=w] \triangleq E[Y|do(T=t)] = E_WE[Y|t,w] E[Y(t)∣W=w]≜E[Y∣do(T=t)]=EW​E[Y∣t,w]

如果因果图条件很复杂,如下

可以做这样的隔断

也可以做这样的隔断,看起来更快

如果有一个像这样的结构,事实上上不需要控制Z2,这个在后面会讲,这里先打上一个问号。

4.2 案例

那么在刚刚那个COVID-27的例子上,我们也可以进行计算

上述causal项的计算,是基于第一种可能的因果结构

计算过程如下

这就比简单计算条件概率合理多了

so最后

参考阅读

  1. Introduction to Causal Inference

Introduction to Causal Inference:Chapter 1因果推断概论相关推荐

  1. 因果推断 | 因果关系推断-系列电子书资源

    因果推断 | 因果关系推断-系列电子书资源 不得不看的书! 00.『为什么』关于因果关系的新科学 <The Book of Why: The New Science of Cause and E ...

  2. 因果,因果推断,因果关系是什么?

    因果关系是什么? 当我们在问「为什么」的时候,我们在问什么? Shallow men believe in luck or in circumstance. Strong men believe in ...

  3. 因果推断笔记——工具变量、内生性以及DeepIV(六)

    文章目录 1 理论介绍 1.1 工具变量的三个条件 1.2 工具变量的效应估计 1.3 工具变量第四类条件:同质性 1.4 工具变量第四类条件:单调性 1.5 工具变量三个条件的剖析 1.6 一些对和 ...

  4. Causal Inference

    文章目录 Standardization 非参数情况 Censoring 参数模型 Time-varying 静态 IP weighting 无参数 Censoring 参数模型 censoring ...

  5. python 因果推断_因果推断书Causal inference:What if简介(附:因果推断书单推荐)...

    Causal Inference: What If 内容简介:本书由哈佛大学 Miguel Hernan.Jamie Robins 教授编著,对因果推理的概念和方法做了系统性阐述.该书在知乎等各大平台 ...

  6. 【因果推断与机器学习】Causal Inference: Chapter_1

    机器学习与因果推断 Chapter 1:the introduction of Causal Reasoning Introduction 机器学习算法越来越多的被应用到生活的方方面面,其中很大一部分 ...

  7. 耿直:统计学中的因果推断问题(Causal Inference)

    来源:量化研究方法 本文约3000字,建议阅读5分钟. 数学科学学院耿直老师为你介绍统计学中的因果推断问题. 今天,小编带来了数学科学学院耿直老师关于统计学中因果推断问题的介绍.文中介绍了几种分析因果 ...

  8. 推荐系统的因果推断:Causal Inference for Recommender Systems(RecSys,2020)

    文章目录 说明 1. 推荐和因果 2. 理论做法 2.1. 符号说明 2.2. 潜在结果下的矩阵分解 2.3. 忽略性假设 2.4. 经典因果推断 3. 去混杂因素推荐器 3.1. 曝光模型 3.2. ...

  9. 2020年因果推断综述《A Survey on Causal Inference》

    最近阅读了TKDD2020年的<A Survey on Causal Inference>,传送门,自己对文章按照顺序做了整理,同时对优秀的内容进行融合,如有不当之处,请多多指教. 文章对 ...

最新文章

  1. python官网怎么下载安装-Python怎么下载安装
  2. 快速崛起的物联网世界安全问题
  3. Zoom 5.1.2及旧版本在 Win7 上的 DLL 劫持漏洞分析
  4. 工具库用久了,你还会原生操作 Cookie 吗?
  5. 计算机逻辑运算进位,二进位数进行逻辑运算1010AND1001的运算结果
  6. 8 9区别 endnote7_EndNote_9__简明教程_中文版
  7. 全球创见者共话企业韧性 金蝶“数字员工”惊艳亮相
  8. was expecting double-quote to start field name错误
  9. PC客户端中的网页----问题集合(未完待续)
  10. 测试人跳槽~怎么说离职原因新的公司比较能接受?
  11. jzoj 4883. 【NOIP2016提高A组集训第12场11.10】灵知的太阳信仰
  12. openGauss数据库源码解析系列文章——存储引擎源码解析(四)
  13. CVE-2014-6271-bash shellshock-破壳漏洞复现
  14. Feedback Control of Dynamic Systems 7th
  15. JS实现简单的网页新闻无缝滚动
  16. HTML5期末大作业_影视网站设计——_指环王:护戒使者(13页) TML+CSS+JavaScript 学生DWHTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作
  17. 集成运算放大电路概述
  18. 【YooAsset】
  19. 什么蓝牙耳机好用又不贵?五款四百元内的耳机推荐
  20. SSM理发店会员管理系统

热门文章

  1. 云闪付持卡人认证信息失败_云闪付app注册登录常见问答
  2. js输出类面试题(四)
  3. jQuery已经是时代的眼泪了吗?
  4. eul 1.4.8 中文版 - mac必备菜单栏系统监控工具
  5. 试写一算法,自大至小依次输出顺序读入的三个整数X,Y和Z的值
  6. RDBMS和非RDBMS
  7. 项目选题报告(团队)
  8. 吉大2020-2021学年第二学期期末考试《工程力学》大作业
  9. android 选择视频文件 上传到后台服务器
  10. Exchange反压保护机制导致内部邮件传送延迟