来源:量化研究方法

本文约3000字,建议阅读5分钟。

数学科学学院耿直老师为你介绍统计学中的因果推断问题。

今天,小编带来了数学科学学院耿直老师关于统计学中因果推断问题的介绍。文中介绍了几种分析因果关系的主要模型,并进一步介绍了混杂因素与工具变量、中间因素问题、多因素间的因果关系问题等统计学中的挑战性课题,最后指出,在人类的计算能力大幅度提高的今天,缺乏从数据中认知因果关系的方法,仍然是对人类求知之路的最大阻碍;对这一问题的研究将为各领域知识疆界的拓广提供重要的贡献。

因果推断

(Causal Inference)

耿直

北京大学数学科学学院

一个现象的出现总是伴随着另一个现象的出现,改变其中之一是否会导致另一个跟着变化?其答案取决于这两个现象之间仅有相关关系?还是有因果关系?自古以来,关于因果关系的研究一直吸引着人们去思考。在科学研究中,人们通过观察和实验发现自然规律、探索现象之间的因果关系是各种科学研究的最终目标。爱因斯坦认为“西方科学是建立在以因果律为基础的形式逻辑之上”。自1888年Galton提出了相关系数的概念以来,“涉及因果推断的问题自始就缠住了统计学的脚后跟”[1],1911年,Pearson提出用列联表分析因果关系,1921年,Wright提出路径分析模型,1934年,Neyman提出潜在结果模型,1935年,Fisher提出随机化试验方法,1974年,Rubin关于观察性研究提出虚拟事实模型,Pearl[2]和Spirtes等[3]提出因果网络图模型,图1给出了一个设想的关于肺癌的因果网络[4]。Freedman介绍了从相关关系研究到因果关系研究的发展过程。从观察获得的数据中发现,不同因素之间的因果关系是统计学和人工智能领域长期关注的科学难题。

图为关于肺癌的因果网络

Yule-Simpson悖论描述了一种与人们常识相悖的现象,一种药品对男性和女性都有效,但对人类无效。无因果关系的两个因素A和B可能会有相关关系,这个相关关系是由于其他因素C对它们共同影响所造成的,因素C称为混杂因素。混杂因素也可能会使原本有因果关系的两个因素变得互不相关。例如,设想有一种治疗某种病危患者的特效药,而且所有患者都服用了这种药,那么,会观察到服药的患者与不服药的正常人有相同的寿命,即服药与寿命不相关。判断是否存在混杂因素是因果推断的关键问题[6]。采用随机化试验,即给每个患者随机地分配治疗或处理方案,可以排除混杂因素。随机化试验是因果推断的最可靠方法,但随机化试验需事先确定哪个因素是原因,其目的是推断原因对结果的作用,而且在很多研究中不允许进行随机化试验。但是,根据观察性研究进行因果推断需要某种用数据不可证伪的假定[1]。通常,假定观察了足够多的变量,以致包含了所有的混杂因素。在观察性研究中,首先确定观测变量的集合,然后从中选择混杂因素是因果推断的两个关键步骤。当存在未知的或不可观测的混杂因素时,可以选择一个与原因变量相关,但不受混杂因素影响的变量称为工具变量,来消除混杂偏倚,而根据先验知识很难确保不受混杂因素影响。因此,确定和选择工具变量是另一个具有挑战性的研究课题。

图为提出随机化试验方法的英国统计学家Ronald Fisher(1890-1962)

在科学研究中,常探究原因影响结果的因果机制,原因A对结果B的直接作用有多大,而原因A通过中间因素C对结果B的间接作用有多大。给定中间因素C取相同值的条件下,根据A对B的作用来评价直接作用的方法可能会导致错误的结论。例如,给定接受新治疗与接受对照治疗的患者的中间因素血压C取相同值的病人并不是同一类病人,不具有可比性。为了保证可比性,Frangakis和Robin提出主分层方法,根据每个人的潜在中间因素(接受新治疗的血压和接受对照治疗的血压)将总体分层。但是,同一个人只接受一种治疗,因此,只能观测到一个血压,而不能两者兼得,导致主分层方法遇到了新的困难。

在科学研究中,人们常试图利用一个近期的或容易得到的中间指标来替代远期的或难以得到的终点指标。确定替代指标方法有基于条件独立性、主分层和因果图的准则。但是,采用这些准则可能会出现因素A对因素B有正作用,并且因素B对因素C也有正作用,而出现因素A对因素C 有负作用的现象,称为替代指标悖论或中间因素悖论[7]。近年来,很多专家对替代指标方法进行了争议。抑制心律失常能降低发生心脏骤停的可能性,曾将抑制心律失常作为评价治疗猝死药物的替代指标。美国批准了几种能有效抑制心律失常的药品,但是,经过长期追踪研究发现,这些药品不但没有降低心脏骤停的可能性,发而增加了可能性,这就是美国20世纪80年代发生的历史上最严重的药品灾难事件。在科学研究中,采用将一个复杂系统分解为各部分之组合的还原论方法和采用替代指标的方法的合理性都有待于从因果推断的角度进行审视。

图为美国统计学家Donald Robin,Robin教授,

将于今年9月全职赴清华大学丘成桐数学中心工作

基于相关关系的预测仅适用于学习样本和未来样本是同分布的情况。外部干预可能会改变变量之间的相关性和总体的分布。基于因果机制的预测方法建立因果模型,对未来外部干预的结果进行预测。基于因果关系的方法可以预测制止公鸡打鸣不会阻挡日出,因此,它比基于相关关系的预测方法更具有普适性。对于历史数据中未曾经验过的干预进行预测是一个具有挑战性的问题[4,8]。

目前,多因素之间因果关系研究主要采用Bayes网络模型。因果Bayes网络已经被广泛应用于多学科的研究中。在生物信息学研究中,使用小样本数据构建数千个基因的调控网络,这种高维小样本数据的网络结构学习同时具有计算复杂性和统计效率的问题。基于Bayes网络的因果推断注重从数据中挖掘因果关系,而仅仅从观察数据是否能发现因果关系的问题仍存在争论。根据观察数据和试验数据学习构建因果网络是一个具有挑战性的研究问题[2-4,9]。

一百年前发现了相关关系的数学描述,推动了人类对自然科学和人文社会奥秘的认知能力。20世纪计算机的出现使得人们的计算能力得到了飞跃,大大增强了数据分析的能力。当今,计算机网络和生物芯片等技术的出现,使得人们获得数据的手段更加丰富。尽管从数据中挖掘相关关系的方法研究发展迅速,但分析挖掘因果关系的方法还非常贫乏。“在过去的一个世纪中,许多发现被推迟是由于缺少描述因果的数学语言。”[2] 目前,在科学研究中妨碍人们认知自然科学和人文社会奥秘的一个最大障碍也许是缺乏从数据中认知因果关系的方法。人们在认知因果方法上的进步将提升人类更深层次地认知自然科学和人文社会奥秘的能力。因果推断领域向统计学、机器学习和人工智能提出了各种具有挑战性的重要研究问题,其中包括基于观察数据评价因果作用的方法,探究直接作用和间接作用等因果机制的方法,基于因果模型对外部干预进行预测的方法,从高维数据、混合类型数据、多源数据、时间序列数据、不完全数据及含隐变量等复杂数据中挖掘因果关系和因果网络的方法等。

注释:

[1] Holland P W. Statistics and causal inference. J. Am. Statist. Ass. , 1986, 81:945-970.

[2] Pearl J. Causality: Models, Reasoning, and Inference. 2nd ed. Cambridge: Cambridge University Press, 2009.

[3] Spirtes P, Glymour C, Scheines R. Causation, Prediction, and Search. 2nd ed. New York: MIT Press, 2000.

[4] Guyon I, Aliferis C, Cooper G, et al. Causation and prediction challenge. Proceed. J. Mach. Learn, Res. 2008, 3.

[5] Freedman D. From association to causation: Some remarks on the history of statistics, Statistical Science, 1999, 14:243-258.

[6] Greenland S, Robins J M, Pearl J. Confounding, and collapsibility in

causal inference. Statistical Science, 1999, 14:29-46.

[7] Ju C, Geng Z, Criteria for surrogate endpoints based on causal distributions, J. Royal Statist. Soc. B, 2010, 72:129-142.

[8] Heckman J J. Econometric causality. Internat. Statist. Review, 2008, 76:1-27.

[9] http://jmlr.csail.mit.edu/papers/topic/causality.html.

本文转载自公众号量化研究方法,来源:通识联播,作者:耿直,本文原载于《10000个科学难题信息科学卷》,北京:科学出版社,2011,第647-650页。

编辑:文婧

耿直:统计学中的因果推断问题(Causal Inference)相关推荐

  1. 【经典书】统计学中的因果推断

    来源:专知 本文为书籍介绍,建议阅读5分钟 本文为你介绍统计学中的因果推断. Causal Inference in Statistics: A Primer一书的分享解读主要被分为四个部分: 第一部 ...

  2. 推荐系统的因果推断:Causal Inference for Recommender Systems(RecSys,2020)

    文章目录 说明 1. 推荐和因果 2. 理论做法 2.1. 符号说明 2.2. 潜在结果下的矩阵分解 2.3. 忽略性假设 2.4. 经典因果推断 3. 去混杂因素推荐器 3.1. 曝光模型 3.2. ...

  3. python 因果推断_因果推断书Causal inference:What if简介(附:因果推断书单推荐)...

    Causal Inference: What If 内容简介:本书由哈佛大学 Miguel Hernan.Jamie Robins 教授编著,对因果推理的概念和方法做了系统性阐述.该书在知乎等各大平台 ...

  4. 因果推断(二)-Causal effect 因果效应推理

    1.因果效应推理定义 套用一个发券和购买转化率的关系,已知发优惠券与购买转化率有因果关系,发优惠券是因,购买转化率是果,我们想知道,当发券的情况下,购买转化率会增加多少? 2.因果效应推理估计对象 估 ...

  5. 因果推断 | 因果关系推断-系列电子书资源

    因果推断 | 因果关系推断-系列电子书资源 不得不看的书! 00.『为什么』关于因果关系的新科学 <The Book of Why: The New Science of Cause and E ...

  6. 现代统计的思想飞跃,因果推断!

    丁鹏 | 作者 雷博文.孔令仁 | 编辑 <数学文化>2021/第 12 卷第 2 期 | 来源 1. 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充 ...

  7. 因果推断——现代统计的思想飞跃

    来源:数学文化"公众号 编辑:李达 审核:范杰.李祺垣 1 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考.比如,亚里 ...

  8. 因果推断—现代统计的思想飞跃:过去、现在到未来(伯克利丁鹏博士万字长文)...

    来源:专知本文约12400字,建议阅读10+分钟 本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景. 转载自<数学文化>2021/第 12 卷第 ...

  9. 丁鹏:多角度回顾因果推断的模型方法

    来源:集智俱乐部本文约23000字,建议阅读20+分钟 本文整理自丁鹏老师的8篇短文,从多角度回顾了因果推断的各种模型方法. [ 导读 ] 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断 ...

最新文章

  1. 小程序 reduce_使用reduce制作的10个更多实用程序功能
  2. 好看的html导航栏作品,精选10款超酷的HTML5/CSS3菜单
  3. java 对象 输出
  4. CodeForces - 1534E Lost Array(bfs+交互)
  5. 2021年江苏高考各科成绩查询,江苏2021年高考总分及各科分数
  6. android申请权限一次性申请多个,android 6.0以上动态一次申请多个权限-最美解决方案...
  7. 世界上覆盖范围最广的计算机网络是 ( ),世界上覆盖范围最广的计算机网络是()。...
  8. DeepLearningAI 学习笔记 1.3 浅层 logistic 神经网络
  9. UnicodeEncodeError:#39;ascii#39;编解码器无法在位置20编码字符u#39;\\ xa0#39;:序数不在范围内(128)
  10. PHP100视频教程(2012-2013版)下载地址及密码
  11. 极光笔记|极光推送在APICloud平台的使用教程
  12. 最难学的十大编程语言,C++排第二,它竟是第一名!不服
  13. 【微信小程序系列】微信小程序超简单教程,基本语法,获取用户基本数据信息,实现对云数据库的增删改查及小程序外部api的引用示例(附源码)
  14. html文件引用.vue 文件的方式
  15. 2021-09-22 WPF上位机 23-动态图形
  16. 【LSSVM回归预测】基于matlab灰狼算法优化最小支持向量机GWO-LSSVM数据预测【含Matlab源码 2259期】
  17. IO流 | IO流的应用举例
  18. 充电宝哪个品牌的更实用更安全?安全的充电宝推荐
  19. 论文笔记之Soft Q-learning
  20. 计算机病毒主动传播途径,蠕虫病毒的传播方式是什么

热门文章

  1. 实现Java Socket 客户端服务端交互实例
  2. python——def自定义函数的应用
  3. 福布斯:2016年物联网预测和市场估算总结
  4. 解决AndroidStudio导入项目卡在gradle加载界面
  5. 《剑指offer》写一个函数,求两个整数之和,要求在函数体内不得使用+、-、*、/四则运算符号。...
  6. Velocity Toolbox
  7. php中使用mysql_fetch_array输出数组至页面中展示
  8. 超时时间已到。在操作完成之前超时时间已过或服务器未响应
  9. MVVM设计模式之精髓简化
  10. netBeans开发j2ME入门一些资源