图灵奖得主珀尔 | 在大数据、概率之外，我们仍需要问因果关系的相关问题

　　大数据，让我们得以“偷懒”，但因果推理是人类思想中不可或缺的组成部分，应该对其进行形式化和算法化处理，得以实现人类水平的机器智能。

Pearl 描述了一个因果推理的三级结构，把因果信息按其能够回答的类型进行分类。该分类形成了一个三层的层级结构，某层的问题，只有在获取不低于该层信息时，才能够被回答。

我们为什么要关注世界或时间的本源与原因呢？其中一个原因是纯粹的科学好奇心：我们想了解世界，而了解的一部分需要找出它隐藏的因果结构。但同样重要的是，我们不仅是世界的被动观察者：我们还有主观能动性。

我们想知道如何有效地干预世界，以防止灾难和促进福祉。

光有良好的意图是不够的，我们还需要深入了解自然的馈赠和其力量是如何由因果关系连接起来的。因此，如果我们要理解如何获得成功，最终必须要去理解这个世界的运转的因果。

两年前，图灵奖得主朱迪亚珀尔Judea Pearl在北京，分享了其继贝叶斯定理后，在人工智能上新方向——因果关系的研究主题演讲。这次的演讲，表明珀尔的研究方向已经发生了重大调整。

珀尔指出数据科学正在从当前以数据为中心的范式向以科学为中心的范式偏移，解释了他理解中的因果科学相关新逻辑和推理引擎的思想脉络。

朱迪亚·珀尔 Judea Pearl

To Build Truly Intelligent Machines, Teach Them Cause and Effect。

——Judea Pearl

20 世纪 80 年代，朱迪亚珀尔开发并倡导了AI 的概率方法，被称为贝叶斯网络之父。

近年，为实现强人工智能的愿景，Pearl 脱离主流 AI 研究社区，提出一套因果的数学语言和理论，引领了正在席卷各个学科的”因果革命“。他最引以为傲的工作是 “The fundamental law of counterfactuals（反事实）。”

【以下是整理的关于主题演讲的报告论文】

在报告中，Pearl 首先介绍了一场正在改变数据科学的新革命 —— “因果革命“。

因果革命和以数据为中心的第一次数据科学革命，也就是大数据革命（涉及机器学习，深度学习机器应用，例如Alpha-Go、语音识别、机器翻译、自动驾驶等等）的不同之处在于，它以科学为中心，涉及从数据到政策、可解释性、机制的泛化，再到一些社会科学中的基础概念信用、责备和公平性，甚至哲学中的创造性和自由意志。因果革命彻底改变了科学家处理因果问题的方式。

图1：Pearl 关于数据科学本质的洞见

　　因果革命中，数据科学的任务被重新分成了三类：预测, 描述和反事实预测。

　　哈佛大学教授 Gary King盛赞了这场因果革命，它指出“过去三十年关于因果理论的进展超过了人类前面积累的总和。”

（一）什么是因果科学?

　　当前曲线拟合的机器学习和深度学习取得了巨大的成功，为什么需要研究因果？Pearl 在2019年接受 Lex Fridman 访谈时提到 “Everything starts with the question: What is the research question? ”。

　　Pearl 在这次的报告中，则用了几个统计学中的经典例子。第一个问题是：“锻炼身体是否能够有利于健康？”见下图，x轴表示运动时间，y轴表示胆固醇水平。

图2：锻炼是否有利于健康？

　　一方面，在图2（左）中，可以看大每个年龄组中都出现了向下的趋势，表明运动可能的确有降低人体胆固醇水平的效果；另一方面，在图2（右）中，同样的散点图并不依据年龄对数据进行分层，那么我们就会看到一个明显向上的趋势，这表明运动得越多，人体胆固醇水平就越高，这种矛盾在统计学中被成为辛普森悖论。

Pearl 介绍的另外两个例子，一个是关于“药物”、“性别”、“死亡率”的研究问题：“药物有效果吗？” 另外一个是关于“疫苗”、“天花”、“死亡率”的研究问题：“疫苗有效果吗？”

　　这几个例子共同说明了数据可能对你讲出两个不同的故事。如果信息发生了一些变化，得到的结论就可能是不一样的。更加准确地来说，这几个例子本质上是要回答因果问题，仅有数据信息而没有先验因果关系信息的时候，就可能得出与关注研究的问题相互矛盾的答案。回答因果问题需要因果信息。

Pearl 在这次报告中指出，因果科学始于因果问题，因果科学研究如何回答因果问题。什么是因果问题呢？他举了几个简单的例子：

1. 给定的治疗方法在预防疾病方面效果如何？

2. 是新的减税政策导致销售额上升吗？还是我们的营销活动？

3. 肥胖引起的年度医疗保健费用是多少？

4. 雇佣记录可以证明雇主犯了性别歧视吗？

5. 我即将辞职，我会后悔吗？

　　他解释到，上面这五个因果问题，因为这些问题都包含着不对称信息，所以无法用现在标准的科学语言，也就是具备对称性的数学公式来描述。相对于“=”表示对称信息，他用箭头 → 表示非对称信息，见下图：

图3：对称 VS 非对称

　　在过去的30年中，Pearl 和他的同事找到了非对称性的表达工具。他认为因果科学是回答因果问题的逻辑和工具，也就是推理引擎。

通俗来说它有三个输入，包括我们想知道什么、我们已经知道什么和可用数据，以及作为输出的两类关注问题的答案：a) 现在某个行动会有什么结果？ b) 过去换个选择会有什么不同的结果？

　　因果推理是人类思想中不可或缺的组成部分，应该对其进行形式化和算法化处理，以实现人类水平的机器智能。Pearl 描述了一个因果推理的三级结构，把因果信息按其能够回答的类型进行分类。该分类形成了一个三层的层级结构，某层的问题，只有在获取不低于该层信息时，才能够被回答。

a) 三个因果层级

图4：三个因果层级

　　第一层是关联（Association），它涉及由数据定义的统计相关性。大多数机器学习系统围绕这一层运行。

　　第二层是干预（Intervention），不仅涉及到能看到什么，还涉及一个干预或行动将会导致什么结果。作为例子，Pearl 提了一个问题：“如果我们把价格翻倍，将会发生什么？”

　　第三层是反事实（Counterfactual），是对以前发生的事情的反思和溯因，解决的是“如果过去作出不一样的行为，现在的结果会有何不同？”的问题。

　　顶层也就是反事实层，是功能最强大的层次，如果我们有一个可以回答反事实问题的模型，那么我们也可以回答有关干预和观察的问题。

例如，干预问题：What will happen if we double the price? 可以通过反事实问题来回答：What would happen had the price been twice its current value? 同样，一旦我们回答了干预问题，就可以回答关联问题。我们只是忽略了干预动作部分，而是让观测取代了。但是在相反的方向上，干预问题不能仅凭观测信息（也就是统计相关性）回答，涉及反思和溯因的反事实问题也不能仅用从随机对照实验中获得的干预信息来回答。

　　反事实是科学思维以及法律和道德推理的基础。举个例子，在法庭判定被告是否应该负法律责任的时候，判定有罪的一个依据是 ——“若非”被告的行为，损失就很可能不会发生(For example, in civil court, a defendant is considered responsible for an injury if, but for the defendant's action, it is more likely than not the injury would not have occurred)。"若非" 的计算含义要求将现实世界与被告未发生某行为反事实世界进行比较。用个更通俗的例子来讲，已知的事实是"一个人吃了药死了"，对应的一个反事实问题是“如果此人没有吃药，不死的概率是多少？”

Pearl 在报告中指出，理解因果推理需要抓住一个窍门，那就是区分 seeing 和 doing 的不同，一个简单例子就是某个便利店中”观测到某商品的价格翻倍“和“店主强制让某商品价格翻倍”存在区别。Pearl 发明了 do 算子来数学化表示干预或行为，有了它我们能用数学公式区分 seeing 和 doing：

表1：从统计模型到因果模型，再到物理模型

　　可以看到统计模型只有关联层的信息，所以只能回答相关性问题，而不能回答干预问题和反事实问题。

基于图的因果贝叶斯网络因果只有干预层的信息，所以只能回答干预和关联层的问题，而不能回答反事实问题。最后基于结构的因果模型，它的能力最接近物理模型，三个层级的问题都能够回答。

b) 因果推理引擎

Pearl 提出了一套基于结构的关于因果的数学语言和理论，作为因果科学是回答因果问题的推理引擎，该引擎的特点是 “Knowledge in, Knowledge out, Data in between”，而基本出点是因果推理的两大基本定律：

图5：因果推理的两大基本定律

　　他指出第一个定律是关于反事实的信息，可以推演出需要使用函数来刻画变量之间的因果关系，而第二个定律刻画了因果图结构，因果图上每个每条缺失的边都意味着在给定某些变量下的条件独立性，可用它做模型检验，结构学习和因果问题的符号演算。他以这两大基本定律为出发点，发展出了被称为结构因果模型(SCM)的数学框架，该框架能够回答三个层级的因果问题。

在如下的例子中，模型用函数关系表示，而因果图上的缺失的边 CW 和 SR 都意味着给定某些变量之下的条件独立性。

图6：一个简单结构因果模型

　　现代因果建模工具的发展已对所有数据密集型科学（尤其是社会科学和流行病学）产生了变革性的影响，其中因果图已成为它们的第二语言。在这些学科中，因果图模型帮助科学家从观测数据中提取因果关系，并解构了困扰研究人员数十年的悖论。

　　我们根据 Pearl 的论文补充说明因果科学的推理引擎，它由三个部分组成：图模型，结构方程以及反事实和干预逻辑。

图模型是一种语言，用于表示 Agent 对世界的了解。反事实帮助他们阐明他们想知道的事情。结构方程将两者以扎实的语义联系在一起。该推理引擎将假设（以图模型的形式）、数据和 Query 作为输入。

图7：SCM推理引擎如何结合数据和因果模型回答因果问题

SCM推理引擎存在三个输出：

　　估计式(Estimand) 是关注的查询(Query)的某个概率表达式，表示在已有模型假定下计算 Query 的一种方法；

Estimate 是用某种统计方法和已有数据对 Estimand 概率表达式的估计；

　　一组拟合指标（Fit Indices）用于衡量数据与假设的兼容程度。

　　第一个输出是较难理解的，如果已有模型假定下某 Query 无法回答，也就是没有对应的 Estimand，则称该 Query 为“不可识别”，Pearl 的 do-calculus 就是判断 Query 是否可识别的一个完备的演算工具。Pearl 仅用抽象的方式描述了这个推理引擎，关于该引擎如何回答因果问题，如何解决数据科学中的混杂偏差。

（二）因果推理的七个工具

　　Pearl 概述了通过因果科学的推理引擎完成七个任务以及每个任务中使用的工具，并讨论了每个工具对自动推理技术的独特贡献。下面是因果智慧的七大工具：

Tool 1. Encoding causal assumptions in transparent and testable way.

Tool 2. Predicting the effects of actions and policies.

Tool 3. Computing counterfactuals and finding causes of effects (attribution, explanation, susceptibility).

Tool 4. Computing direct and indirect effects (Mediation) (discrimination, inequities, fairness)

Tool 5. Integrating data from diverse sources (external validity and selection bias).

Tool 6. Recovering from missing data.

Tool 7. Discovering causal relations from data

　　第一个工具就是使用因果图透明的编码了因果知识，使用 d-分离图准则下的条件独立性来检验因果结构先验假设。Pearl 给出了 Shrier 和 Platt 于 2008 年提出的运动医学领域的简单例子（热身对于运动损伤的影响），在这个例子中变量之间相互如何相互影响被透明的表示了出来，变量之间因果关系的确定可以基于合理的事实，它能用 d-分离图准则下的条件独立性来检验。

图8：一个因果图模型实例

　　第二个工具就是使用 Do-Calculus 定义和回答干预层的因果问题，这些问题包括计算某个行为，干预或策略产生的因果效应。继续看热身对于运动损伤的因果效应例子，我们需要选择哪些变量作为控制变量呢？是不是控制变量越多越好呢？Pearl的回答是，一定不要控制变量 Z3(也就是Previous Injury), 否则下图的因果路径（加粗）会被联通，造成混杂偏差，不能正确估计回答该因果效应的问题，正确的做法是控制变量 Z1, Z2 。

图9：Do-Calculus 确定控制变量

　　第三个工具是计算反事实，找出某个结果的原因。我们要去找到事件结果的原因，我们要进行归因，进行解释。反事实是科学思维以及法律和道德推理的基础，例如，反事实问题 “一个人吃了药死了，如果此人没有吃药，不死的概率是多少？”的答案是法律责任判定中的重要依据。

图10：反事实概率回答归因问题

　　第四个工具是中介分析。直接（间接）因果效应是指一个变量对另一变量的既定影响在多大程度上是直接的（间接的），这是许多不同学科都关注的一类重要因果问题，它们可用 Pearl 的推理引擎解决。

这一工具现在也被用于判断「歧视」、「不公正的做法」、「不公平现象」，我们要讨论人工智能和机器学习领域中的公平性问题时，我们必须考虑中介效应，Pearl 给出了一个雇主是否有性别歧视的例子，也就是回答如何用数据判断雇主是否用性别决定录用员工与否的问题。

图11：中介分析回答性别歧视与否问题

　　第五个工具是泛化和数据融合。它的基本问题关于如何融合分布不同的实验性研究或观测性研究，Pearl 及其学生 Elias Bareinboim 提出一个解决此任务的框架，这是 Pearl 在文中称因果建模工具能够帮助解决 AI 应用中鲁棒性或适应性的原因。

Pearl 在报告中用一个例子简单的讲解了一下基本思路，首先把数据源的数据类型(观测/RCT)和其他特点用图表(上)列出来，然后转化称对应的因果图(下)，其中图中 S 节点标记了数据源的 S 指向变量有差异。这样就可以用因果建模工具综合不同数据源，回答关注总体的感兴趣因果问题，其详情见文献[7]

图12：因果推理解决多源数据集融合问题实例

　　第六个工具是从缺失数据恢复。由于缺少数据而导致的问题困扰着实验科学的每个分支，所有的数据都会有一个缺失值的问题，它本质是一个因果问题。实际上建立一个缺失数据因果模型之后，可以用因果推理引擎判断和实现从缺失数据下的所关注问题的推断。

图13：缺失数据问题本质是因果问题

　　第七个工具是因果发现。因果发现就是要去寻找一系列的模式或者图结构，能够与数据相兼容的，同时能够进行简洁的表示。当前从数据中得到因果结构的因果结构学习，不仅要学习因果结构，还要学习从数据中直接得出哪些变量是因果变量的因果表示学习，这已经成为了当前一个热点研究课题，Pearl 在文献中提出了为 AI 提出小图灵测试作：

How can machines represent causal knowledge in a way that would enable them to access the necessary information swiftly, answer questions correctly, and do it with ease, as a human can?

再次写在最后：

“我们为什么要关注世界或时间的本源与原因呢？其中一个原因是纯粹的科学好奇心：我们想了解世界，而了解的一部分需要找出它隐藏的因果结构。但同样重要的是，我们不仅是世界的被动观察者：我们还有主观能动性。

我们想知道如何有效地干预世界，以防止灾难和促进福祉。光有良好的意图是不够的，我们还需要深入了解自然的馈赠和其力量是如何由因果关系连接起来的。因此，如果我们要理解如何获得成功，最终必须要去理解这个世界的运转的因果。”

资料来自：各网站资源

图灵奖得主珀尔 | 在大数据、概率之外，我们仍需要问因果关系的相关问题相关推荐

图灵奖得主Raj Reddy：以历史的视角重新审视“人工智能”
卡内基梅隆大学计算机学院教授.图灵奖获得者Raj Reddy 本文转自微软亚洲研究院原编者按:5月31日上午,卡内基梅隆大学计算机学院教授.图灵奖获得者Raj Reddy莅临微软亚洲研究院,为我们带 ...
图灵奖得主Judea Pearl：从“大数据革命”到“因果革命”
整理 | 智源社区,龚鹤扬&高亦斌 2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主.贝叶斯网络奠基人Judea Pearl 做了名为<The New Scien ...
图灵奖得主Judea Pearl 智源大会演讲：从“大数据革命”到“因果革命”
整理:智源社区龚鹤扬高亦斌 2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主.贝叶斯网络奠基人Judea Pearl 做了名为<The New Science of ...
两大图灵奖得主力作：计算机架构的新黄金时代
来源|Communications of ACM 撰文|John L. Hennessy, David A. Patterson 编译|机器之心原文|https://cacm.acm.org/mag ...
AI大觉醒：图灵奖得主Bengio称AI将产生意识，未来机器学习核心是注意力机制
新智元报道来源:venturebeat 编辑:梦佳 [新智元导读]人工智能是时候该觉醒了吗?在本周的2020 ICLR 大会上,图灵奖得主Yoshua Bengio针对AI和机器学习的未来阐 ...
图灵奖得主Jack Dongarra：高性能计算与AI大融合，如何颠覆科学计算
导读:浩瀚的宇宙中两个星云不断彼此接近.融合.再爆炸,这样奇幻的天文景观正是采用高性能计算(HPC)进行建模仿真生成的. 在过去的三十年间,高性能计算(HPC)取得了突飞猛进的进展,在科学计算等领域发 ...
两大图灵奖得主点赞中国用AI检测新冠，AI还能做什么？
作者 | CV君来源 | 我爱计算机视觉封图| CSDN│下载于视觉中国在这次新冠肺炎疫情肆虐的时候,AI 成为对抗疫情的亮点,前几天两大图灵奖得主 Yoshua Bengio 和 Yann L ...
图灵奖得主Judea Pearl ：从“贝叶斯网络之父”到“AI社区的叛徒”
图灵奖得主Judea Pearl,早在40多年前便通过贝叶斯网的设计,使机器实现概率推理而在人工智能领域声名大噪,并被誉为"贝叶斯网络之父",但近年却公开声称自己其实是人工智能社 ...
【GPT-4】立即停止训练比 GPT-4 更强的模型，至少六个月！马斯克、图灵奖得主等数千 AI 专家紧急呼吁
毋庸置疑,ChatGPT.GPT-4 引领了 AI 新时代的到来,但这种让很多环节都可以实现自动化流程的工具也让人颇为恐慌. 据路透社报道,包括图灵奖得主 Yoshua Bengio.伯克利计算机科学 ...

图灵奖得主珀尔 | 在大数据、概率之外，我们仍需要问因果关系的相关问题

图灵奖得主珀尔 | 在大数据、概率之外，我们仍需要问因果关系的相关问题相关推荐

最新文章

热门文章