为什么相关不等于因果

十九世纪末,荷兰出现了一个奇怪的现象:人口出生率与当地白鹳的数量同步增长。鹳鸟送子的传说由此而来。虽然这个故事逐渐消失在民间传说中,但现实生活中类似的相关性无处不在。二十世纪和二十一世纪的新研究一再证实,在一些欧洲国家,鹳与人口出生率在统计学上确实存在显著关联。

《鹳鸟送子》明信片

1958年,伦敦政经学院教授威廉·菲利普斯(William Phillips)发表了一篇关于失业与通货膨胀之间联系的论文。人们从菲利普斯教授的数据中惊奇地发现:高通胀与低失业率有关,反之亦是如此。如此一来政策制定就变得非常明确。国民经济只需要在通货膨胀和失业之间做出选择,或者以某种方式在二者之间找到平衡。后来,这种联系被称作“菲利普斯曲线”,多年来为欧洲和美国的宏观经济政策决策提供帮助。

菲利普斯曲线

人类天生喜欢识别模式。我们在大学上花费大量学费,是因为教育水平与毕业后的收入相关。我们被新鲜出炉的饼干所散发出的扑鼻香气所吸引,是因为香气的浓度与饼干的新鲜程度有关。我们早睡,是因为一夜好眠能带来第二天神清气爽。我们避免睡前吃奶酪,是因为奶酪消费量与床单绞杀事故有关。

等等,奶酪那条是什么鬼?

模式很明显:全国(美国)奶酪消费量的增长与被床单绞杀窒息而死的人数增长之间存在统计相关性。有下图为证:

数据源: U.S. Department of Agriculture 和 Centers for Disease Control & Prevention

可能是融化的奶酪堵塞了呼吸道,也可能是奶酪会导致睡梦惊厥。或者可能这种相关性根本就是虚假的,完全是个偶然。我们几乎可以肯定上面的相关性是虚假的。相关性是否意味着因果关系?上面的例子就很直观 – 相关并不总是蕴含因果,很多相关性是虚假的

相关性作为一个概念,意味着两个事物一起变化。炎热的天气与冰淇淋的销量相关。阴霾的天空与下雨有关。但还有这个:尼古拉斯·凯奇每年出演的电影数量与掉落泳池淹死的人数相关。

数据源: Centers for Disease Control & Prevention 和 Internet Movie Database

相关性并不总是有意义的

还记得出生率与鹳之间的相关性吗?这也是巧合。对这种现象的现代研究是为了证明统计数据使用不当可以轻而易举地产生错误结论。事实证明,威廉·菲利普斯(William Phillips)的经济学理论也站不住脚。通货膨胀与就业的联系是普遍存在的,但它过于简单化。多年后,新的研究表明,菲利普斯的模式与长期数据不符。尽管二者有关联,但并不直接控制彼此。


只要有足够多的数据,就有可能找到相关的事物,即便他们之间毫无联系。这种方法通常被称为“数据疏浚”。数据疏浚是一个数据挖掘技术,它将一个变量与其他大量变量相比较,来寻找数据间可能的关系。一般科学家会首先假设两个变量之间存在某个关系,然后通过分析数据确认这种关系存在的显著程度,根据显著程度接受或拒绝最开始做出的假设。例如,通过将鹳与出生率相关联来测试鹳是否带来婴儿的理论。

计算机程序不是测试单个假设,而是可以通过简单地将每个数据集与其他数据集进行比较来进行数据疏浚。进入二十一世纪,技术进步和数据收集让这项工作变得更加容易。今天我不必租来尼古拉斯·凯奇的所有电影光盘逐个阅读发行日期,只需要在IMDb.com上动动手指,2分钟内就能找到尼古拉斯·凯奇参演的所有电影。我想了解特定疾病的死亡率,疾病控制中心会公布其所有数据;我想知道有多少全职爸爸,人口普查会或国家统计局会给我一个可靠的估计。这就是大数据和大相关性的时代。


接下来的内容中,你将看到完全没有因果关系的数据集之间产生的数十种相关性。每个相关性都是由计算机发现的。这些虚假的相关性也许会让你忍俊不禁,但本文更希望在你会心一笑之后能够严肃地思考相关性和因果之间的关系–图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。
∗∗∗\ast \ast \ast ∗∗∗

01

数据来源: U.S. Office of Management 和 Budget 和 Centers for Disease Control & Prevention


02

数据来源: National Vital Statistics Reports 和 U.S. Department of Agriculture


03

数据来源: National Spelling Bee 和 Centers for Disease Control & Prevention


04

数据源: National Science Foundation 和 Dept. of Energy


05

数据源: U.S. Bureau of Transportation Statistics 和 Centers for Disease Control & Prevention


06

数据源: Centers for Disease Control & Prevention 和 Dept. of Energy


07

数据源: U.S. Department of Agriculture 和 Dept. of Energy


08

数据源: Dept. of Energy 和 Centers for Disease Control & Prevention


09

数据源: Centers for Disease Control & Prevention 和 National Vital Statistics Reports


10

数据源: U.S. Department of Agriculture 和 National Science Foundation


11

数据源: Federal Aviation Administration 和 National Science Foundation


12

数据源: U.S. Census Bureau 和 National Science Foundation


13

数据源: Wikipedia 和 Centers for Disease Control & Prevention


14

数据源: U.S. Department of Agriculture 和 Centers for Disease Control & Prevention


15

数据源: Centers for Disease Control & Prevention 和 Internet Movie Database


为什么相关不等于因果相关推荐

  1. 格兰因果模型可以分析哪些东西_相关不等于因果,深度学习让AI问出“十万个为什么”...

    大数据文摘出品 来源:searchenterpriseai 编译:张大笔茹 生活经验告诉我们,相关关系并不能直接推导出因果关系,但不管是日常生活还是学术研究,对于因果关系的解释要远比相关关系重要得多. ...

  2. 相关不是因果,哪又是啥?

    目录 相关不是因果,哪又是啥? 导论 一个典型的数据科学课题 常规分析方法 方法一:画出双变量关系 方法二:对所有可用特征使用 ML 模型 也许我们应该考虑下特征之间的关联... 所以现在做什么?因果 ...

  3. 如果相关不意味着因果,那么什么意味着? ——大数据时代的“因果关系”思辨

    [导语]:相关性和因果性之间的联系,从统计学教材到大数据著作,都有着广泛的探讨,甚至争议不断.迈尔舍恩伯格在<大数据时代>里说,"要相关,不要因果",在大数据时代,有相 ...

  4. matlab语句运算相关论文,等于计算论文,关于MATLAB在瑞典条分法中的应用相关参考文献资料-免费论文范文...

    导读:该文是关于等于计算论文范文,为你的论文写作提供相关论文资料参考. (1.河海大学 港口航道与近海工程学院,江苏 南京 210098: 2..河海大学 土木与交通学院,江苏 南京 210098) ...

  5. 经由因果分析,反驳AI监控学生上课,及辨别健康类谣言

    来源:混沌巡洋舰 想象这样一个场景,你和你心爱的女孩一起自习,你的理科好,于是你看着她听数学的网课时,有时露出困惑的表情,还有时会走神.然后等她听完,你再把你觉得她没有听懂的部分,给她换一种方式讲出来 ...

  6. 因果AI如何发现因果

    因果AI如何发现因果 文章目录 什么是因果发现 因果知识如何获取 关联非因果 从数据中找寻因果证据 经典因果发现算法 应用因果发现的挑战 假设过强 计算量大 模型漂移 选择困难 什么是因果发现 先看一 ...

  7. 因果系列文章(2):因果推断初探

    以下内容仅仅是作者因个人兴趣而对因果推理领域的非常粗浅的学习笔记,难免充满低级的谬误和肤浅的认识.作者已经在表达上尽量直白.如有错漏请及时指教. 深度学习不是万能的 人工智能发展至今,经历了无数次的浪 ...

  8. 因果推断初探 | 万事皆有因果

    作者: 望止洋 来源: https://zhuanlan.zhihu.com/p/109729340 最近在关注因果推断方向,故针对这个方向开了一个专题系列,记录看到的和学到的一些因果推断知识. 本期 ...

  9. 人脑认知科学对人工智能的启示

    开发十年,就只剩下这套架构体系了! >>>    读<怪诞脑科学:战胜焦虑.混乱.拖延的自控术>有感 最近一段时间,一直在琢磨更好的AutoML,像我这样的懒人,当然希望 ...

  10. 《看不见的大猩猩:无处不在的6大错觉》读书摘记

    看不见的大猩猩:无处不在的6大错觉 在日常生活中,人们对于预料之外的事物经常是看不见的. 1 注意错觉--"看见"不等于"看到" ◎ "看到" ...

最新文章

  1. Http中涉及到的知识点总结
  2. oracle中primary,oracle中如何 Primary key自增
  3. MySQL中,21个写SQL的好习惯
  4. sqlserver yml配置文件
  5. 信息学奥赛一本通(C++)在线评测系统——基础(二)基础算法 —— 1313:【例3.5】位数问题
  6. python局部变量含义_Python的变量
  7. linux路由信息预览为空,route - 显示并设置Linux中静态路由表
  8. 安装CUDA时出现黑屏的现象解决办法
  9. 读写锁分离的循环队列
  10. Python数据结构与算法(1.1)——数据结构与算法导论
  11. Java编程思想精彩评注分享之二
  12. 主题模型TopicModel:LSA(隐性语义分析)模型和其实现的早期方法SVD
  13. 图像几何运算——Matlab实现
  14. Google DFP广告管理系统标准版简介
  15. 计算机编程语言发展简史
  16. 微信公众号 主动发生消息给用户
  17. mongodb重置密码
  18. TCP协议调试工具TcpEngine V1.3.0使用教程
  19. 用计算机做有理数混合运算,七年级数学上册1.12用计算器做有理数的混合运算教案(新版)北京课改版.doc-汇文网...
  20. 树莓派Zero W发布;亚马逊 AWS S3 服务出现故障 | IoT黑板报

热门文章

  1. 迎奥运,20个帮助你塑造体形的网站
  2. LayUI复杂表头多一列
  3. centos安装stress安装失败_Linux压力测试软件Stress使用指南
  4. 信息安全-终端安全-Windows安全配置
  5. 组合数学+概率,期望+生成函数一文全精通
  6. jsonp 跨域 java_浅析 JSONP 跨域原理
  7. Linux实用教程(第三版)
  8. V-REP 插件教程
  9. 黑客教父郭盛华:11个IDA Pro反汇编程序的替代品
  10. 基于ATECLOUD云测试平台,数字万用表采集电阻测试方案