【导语】:相关性和因果性之间的联系,从统计学教材到大数据著作,都有着广泛的探讨,甚至争议不断。迈尔舍恩伯格在《大数据时代》里说,“要相关,不要因果”,在大数据时代,有相关,就够了。而周涛则在《为数据而生》一书中说,放弃对因果关系的追寻,就是人类的自我堕落,相关性分析是寻找因果关系的利器。想不想听听第三方的观点?下面文字为BuzzFeed首席数据科学家Adam Kelleher观点的部分编译,感兴趣的读者,请阅读原文。

我们知道,相关关系和因果关系,在人们的工作和生活中,都扮演着极其重要的角色,它们单独或共同影响着我们的行为去向。比如说,经过千百年来的观察,人们发现,“燕子低飞”和“即将下雨”存在相关性,因此,一旦看到“燕子低飞”,人们就知道“天将下雨”,该收衣服了。

至于因果关系,对我们的影响,就更加明显了。一方面,做某个事情前,我们总习惯“给我个理由先”。事后,也爱给自己的行为“结果”,找个“原因”。比如说,“因为我要早晨去上班,所以我必须6点钟起床”。倘若上班迟到了,给老板解释,“因为闹钟没有响,所以我没能准时起床”。千百年来,因果关系,已经深深地写入了人们的思维基因里。

既然相关性和因果性如此重要,二者之间有什么关系呢?在学校里的统计课程中,我们都不断被老师告知,“相关性并不意味着因果性”。那么,相关性意味着什么?有没有一个更好的解释模型,来帮助我们理解这个纷杂的世界呢?为了搞清楚这些问题,我们首先要了解,什么是因果关系?

何谓因果关系

现在因果关系有着非常明确的定义,通常来说,原因是指引起一定现象的现象,结果是指由于原因的作用,随之串联而引起的现象。因果联系的特征就是,原因在先,结果在后,前者的出现,导致后者。但千百年来,有关因果关系的认知,却争议不断。比如说,18世纪英国著名哲学家休谟,压根就不承认有什么因果关系,他认为,所谓的因果关系,只不过是思想中的习惯性联想罢了。

下面我们就用一个例子,来说明常规意义上的因果关系。假设你每天都要到单位上班。显然,如果交通堵塞,会导致你上班迟到。此外,如果家里的闹钟不响(因此你没能准时起床),也会导致你上班迟到。于是,我们就用一个如图1所示的关系图,来描述这这三者(闹钟、交通和迟到)之间的关系。

图1: 基本的因果关系图

图1仅仅列出了两个最常见的上班迟到原因。实际上,迟到的原因可能还包括,车在路上抛锚了,给孩子们做早餐耽搁了,早起看新闻分心了等等,诸如此类。图1不可能把所有的这些小因素都包括在内。

为了抓住主要矛盾,认知的模型必须精简,如图1所示的模型,只能包括在那些最常见的影响我们上班迟到的因素。那些被我们忽略掉的大量的小因素,可以将其视为“噪音”,将其过滤掉。事实上,我们还可以进一步构建一个更全面的“因果关系”的模型图。比如说,我们继续追寻,交通阻塞的原因是什么?闹钟不响的原因是什么?

倘若有一场意外灾难(如龙卷风),它导致电力中断,从而闹钟不响了(假设闹钟是插电式的)。意外灾难同样也导致了交通堵塞。于是我们重新更新图1,给出了闹钟失效和交通堵塞的原因,如图2所示。

图2:一个更为完整的世界

如果时间轴线足够长,我们可以收集到大数据集合,然后分析发现,在你家的闹钟不响时,交通也发生阻塞了,很显然,这两个原本“风马牛不相及”的事物,存在相关性。但我们也清楚地知道,闹钟是否响起,和是否有交通阻塞,它们之间是没有因果关系的。这就是“相关性并不意味着因果性”的本质。

更明确点来说,相关性是统计上的概念,数据多了,A发生时B发生的概率,足够显著,那么A和B就是相关的。而因果性是逻辑上的概念,A发生导致B发生。类似的还有,例如,看见闪电(A)和听见雷声(B)是高度相关的,但它们二者相互之间并没有因果关系。

正如前文所言,相关性分析,不是杀死因果关系的凶手,恰恰相反,它是寻找因果关系的利器。相关性的背后,一定有导致A和B发生的共同原因在起作用。这些背后的原因,可能不是直接原因,它可能处于“因果关系图”的“上游”某处。例如,自然灾难就是“闹钟不响”和“交通阻塞”的背后共因。雷雨天气是“打雷”和“闪电”背后的共因

那么,现在问题来了。

如果那些隐藏于相关性背后的共同原因,能找到则罢,但我们又没有“天眼”,不能次次都看透相关性背后的玄机,怎么办?

不用太担心,下面我们看看,我们所依赖的科学,是如何工作的,了解之后,你就会对这个问题更加坦然。

科学是如何工作的?

为了避免进入科技哲学的讨论范畴,我们仅仅根据一些基本原则,对一些观察到事实,进行就事论事的讨论。

现在,假设我们认识的世界,就是根据图1所示来运转的。现在,我们想验证这个假设。在一定程度上,图1所示的世界是“足够好”的,因为“闹钟不响”是能作为“迟到”的原因的,同样,“交通堵塞”也可以解释“迟到”。

因为灾难性事件是非常罕见的。所以,一开始,我们很难发现“闹钟不响”和“交通堵塞”二者之间,存在什么相关性。但随着时间的推移,时间轴线越来越长,在时间域内,越来越多的灾难数据可以被采集到。于是,“闹钟不响”和“交通堵塞”同时出现的情况,愈发频繁,并达到了统计上的显著性。那么,如果我们还用图1来解释整个世界,就显得有点摇摇欲坠了。

于是,就需要更新我们的认知模型,即用一个双向端箭头,把两个相关的事件连接起来,如图3所示。图中双头箭头是表明,有某些不常见的原因,驱动着的“闹钟不响”和“交通堵塞”这两个事件相关。

图3:一个未观察到的原因

自然,我们很希望这个背后的原因范围,能缩小到图2所示那么精确。但现实是残酷的,很多时候,我们所认知的世界是懵懂的。但是,即使我们没有得到一个如图2所示的精确认知,即使丢失了一些链接和变量,在很多时候,这样的世界已经“足够好”了。

但科学的进步,就是对“足够好”的不满足(Good enough for Science is not good enough)。

在物理学领域,这种类型的科学进步,是有例可循的。比如说,牛顿的万有引力理论,就是一个“足够好”的解释世界的图谱。因为它既可以解释大部分星辰的运转,也足以让人类登上月球。

但是,牛顿定律对“水星进动”(Precession of Mercury)就解释得“不够好”(因为水星近日点进动值与观测值存在分歧)。对于精确GPS系统而言,牛顿定律也是不够用的(因为高精度的GPS测量,除了要考虑GPS系统本身的精度,还应该考虑与地球整体运动有关的相对论效应)。后来,爱因斯坦并没有满足于牛顿“足够好”的知识图谱,于1916年发表了著名的广义相对论,提供了一个更为完整的认知图,能更好的解释这个世界。于是,“水星进动”得以更好的解释,GPS系统可以有更好的精度。

未完的结论

从上面的讨论可知,相关性的确并不意味因果性,但却意味着,在认知图谱的上游,可能蕴含着某些非常见的共因。对这些非常见共因的探寻,能拓展我们的认知图谱。

图2所示的世界,其实是一个比拟。由于在我们的世界里,“灾难(黑天鹅事件)”发生的次数是极少的。所以,我们必须注重收集越来越多的数据,以捕捉这些罕见的结果,一旦我们能够形成对这些罕见结果的可解释性(因果关系),这就会拓展我们的知识边界,提升我们对世界的理解水平。

我们知道,在小样本集合里,很多处于长尾部分的案例,由于发生概率极低,极有可能无法观察到。大数据很重要的一个优势,就是在长尾应用中,发现稀疏而珍贵的价值——对某些罕见结果的可解释性(如某些低频癌症的病因等),这是极其有用的。

译者介绍:张玉宏,著有《品味大数据》一书

扫我,和云栖在线交流

【云栖快讯】首届阿里巴巴在线技术峰会,将于7月19日-21日20:00-21:30在线举办。峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据处理、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践。  详情请点击

如果相关不意味着因果,那么什么意味着? ——大数据时代的“因果关系”思辨相关推荐

  1. 相关关系与因果关系之探讨——大数据时代读后感(1)

    维克托.迈尔.舍恩伯格的<大数据时代>一书如雷贯耳,决心要拜读一番.本打算读英文原版,考虑到时间有限,中文版的也许看得快一些,所以还是读中文版的吧.简单读了几页之后,发现无论译者周涛的文笔 ...

  2. 大数据、云计算、物联网相关技术概述——《大数据技术原理与应用》课程学习总结

    在学习大数.云计算以及物联网相关概念之前,先了解一下大数据的背景吧 1.1 大数据时代 1.1.1 第三次信息化浪潮 三次信息化浪潮: 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次信息化浪潮 ...

  3. 为什么大数据使用相关关系而不是因果分析?

    image 在大数据的分析中,很多分析都是使用相关关系进行分析而不是使用因果进行分析,这就让很多人感到疑惑.不过对此也是情有可原的,因为我们在日常生活中习惯性地用因果关系来考虑事情,所以我们自然就会认 ...

  4. 关于大数据相关的问答汇总,每天持续更新中哦~

    NO.1 想要学好大数据需掌握哪些技术? 答:1,Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序.Web应用程序.分布式系统 ...

  5. 关于大数据相关的问答汇总,持续更新中~

    NO.1 想要学好大数据需掌握哪些技术? 答:1,Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序.Web应用程序.分布式系统 ...

  6. 学术前沿 | 规律与因果:大数据对社会科学研究冲击之反思

    推荐语:尽管方法都源于统计学,但同样是定量分析.经验研究,经济学与社会学在方法论上面存在显著的差异.在大数据时代,这两个"古老"的学科同时面临海量数据资源的冲击,大数据资源给两个学 ...

  7. 浅谈大数据及相关技术在计算机专业的应用

    信息时代,各种高新科技高速发展,现代科学技术发展进入了"快车道",科学技术的实践化应用改变了人们的生活,其中就包括人工智能技术的应用,如智能家居系统.智能汽车.智慧城市等. 所谓人 ...

  8. 鸡叫与天亮:大数据中的关联与因果

    舍恩伯格的"三要三不要" 大数据吹鼓手 维.舍恩伯格在<大数据时代>中提到了大数据处理的的三个技术取向:要全体不要抽样,要效率不要绝对精确,要关联不要因果. 其中最后一 ...

  9. 目前与征信相关的大数据来源,主要可以划分为哪四大类?

    随着我国社会信用体系建设的步伐不断加快以及计算机和网络技术的不断提高,征信业的发展也需要适应大数据时代发展所带来的技术变革.征信机构在积累征信数据的同时,也需要提升自身的数据存储能力,丰富所积累数据的 ...

最新文章

  1. 手机php文件怎么改后辍,php修改文件后缀名的方法
  2. 从CCNA到CCIE的网工认证道路规划
  3. kafka 集群_单机版kafka集群部署
  4. 汇编语言中可以定义变量吗?怎么定义?有局部变量和全局变量之分吗?作用域是什么?
  5. java高分面试指南:java单例模式双重检查
  6. python 状态模式_使用状态模式自由切换登录状态
  7. python读取pdf表格数据代码_Python新工具:用三行代码提取PDF表格数据
  8. linux 行首加特定字符串,【Linux】行首、行尾添加字符串
  9. centos6 docker1.7 存储方式修改
  10. hnu rounting 解题报告
  11. C++中的LPVOID数据类型
  12. 淘宝购物流程图 基本流和备选流以及测试用例
  13. HEVC帧内预测学习(一)CTU、CU、PU、TU单元划分的理解
  14. 人事档案信息管理系统的面向对象的分析、设计和实现
  15. “分众1000万美元收购网络打手论坛”—事件营销乎?
  16. mysql语句转为oracle语句
  17. Python--------随机生成四位数字与大写英文字母组合的验证码(简单版)
  18. Sublime Text 全程图文指引
  19. 组态王与mysql数据库通过ODBC连接
  20. group by分组查询后排序

热门文章

  1. java实现给PDF文件添加图片水印,java实现给PDF文件添加文字水印
  2. Entity层、DAO层、Service层、Controller层 先后顺序
  3. 游戏中的弹道学手册(转)
  4. 语言-英语翻译(edx-datascientist 1.5-1.8)
  5. Python——报错:WindowsError:[Error 1(...)](WindowsError错误码解释)
  6. html 英文自动换行,CSS让英文单词的自动换行
  7. Makfile详解-工作流程
  8. 搜狗搜索推广Api在postman中的使用
  9. 分拆计划陷入困境,英特尔还能重回巅峰吗?
  10. MemCached缓存操作