导读:本文我们来讨论有关相关性和因果性的话题。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

相关性体现了两个事物之间相互关联的程度。比如房屋面积越大,房价就越高,改变其中一个变量(房屋面积)会引发另一个变量(房屋的价格)朝着同样的方向变化,这两个变量就存在正相关性。反之,如果一个变量的改变会让另一个变量朝着相反方向变化,就表明它们有负相关性,比如海拔高度和大气压的关系。

不过,数据之间通常只能呈现关联性,而很难直接体现因果性。人工智能就是一个典型代表,计算机只能发现数据之间的联系,它不负责解释原因。

再来看看因果性。人其实特别喜欢归因,一旦看到某种现象,就总喜欢把这个现象归到某些原因上。这点也体现在人类语言中。比方说,家长常常告诉孩子:“你不好好学习,就会挂科。”这个表述容易让人误以为“好好学习”和“挂科”具有因果关系。

可实际上,家长只是想表达,前者增加了后者发生的可能性,不是必然会让后者发生。日常生活中人们已经习惯使用大量口语化的因果句式,可它们并不一定都有因果关系。

处理统计学问题时,我们必须遵守一个基本原则:数据的相关性并不代表因果性。两个变量存在相关关系,并不代表其中一个变量的改变是由另一个变量变化引起的。

举例来说,20世纪50年代,人们观察大气层二氧化碳的含量和肥胖症人口的数量变化,发现两个数据都出现了明显的增长。似乎二氧化碳含量的增加会导致人类的肥胖。

但实际原因是,那段时间汽车业开始发展,汽车尾气排放增加,导致了大气中二氧化碳浓度上升;同时越来越多的人使用汽车作为代步工具,人们走路活动的时间变少,自然也就越来越胖。

类似的案例还有很多。有人说喝啤酒会导致肚子变大,但我们不能证明喝酒是导致肥胖的原因,更有可能的是爱喝酒的人往往饮食不规律、不爱运动,导致肚子变大;公鸡打鸣与日出高度相关,但它显然不是日出的原因;医院的死亡率比其他地方都高,并不表示医院是一个危险的地方。

有时,要从数据中挖掘和推断出正确的结论很困难。其中的陷阱就在于,数据的相关性和因果性经常容易混淆。

假设两个变量A和B具有相关性,其中的原因有很多种,并非只有A→B或者B→A这样的因果关系。很有可能是,A和B都是由另一个变量C造成的,即C→A且C→B,此时A和B会表现出明显的相关性,但我们并不能说A和B存在因果关系。

比如,有统计数据表明,游泳死亡人数越高,冰糕卖得越多,游泳死亡人数和冰糕售出量之间存在强相关性,但我们并不能由此得出吃冰糕会增加游泳死亡风险的结论。它们都是因为另一个原因导致的—气温升高了。吃不吃冰糕与游泳死亡风险没有任何因果关系。

想要得出因果性,必须从理论上证明两个变量之间确实有因果关系,并且排除所有其他隐含变量同时导致这两个变量的可能性。只通过几组数据,不能轻率做出因果关系的结论。很多数据呈现出来的是表象,无法确认它们是否存在其他隐藏的内部变量。

01 吸烟会致癌吗

统计学在发展初期,曾经争论过一个著名的医学问题:吸烟会导致肺癌吗?这个问题成为20世纪统计学家和医生讨论最激烈的问题之一。

1957年,有两位学者在《不列颠医学杂志》上发表了一组数据,指出吸烟和肺癌有着显著的联系。这件事惊动了当时权威的统计学家费希尔。他立即表明了自己的立场:一是不赞成将此问题拿到公共媒体上渲染,认为这是一个严肃的科研问题;二是认为对于吸烟和肺癌是否有因果关系的理由还不充分。

费希尔驳斥吸烟致癌假说的一个重要科学主张是,可能存在某些不可观测的因素,同时导致了人对尼古丁的渴求和患上肺癌。就像我们前面说的,可能存在着变量C,同时影响了变量A和变量B。

在费希尔看来,人的基因可能才是两者的公共原因,为此他展开了很多研究和论证。不过这也使他陷入了一场医学与统计学的长期争论。在随后几十年的时间里,不断有资料证明吸烟和肺癌有很强的关联,费希尔的主张失败了。

医学上很多杰出的发现,存在一定的幸运和巧合,或许只是某位医生恰巧找到了那个唯一的病因。比如粪便污水中含有霍乱杆菌,霍乱杆菌会引发霍乱,而且它碰巧又是引发霍乱的唯一原因。

但是关于癌症和吸烟,人们并没有找到直接的因果关系。许多人一辈子抽烟,但没有患上肺癌;也有人从来不吸烟,却被诊断出了肺癌。导致肺癌的原因可能是家族遗传,也可能是人们接触了某些致癌物质,因为在当时汽车开始普及,无论是柏油道路的铺设,还是含铅汽油尾气的排放,都有可能使人们接触致癌物质。

统计学家无法给出确切证据的另一个原因是,这个案例无法用随机对照实验进行研究。统计学家无法随机挑选一批人,让他们吸上数十年烟,冒着可能损害身体健康的风险,观察他们患上肺癌的情况,这么做会存在职业道德风险。但如果没有做过严谨的实验,谁也无法说服像费希尔这样的统计学家认同“吸烟致癌”这样的因果性结论。

如今,我们知道“吸烟有害健康”,这句警示标语被印在所有卷烟包装上。但是,得到这个答案的过程比大多数人想象的艰难得多。

尽管在吸烟与肺癌的争论中,费希尔的观点被证明是错的,但他的统计方法是正确的。费希尔想要表达的是,数据的相关性并不代表因果性,要找到因果关系就要有正确的方法。从这个角度来看,这正好体现了统计学本身的严谨性和科学性。

02 医学上的解决方案

长久以来,人们习惯性地认为,连续相伴发生的两件事存在因果关系,比如:乌云密布,倾盆大雨,所以乌云就是下雨的原因。倾盆大雨,道路泥泞,所以下雨是泥泞的原因。

医学上,人们用这种现象来确定药物疗效,比如让患者吃下某种药物或进行某种治疗,然后观察患者是否痊愈,如果痊愈就认为治疗是有效的。这属于传统临床医学。

18世纪,英国哲学家休谟提出了一种怀疑主义观点,他认为,人们从来没有亲身体验或亲眼证实过因果关系本身,人们看到的永远是两个相继发生的现象。所以,一切被称为因果关系的东西都是值得怀疑的,应该重新审视。比如公鸡鸣叫,太阳升起。这两个事情是相继发生的,但是公鸡鸣叫并不是太阳升起的原因。

在医学上,有些疾病无须治疗也能自动痊愈,比如口腔溃疡和感冒;有些疾病只要给病人吃一些安慰剂,再加上一些心理暗示就能治愈。而以上情况,医生所进行的药物治疗都是多此一举。

为了确认因果性,医学上常用的实验方法是大样本随机双盲试验。它的步骤是这样的。

首先要选择一定数量的病人。挑选时有两个原则。一是大样本,因为样本越多,统计结果越能稀释掉特例。二是随机性,这样能避免病人因病情轻重不同导致痊愈效果的差异。

接着可以把病人们随机分成三组。第一组是对照组,不做任何治疗,用来观察病人在没有治疗情况下疾病的自愈效果。第二组是安慰剂组,给病人吃没有治疗成分的“假药”,用来观察病人的心理作用对疾病的影响。第三组是治疗组,给病人服下真药,观察药物真实的治疗效果。

在整个治疗过程中,病人们并不知道自己属于哪一组。这种随机化的好处是消除了混杂在其中的选择性偏差。最终观察治疗结果,如果第三组的治疗效果明显高于前两组,则说明该药物或疗法确实是有效的。

一开始,整个试验过程只对病人盲测,医生知道病人的分组。但在实践过程中,人们发现,有些医生会自觉或不自觉地给病人暗示,他们的主观判断和偏见会对实验结果产生影响。

于是,人们改进了盲测方法,整个试验过程连医生都不知道自己身处哪一组,病人和医生是“双盲”的,所有的统计工作交由第三方完成。这么做能很好地屏蔽来自医生的主观偏见,让试验结果变得更加客观和公正。

大样本随机双盲试验是现今医学界公认的可以确定药物疗效的实用方法。它主张的原则是:为了确认某个变量对实验结果有什么影响,就做一组比照实验,只尝试改变这个单一变量,然后观察实验结果。

当然,这个方法也有不完美的地方。有时,实验中的相关变量很多,很难确定到底应该控制和不控制哪些变量,以至于最终控制了真正想要测量的变量。但不管怎样,大样本随机双盲试验仍然是一套可遵循的、有效的用于验证因果性的数据统计方法。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

《大话机器智能:一书看透AI的底层运行逻辑》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

划重点

为什么相关性不等于因果性?终于有人讲明白了相关推荐

  1. 贯穿计算机系统所有方面的重要概念,终于有人讲明白了

    导读:我们在此强调几个贯穿计算机系统所有方面的重要概念.我们会在本文多处讨论这些概念的重要性. 作者:Randal E. Bryant,David R. O'Hallaron 来源:华章计算机(hzb ...

  2. 什么是机器学习?有哪些分类?怎样上手开发?终于有人讲明白了

    导读:本文首先介绍何谓机器学习,以及与机器学习相关的基本概念,这是学习和理解机器学习的基础.按照学习方式的不同,机器学习可以分为不同类型,如监督学习.无监督学习.强化学习等,本文会详细介绍它们各自的特 ...

  3. rds基于什么开发_IaaS、PaaS、SaaS、DaaS都是什么?现在怎么样了?终于有人讲明白了...

    导读:本文将详细科普云计算的概念.云服务的发展现状,并逐一介绍各种云服务模式(IaaS.PaaS.SaaS.DaaS),建议收藏! 01 云计算的概念 云是一种服务,可以像使用水.电.煤那样按需使用. ...

  4. 什么是HBase?它是怎样工作的?终于有人讲明白了

    导读:HBase是一个构建在HDFS之上的.分布式的.支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板.它非常适用于对平台中的热数据进行存储并提供查询功能. 作者:朱凯 ...

  5. 什么是机器学习?有哪些应用?终于有人讲明白了

    导读:人工智能的快速发展,带动了相关技术的繁荣.近些年,国内外的科技公司对机器学习人才都有大量需求.怎样入行机器学习?本文带你从0开始学起. 作者:星环科技人工智能平台团队 来源:大数据DT(ID:h ...

  6. 4种数据分析基础方法,终于有人讲明白了

    导读:提到数据分析的基础方法,大家肯定很容易想到对比.细分和趋势,但是这些都是非常基础的入门理论,本文不会涉及.本文主要介绍产品经理在管理整个项目.解决整个项目的问题的时候,需要用到的数据分析方法. ...

  7. 什么是云原生,跟云计算有什么关系?终于有人讲明白了

    导读:云原生到底是什么? 作者:阿里集团 阿里云智能事业群 云原生应用平台 来源:大数据DT(ID:hzdashuju) 云原生(Cloud Native)的概念,最早是由Pivotal于2015年提 ...

  8. Netflix正在搞的混沌工程到底是什么?终于有人讲明白了

    导读:与任何新概念一样,混沌工程时常被误解.本文会探讨混沌工程是什么以及不是什么. 作者:Casey Rosenthal, Nora Jones 来源:大数据DT(ID:hzdashuju) 在Net ...

  9. 什么是架构?网络架构中都有什么?终于有人讲明白了

    导读:理解架构这个词的意思是十分重要的.它可能被过度使用,并且使用在各种环境中.如果缺少一致的理解,将会有交流失败的风险.那么架构这个词到底是什么意思呢? 作者:大卫·D.克拉克(David D. C ...

最新文章

  1. 华岩资本--微生物领域项目投递通道
  2. 对讲机的那点事:带你玩转LD800数字车载台读、写频操作:一
  3. linux shell中的各种括号的使用方法
  4. 光纤通信是如何接入网络的?
  5. 免费图标下载:100个手绘的PSD图标
  6. mysql 查看索引深度_mysql 学习 - 索引深度理解
  7. mac linux 权限 常用命令
  8. shell 启动java程序_Shell 脚本启动java程序
  9. Product of Array Except Self
  10. 跨时代作品:超级IE缓存提取器
  11. 豆瓣评论【数据集分享】
  12. android连接airprint打印机,完爆AirPrint 揭秘联想安卓终端乐打印
  13. Keil 5安装教程(C51与MDK共存)
  14. 【IntelliJ IDEA】设置字体大小
  15. Flutter 安卓 Platform 与 Dart 端消息通信方式 Channel 源码解析
  16. Tor源码 -- 启动模块
  17. 记一次公司被勒索病毒攻击事迹,上上下下咬牙切齿
  18. 2019年高中(高考)数学数列解题技巧整理总结
  19. 《Java编程思想》 第6章 访问权限控制
  20. MyBatis_Learning_3.5.7

热门文章

  1. canvas笔记-lineTo()与moveTo()的区别
  2. 动词ing基本用法_如果实在分不清英语动名词和现在分词,那就直接学习-ing分词...
  3. html print 边距,css print
  4. linux版微信 能发表情包的,仿微信在对话框文字中插入Emoji表情包
  5. java 注解入门 简书_Java基础-注解
  6. olap mysql_MySQL与OLAP:分析型SQL查询最佳实践探索
  7. 如何在vs中创建r树索引代码_线段树详解与实现
  8. Linux系统编程24:基础IO之在Linux下深刻理解C语言中的动静态库以及头文件和库的关系
  9. Qt之格栅布局(QGridLayout)
  10. linux 下的init 0,1,2,3,4,5,6知识介绍