辛普森悖论的百度百科

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论

辛普森悖论的案例

一个简单的假设案例

小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。医院B最近接收的1000个病人里,有800个活着,200个死了。作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。

呵呵,如果小明的选择是医院A,那么她就中计了。就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。在这100个病情严重的病人里,有30个活下来了,其他70人死了。所以病重的病人在医院A的存活率是30%。而在病情不严重的900个病人里,870个活着,30个人死了。所以病情不严重的病人在医院A的存活率是96.7%。在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。

画成表格,就是这样的——

医院A:

病情

死亡

存活

总数

存活率

严重

70

30

100

30%

不严重

30

870

900

96.7%

合计

100

900

1000

90%

医院B:

病情

死亡

存活

总数

存活率

严重

190

210

400

52.5%

不严重

10

590

600

98.3%

合计

200

800

1000

80%

你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。但是只看整体的存活率,医院A反而是更好的选择了。所谓远看是汪峰,近看白岩松,就是这个道理。

这让人很抓狂。万一我们真的患上了什么病,又遇到了这种类似的情况,岂不是会让自己掉坑里?实际上,我们刚刚看到的例子,就是统计学中著名的黑魔法之一——辛普森悖论(Simpson's paradox)。辛普森悖论最初是英国数学家爱德华·H·辛普森(Edward H. Simpson)在1951年发现的。

辛普森悖论就是当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。

从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量(lurking variable),比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。

最著名的辛普森悖论的实例-1973年加利福尼亚大学伯克利分校新生录取性别歧视案。

 

男生

女生

 

申请人数

录取人数

申请人数

录取人数

合计

8442

44%

4321

35%

大家从表格里可以看到,如果只看整体录取率,那么男生的录取率是44%,女生的是35%。不求甚解的话,一般人肯定会得出这样的结论——女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据,八成肺都气炸了。

别急,现在把上面的数据按照院系拆分,再来看看每个系的录取率。

院系

男生

女生

申请人数

录取比例

申请人数

录取比例

A

825

62%

108

82%

B

560

63%

25

68%

C

325

37%

593

34%

D

417

33%

375

35%

E

191

28%

393

24%

F

373

6%

341

7%

你可以看到,在6个院系的4个里,女生的录取率大于男生,女生只在2个院系里容易折戟。加利福尼亚大学伯克利分校的统计学教授 Peter Bickel 后来发现,如果按照这样的分类,女生实际上比男生的录取率还高一点点。

Bickel 认为,在这个案例中,辛普森悖论出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)。辛普森悖论真是太奇怪了。

经典的佛罗里达死刑悖论

1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据,发现了重大的司法不公正事件。

从归总的数据来看,佛罗里达的法官在审判的时候并没有偏向白人,因为白人嫌疑人的死刑率甚至还比黑人高一些。

嫌疑人种族

死刑人数

非死刑人数

死刑百分比%

白人

53

430

11

黑人

15

176

7.9

但是,如果按照被害人的种族来分割数据的话,我们就会看到很不一样的结果了——黑人比白人更容易被判死刑。

被害人种族

嫌疑人种族

死刑人数

非死刑人数

死刑百分比%

白人

白人

53

414

11.3

白人

黑人

11

37

22.9

黑人

白人

0

16

0

黑人

黑人

4

139

2.8

现在你可以很明显地看出,不管被害人是什么种族,黑人比白人更有可能被判死刑。这还不算。分类后的数据显示,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。种族歧视昭然若揭啊。

我们要怎样才能避免辛普森悖论呢?

不少统计学家认为,辛普森悖论的存在,让我们不可能光用统计数字来推导准确的因果关系。因为数据可以用各种各样的方式分类,然后再进行比较,所以理论上潜在变量无穷无尽,你总是可以用某个潜在变量得到某种结论。而且对于那些不怀好意的人来说,他们很容易对数据进行拆分或者归总,得到一个对自己有利的指标,从而来迷惑甚至操纵他人。医学和社会学的研究者也常常会遇到辛普森悖论,从而得出错误的结论。

辛普森悖论的重要性在于它揭示了我们看到的数据并非全貌。我们不能满足于展示的数字或图表,我们需要考虑整个数据生成过程,考虑因果模型。一旦我们理解了数据产生的机制,我们就能从图表之外的角度来考虑问题,找到其它影响因素。

大部分数据科学家并没有学习因果思考的模式,而这种思考模式对我们而言至关重要,因为它能防范我们从数据中得出错误结论。除了使用数据,我们需要运用经验和业务知识,或者向专家学习,来更好地进行决策。

数据是一个有力的武器,它既能被用来澄清现实,也能被用来混淆是非。

参考网址

这个著名的统计学悖论,第一次听说的人很可能怀疑人生

辛普森悖论:用同一个数据集能证明相反观点?

快速了解统计学之辛普森悖论相关推荐

  1. 辛普森悖论 - 一个统计学上的悖论

    我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等.像是,哪个学校的就业率高,我们就会去报考这个学校. 统计数字可以帮助我们了解这些比较 ...

  2. 辛普森悖论_所谓的辛普森悖论

    辛普森悖论 We all know the Simpsons family from Disneyland, but have you heard about the Simpson's Parado ...

  3. 逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论

    在现实生活中,我们常常会遇到这样一种现象,当尝试研究两个变量是否具有相关性的时候,会分别对此进行分组研究. 然而,在分组比较中都显示非常有优势的一方,在总评时却成了失势的一方.直到1951年,英国统计 ...

  4. 数据分析——工作中遇到的“辛普森悖论”

    ( 一 )辛普森悖论定义 辛普森悖论 (Simpson's Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时 ...

  5. 辛普森悖论及贝叶斯解释

    辛普森悖论(Simpson's Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质 ...

  6. 数据分析面试爱问的题:辛普森悖论

    关注我,每天学习一点点,每天进步一点点! 事情的经过大概是这样的,一大早起来,有个数据分析群有群友在问一个问题,群友问是否考察的是辛普森悖论? 问题是:A.B两国交战,海军死亡率为6%,居民死亡率是1 ...

  7. 零基础掌握“辛普森悖论及因果关系”通俗易懂

    目录 一.辛普森悖论的通俗解释 二.通俗易懂的例子说明 三.为什么会出现辛普森悖论? 四.辛普森悖论给我们什么启示 一.辛普森悖论的通俗解释 通俗解释其实就一句话,"存在这样的数据,总体上的 ...

  8. 每日一课 | 详解数据分析中违背常理的悖论:辛普森悖论

    Python大本营每日一课 大家好,本期7日专栏内容,营长将为大家分享新的内容知识,"数据分析",营长邀请的是宿永杰,某知名互联网公司数据挖掘工程师,小伙伴们别忘记打卡哦. 数据分 ...

  9. 辛普森悖论如何影响AB测试

    Simpson's paradox occurs when we observe a certain trend in the aggregate data but not in the underl ...

最新文章

  1. 如何在微信中增加附件?
  2. 二分搜索之x平方根(保留整数)
  3. 关于敏捷开发方法(Agile Software Development)的阅读笔记
  4. 还不会子网划分?看这篇文章还远远不够!
  5. kotlin之plus、copyOf、reverse、forEach、filter、map、reduce、fold等函数解释和使用
  6. 阿里文娱首次公开!AI 如何对爆款内容未卜先知?
  7. 插入公式_一个小工具,彻底帮你搞定在Markdown中插入公式的问题
  8. 【JOURNAL】康生篆书联
  9. poj 1466 Girls and Boys (最大独立集)
  10. Spark GraphX相关使用方法
  11. 《C++ Primer》关于自增自减操作符的描述错误
  12. 关于计算机用途的大学英语作文,学习使用电脑Student Use of Computers
  13. 5999卖999!是噱头还是颠覆
  14. C#网络编程----(二)启动、停止和观察进程
  15. php十六进制转为ascii,16进制转换成ascii_16进制转ascii码转换工具_16进制转ascii
  16. Latex语法学习05:代码表格的制作
  17. 那些在一个公司死磕了5-10年的人,最后都怎么样了?
  18. 图书馆座位预约管理系统毕业设计,图书馆座位管理系统设计与实现,图书馆座位预约系统毕业论文毕设作品参考
  19. 【素数表】前20000个素数
  20. 如何打开和修改CAJ格式的文档?

热门文章

  1. 科大讯飞两代AI平台演进之路——讯飞云计算研究院副院长龙明康访谈
  2. 锁仓怎么解_锁仓与解锁的正确方法
  3. 递归方程组解的渐近阶的求法--套用公式法
  4. LDAPBrowser
  5. 黑苹果社区限时免费注册啦!
  6. 我们就聊聊遇到困境的时候应该怎么办?
  7. math@间断点@连续@可导@可微@微积分基本定理
  8. C++ 省略 std:: 前缀
  9. 喝汽水,1瓶汽水1元,2个空瓶可以换1瓶汽水,给20元可以喝多少汽水?
  10. python-opencv实现gif图片分解