辛普森悖论(Simpson’s Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(from 百度百科)关于辛普森悖论的统计学解释是贝叶斯置信网络在因果推论中的重要应用。

1 问题描述

考虑一个关于疾病用药的病人恢复情况的医学实验。两组实验分别在40个男性和40个女性中进行。实验数据如下所示:

实验探究的问题是:药物是否会提高病人的康复机率?根据第一个表格中的男性实验结果,服用药物和未服用药物的康复机率分别为60%和70%在第二个表格中的女性实验结果中,服用药物和未服用药物的康复机率分别为20%和30%。因此,从两组不同性别的分别实验可以看出,服用药物的康复机率更小。然而,如果不考虑性别信息,综合两组实验数据得到第三个表,服用药物和未服用药物的康复机率分别为50%和40%,由此得到与上面两组实验矛盾的结论,服用药物有助于疾病康复。这就是辛普森悖论的一个典型例子。

2 贝叶斯解释

统计学的观测证据(observation evidence)和介入证据(interventional evidence)往往是不同的,对于设计药物(D)对疾病恢复(R)的因果推论,用条件概率表示应该是P(R∣D)P(R|D)P(R∣D),而如果增加性别因素(G),条件概率为P(R∣G,D)P(R|G,D)P(R∣G,D),二者是不同的概念。

(1) 不考虑性别的影响的话,可以得到
P(R∣D)=∑GP(R∣G,D)P(G)P(D)∑GP(D)P(G)=∑GP(R∣G,D)P(G)P(R|D)=\frac{\sum_G{P(R|G,D)P(G)P(D)}}{\sum_G{P(D)P(G)}}=\sum_G{P(R|G,D)P(G)}P(R∣D)=∑G​P(D)P(G)∑G​P(R∣G,D)P(G)P(D)​=G∑​P(R∣G,D)P(G)服用药物D=1,未服用D=0,带入表格数据有:
P(R∣D=1)=0.6×0.5+0.2×0.5=0.4P(R|D=1)=0.6\times 0.5+0.2\times 0.5=0.4P(R∣D=1)=0.6×0.5+0.2×0.5=0.4P(R∣D=0)=0.7×0.5+0.3×0.5=0.5P(R|D=0)=0.7\times 0.5+0.3\times 0.5=0.5P(R∣D=0)=0.7×0.5+0.3×0.5=0.5因此,服用药物的恢复机率是减小的的。

(2)考虑性别的影响的话,以男性G=1,女性G=0,由表中数据可以直接得到

P(R∣G=1,D=1)=0.6P(R|G=1,D=1)=0.6P(R∣G=1,D=1)=0.6P(R∣G=1,D=0)=0.7P(R|G=1,D=0)=0.7P(R∣G=1,D=0)=0.7P(R∣G=0,D=1)=0.2P(R|G=0,D=1)=0.2P(R∣G=0,D=1)=0.2P(R∣G=0,D=0)=0.3P(R|G=0,D=0)=0.3P(R∣G=0,D=0)=0.3因此,不管服用药物与否男性恢复机率都大于女性。

(3)引入无关影响因素P(D∣G)P(D|G)P(D∣G)
P(D∣G)P(D|G)P(D∣G)是指不同性别的服用药物比例,这个数值大小对于比较药物对疾病作用,还是药物对性别作用都是无关变量。
实际上,第三个表格中的联合计算方式是由以下公式得到的:
P(R∣D)=∑GP(R,G,D)P(G)P(D)=∑GP(R∣D,G)P(D∣G)P(G)P(D)P(R|D)=\frac{\sum_G{P(R,G,D)P(G)}}{P(D)}=\frac{\sum_G{P(R|D,G)P(D|G)P(G)}}{P(D)}P(R∣D)=P(D)∑G​P(R,G,D)P(G)​=P(D)∑G​P(R∣D,G)P(D∣G)P(G)​这样做的话就违背了分层抽样原则,探究药物对疾病恢复机率的影响,如果按照性别不同分层,而对于每个分层里面应该进行随机抽样,即服用药物和未服用药物的人数应该一致。考虑不同性别对恢复机率的影响,男性的恢复机率(服药与未服药人数相同时)为
P(R∣G=1)=0.5×(0.6+0.7)=0.65P(R|G=1)=0.5\times(0.6+0.7)=0.65P(R∣G=1)=0.5×(0.6+0.7)=0.65女性恢复机率(服药与未服药人数相同时)为:
P(R∣G=1)=0.5×(0.2+0.3)=0.25P(R|G=1)=0.5\times(0.2+0.3)=0.25P(R∣G=1)=0.5×(0.2+0.3)=0.25由此可见,在不考虑药物作用下,男性的恢复机率远高于女性。而题干中的男性和女性分别为3:1和1:3的不同服用药物人数比例,直接导致了服药样本中高恢复机率的男性较多,低恢复机率的女性较少,而未服药样本反之,二者取样并不均匀,因此,由性别带来的取样差异性导致了错误的实验结论。

总结

综上,辛普森悖论产生的原因来自于抽样调查时违背了抽样对象的随机性原则,使得与实验结论不相关的变量影响到了实验结果。在现实生活中,“统计平均陷阱”是辛普森悖论的一个重要表现形式。例如全国城市房价同比涨跌幅度,由于城市发展程度不同,各个城市房价不同,随着城市化进程加快,中小城市的房产交易规模扩增速度高于大城市,所以就会出现这样的情况:全国各个城市的房价都在增长,而房价均值同比却在下降。原因是由于中小城市的低价房产同比交易量高于大城市的高价房产同比交易量,所以全国总体房价的均值就被拉低了。

辛普森悖论及贝叶斯解释相关推荐

  1. 【MIT港科大】最新《贝叶斯深度学习》2020综述论文,35页pdf全面阐述最新进展...

    来源:专知 来自MIT和香港科技大学的学者最新<贝叶斯深度学习>综述论文,值得关注! 地址: https://www.zhuanzhi.ai/paper/9b781282204cb581a ...

  2. sklearn——朴素贝叶斯

    以下文章为一位博主翻译自某篇官方文档,在此引用: 在scikit-learn中,提供了3中朴素贝叶斯分类算法:GaussianNB(高斯朴素贝叶斯).MultinomialNB(多项式朴素贝叶斯).B ...

  3. 辛普森悖论和朴素贝叶斯

    在大数据的知识体系中,有很多是需要我们学习的知识,同时涉及到了不少的技术以及很多的理论.在这些知识中,有两个知识点十分重要,那就是辛普森悖论和朴素贝叶斯.在这篇文章中我们给大家介绍一下关于辛普森悖论和 ...

  4. 贝叶斯网络之父Judea Pearl推荐:迈向可解释的知识驱动系统

    本文转载自公众号"数据实战派" 作者 Ren 人工智能(AI)已经从基于符号和逻辑的专家系统逐渐转发展采用统计和逻辑推理技术的混合系统,这也让 AI 模型和机器学习技术变得愈发复杂 ...

  5. 贝叶斯线性回归方法的解释和优点

    本文对比了频率线性回归和贝叶斯线性回归两种方法,并对后者进行了详细的介绍,分析了贝叶斯线性回归的优点和直观特征. 我认为贝叶斯学派和频率学派之间的纷争是「可远观而不可亵玩」的学术争论之一.与其热衷于站 ...

  6. 朴素贝叶斯的三个常用模型: 高斯、多项、伯努利的原理和解释

    在学习用朴素贝叶斯模型做文本分类的时候, 发现朴素贝叶斯是基于三个常用的模型, 高斯, 多项式, 和伯努利,所以查资料发现了一篇比较好的博客解释着三个模型的原理和区别. 所以转载一下: 原文出处:ht ...

  7. 贝叶斯网络结构学习若干问题解释

    题目:贝叶斯网络结构学习若干问题解释 本篇主要为后续讲解具体结构学习算法打基础,共解释以下几个问题: 1.用于贝叶斯网络结构学习的数据集如何存储? 2.学得的贝叶斯网络结构如何存储? 3.什么是节点顺 ...

  8. 朴素贝叶斯分类器:例子解释

    戳上面的蓝字关注我们! 作者:alg-flody 编辑:Emily 今日话题 在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P ...

  9. 贝叶斯网络与最大可能解释(MPE)问题

    题目:贝叶斯网络与最大可能解释(MPE)问题 近来学习贝叶斯网络推理(inference,或译为推断),看到了最大可能解释(MostProbable Explanation, MPE)这个概念,感觉有 ...

最新文章

  1. ​卷积层和分类层,哪个更重要?
  2. html dom反选,HTML DOM系列教材 (五)- 事件
  3. Oracle优化-表设计
  4. C# 使用 Windows API 操作控件: SendMessage
  5. 被该死的Openssl编译嘲讽了一个下午
  6. raspberry pi_使用Raspberry Pi和GPIO引脚控制外部LED
  7. scrum回顾_133. 你最重要:2020版Scrum指南解读
  8. 曾经辉煌无限,如今员工持续大量流失,集团目前仅剩10余人
  9. Luogu1783 海滩防御
  10. 基于TensorFlow的车牌识别系统 (附代码)
  11. 《洛杉矶时报》:失去李开复的Google,中国之路更艰难
  12. 使用PIL改变图像分辨率
  13. siri中文语音助理_针对“语音助手”类产品,浅谈对话式交互设计
  14. uni-app使用 getUserInfo 报错 fail can only be invoked by user TAP gesture 解决方法
  15. 计算机专业我的工匠梦作文,【推荐】我的科技梦作文7篇
  16. 日月年时分秒转换为年月日时分秒
  17. 在WIN10下通过网口给华为海思Hi3516DV300刷机(鸿蒙系统)
  18. android系统手机流量控制方法amp;,基于Android的手机流量控制软件全解.doc
  19. 优秀简历只需一篇就能打天下
  20. 华为p10自带计算机,华为P10评测:EMUI 5.1越用越快、总结

热门文章

  1. 我的签名--发问之前
  2. 网管必备的一键快速修复电脑网络批处理命令
  3. 论文写作word中怎么把所有数字和字母替换为times new roman
  4. IE浏览器缓存问题解决方法整理
  5. PostgreSQL SQL中的ALL,ANY,SOME的用法,sql查询速度优化,sql运行优化
  6. 温网直播_R:加快温网的铲球工作
  7. 实现和(女)朋友一起看电影 Java websocket
  8. 2017北航计算机专业录取分数线,北京排名多少能上北航?附北京航空航天大学近三年录取分数线...
  9. matlab 没有normcdf,Matlab 中标准 正态分布的密度函数是 normcdf(x,0,1) 。
  10. 世界银行领导Bond-I二级市场区块链债务交易