作者:Jaime Zornoza

翻译:李 洁

校对:郑 滋

本文长度约为3400字,建议阅读10分钟

本文为大家详细介绍了概念学习中常见的贝叶斯理论。


通过一个简单示例,了解概率的基本定理之一。

本文需要你有一些概率和统计的基本知识。如果你没有,别怕,我已经收集了一系列我能找到的最好的资源来为你介绍这些主题,以便你阅读,理解和充分享受文章内容。

在这篇文章中,我们将讨论概率论中最著名和最常用的定理之一:贝叶斯定理。从未听说过吗? 那你就有福了! 已经了解了吗? 那就继续读下去,用一个简单例子来巩固你的知识,以便你也可以用简单的术语向别人解释。

在以后的文章中,我们将学习一些更实用的贝叶斯定理的简化,以及其他机器学习的概率方法,例如隐马尔可夫模型。

我们开始吧!


概率介绍

在本节中,我列出了三个非常棒的简洁的资源(主要是前两个,第三个更广泛一点),以提供理解本文所需要了解的概率基础。不用担心,这些概念非常简单,只要快速阅读一下你就肯定能完全理解它们。

如果你已经掌握了基本概率论,可以跳过此部分。

  • 带有简明定义的中等难度的文章(https://medium.com/@laumannfelix/statistics-probability-fundamentals-1-1325ef72f3f) ,内容涵盖了理解这篇文章所需要的主要的概率论术语和其他的一些说明性的简单例子。

  • 有趣的机器学习中的概率简介(http://www.mbmlbook.com/MurderMystery.html),主要通过一个神秘但简单的示例介绍了概率的主要术语。

  • 哈佛大学的统计110课程(https://projects.iq.harvard.edu/stat110/home)。如果你不仅想学习基础知识,还想更深入地了解统计的美好世界,这里有更丰富的资源。


好了,现在你可以继续读剩下的内容了,坐下来,放松并享受吧。

贝叶斯定理

谁是贝叶斯?

托马斯·贝叶斯(Thomas Bayes,1701年-1761年)是英国神学家、数学家,皇家学会(世界上最古老的国家科学学会,也是英国促进科学研究的领先国家组织)会员。其他的科学家也加入了皇家学会, 例如牛顿,达尔文和法拉第。他提出了最重要的概率定理之一,并以他的名字命名:贝叶斯定理,或条件概率定理。

尊敬的托马斯·贝叶斯的画像,贝叶斯定理之父


定理:条件概率

为了解释这个定理,我们将举一个非常简单的例子。假设你被诊断出患有非常罕见的疾病,这种病患的比例仅是人口的0.1%, 即每千人中有1人。

你参加的检查这种疾病的检测能正确地找出99%的患者,将健康的人错误分类的几率只有1%。

真是命中注定!医生,这种病会致命吗?

大多数人都会这么问。然而,在这次测试之后,我们真正患这种疾病的几率有多大呢?
99%!可以开始整理我的遗物了。

基于这种想法,贝叶斯思想应该占上风,因为它实际上离真实值非常遥远。让我们用贝叶斯定理来获得一些观点。

贝叶斯定理,或之前所说的条件概率定理,是用来计算某一事件(E)已经发生(例如在测试中被诊断为阳性)时假设(H)为真的概率。计算公式如下:

贝叶斯的条件概率公式

等号左边的P(H|E)项是已经在疾病测试中诊断为阳性(E)的条件下患病(H)的概率,这是我们实际想要计算的。概率项中的竖线(|)表示条件概率(即, B的条件下A的概率表示为P(A|B))。

假如假设为真,则右边分子的左项P(E|H)是事件的概率。在示例中,就是我们患有这种疾病的情况下,在测试中被诊断为阳性的可能性。

旁边的P(H)项是在任何事件发生之前假设的先验概率。这是在进行任何检查之前患上疾病的可能性。

最后,分母上的P(E)项是事件的概率,即被诊断为疾病阳性的概率。该项可以进一步分解为两个较小项的和:患病且检测为阳性和不患病且检测为阳性。

解构了测试结果为阳性的概率

在这个公式中,P(〜H)表示没有疾病的先验概率,其中〜表示否定。 下图描述了条件概率的整体计算中涉及的每一项:

描述贝叶斯定理公式所涉及的每一项

对于我们来说,请记住,假设H患有疾病,事件E为在此类疾病的测试中被诊断为阳性。

如果使用我们见过的第一个公式(用于计算患病并被诊断为阳性的条件概率的完整公式),分解分母并插入数字,我们将得到以下算式:

条件概率的计算

0.99来自于有疾病被诊断出阳性的概率99%,0.001是患病的几率1/1000,0.999是未患病的概率,0.01是即使没有患病也被诊断为阳性的可能性。计算的最终结果是:

计算结果

9% !我们得这种病的几率只有9% !“这怎么可能呢?”你可能在问自己。魔法吗?不,我的朋友们,这不是魔法,这只是概率:应用数学的常识。像丹尼尔•卡尼曼(Daniel Kahneman)在《思考,快与慢》中所描述的那样,人的大脑很难估计和计算概率,就像前面的示例所展示的一样,所以我们应该警惕直觉的惯性思考,后退一步,使用所能用的概率工具。

现在想象一下,在第一次测试被诊断为阳性后,我们决定在另一个不同的诊所做另一次相同条件的测试来复查结果,不幸的是我们再次得到了阳性的诊断,这说明第二次测试也表明我们患有这种疾病。

现在患病的实际概率是多少?我们可以使用与之前完全相同的公式,只是将最初的先验概率(患病几率为0.1%)替换为之前的后验概率(在一次检测中被诊断为阳性的几率为9%),以及其他项。

如果我们处理得到的数字:

计算第二次检验为阳性后的条件概率

第二次检验为阳性的结果

现在我们实际患此病的几率变高了,为91%。尽管情况看起来很糟糕,但在两次检测呈阳性后,我们仍然不能完全确定我们是否患有这种疾病。确定性似乎不存在于概率的世界。

定理背后的事实

这个著名定理背后的事实是,我们永远不可能完全确定这个世界,因为它是一个不断变化的存在,变化是现实的本质。然而,我们可以做的是,就像这个定理所表达的,随着我们获得越来越多的数据或证据,我们对现实的认识有了更新和提高。

这可以用一个非常简单的例子来说明。想象一下这样的情景:你在一个方形的花园边缘,坐在椅子上,朝花园外看。在对面,躺着一个仆人,他把一个蓝色的球扔进了广场。在那之后,他不断地把其他黄色的球扔进正方形,并告诉你它们相对于最初的蓝球的位置。

随着越来越多的黄球落地, 并且你知道它们相对于第一个蓝球的落地位置,逐渐增多了对蓝球的可能位置的了解,而排除了花园的某些部分:随着我们获得更多证据(更多的黄球)我们更新了知识(蓝球的位置)。

在上面的示例中,仅抛出了三个黄球,我们已经可以开始确定某个想法,即蓝球位于花园左上角的某个位置。

当贝叶斯第一次提出该定理时,他并没有一开始就发表它,他认为这没有什么特别的,这个定理所在的论文是在他死后发现的。

如今,贝叶斯定理不仅是现代概率的基础之一,还在智能系统中使用繁多,例如垃圾邮件过滤器、文本处理,甚至于与文本处理无关的场景。

在下一篇文章中,我们将看到这些应用是什么,以及贝叶斯定理及其变体如何应用于许多实际用例。如果你想看,请关注我的频道,并保持关注!


就这些,我希望你喜欢这个帖子。你可以在LinkedIn上和我联系,或者在Twitter上关注我@jaimezorno。另外,你也可以看看我其他关于数据科学和机器学习的文章。祝你阅读愉快!

原文标题:
Probability Learning I: Bayes’ Theorem
原文链接:
https://www.kdnuggets.com/2019/10/probability-learning-bayes-theorem.html
编辑:王菁
校对:洪舒越

译者简介



李洁,香港科技大学电信学硕士毕业生,现任北京师范大学香港浸会大学联合学院 数据科学系助教。喜欢数据科学,喜欢阅读,喜欢研究代码和做手工。希望一直保持学习的状态和对生活的热爱,每天都快乐而有进步~

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 一文读懂概率论学习:贝叶斯理论(附链接)相关推荐

  1. 推荐 :一文读懂概率论学习:贝叶斯理论(附链接)

    作者:Jaime Zornoza  翻译:李 洁  校对:郑 滋 本文长度约为3400字,建议阅读10分钟 本文为大家详细介绍了概念学习中常见的贝叶斯理论. 通过一个简单示例,了解概率的基本定理之一. ...

  2. 一文读懂开创性文章——贝叶斯个性化排序(BPR)

    BPR绝对可以算是推荐系统领域的开创性文章之一,对于经典我们一定要好好体会和理解. BPR是一个基于pairwise的算法,在BPR之前大部分方法都基于pointwise的方法,这存在一定的问题,而B ...

  3. | 一文读懂迁移学习(附学习工具包)

    当一个CNN用于另一个领域,就使用到了迁移学习.迁移学习是一种用于模型领域泛化和扩展的工具. 文章链接:独家 | 一文读懂迁移学习(附学习工具包) 参考:当深度学习成为过去,迁移学习才是真正的未来? ...

  4. 独家 | 一文读懂语音识别(附学习资源)

    原标题:独家 | 一文读懂语音识别(附学习资源) 一.前言 6月27日,美国权威科技杂志<MIT科技评论>公布2017全球最聪明50家公司榜单.科大讯飞名列中国第一.全球第六.全世界排在科 ...

  5. 一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述

    <繁凡的深度学习笔记>第 15 章 元学习详解 (上)万字中文综述(DL笔记整理系列) 3043331995@qq.com https://fanfansann.blog.csdn.net ...

  6. 独家 | 一文读懂机器学习中的贝叶斯统计学

    作者:Matthew Stewart, PhD Researcher 翻译:吴金笛 校对:丁楠雅 本文约4300字,建议阅读15分钟. 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较. 你有没 ...

  7. 独家 | 一文读懂自然语言处理NLP(附学习资料)

    前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语 ...

  8. ​独家 | 一文读懂贝叶斯优化

    作者:Apoorv Agnihotri,Nipun Batra 翻译:王雨桐 校对:张一然 本文约6200字,建议阅读10+分钟. 本文将贝叶斯优化拆解为易于理解的小部分. 许多现代的机器学习算法都涉 ...

  9. 独家 | 一文读懂贝叶斯网络

    作者:Devin Soni 翻译:车前子 校对:孙韬淳 本文约1400字,建议阅读8分钟. 本文从概率论出发,为你阐述贝叶斯网络. 贝叶斯网络是一种利用贝叶斯推断进行概率计算的概率图模型.贝叶斯网络的 ...

最新文章

  1. 创业公司如何巧用工具提高团队生产力——豌豆荚创始人王俊煜讲述团队背后的“利器”...
  2. java.lang中String类源码分析
  3. kylin KV+cube方案分析
  4. 全球及中国蔬菜泥配料行业竞争策略及投资潜力研究报告2021-2027年版
  5. ubuntu18.10无法ping百度
  6. python回复邮件_在Python中通过Outlook回复电子邮件
  7. Android App性能測试
  8. Guava - 拯救垃圾代码,写出优雅高效,效率提升N倍
  9. Zoho 修复Desktop Central 中的又一个严重漏洞
  10. SCI从入门到精髓(三)——如何写出牛文章
  11. pr视频两边模糊_干货!Pr教程:如何在视频中添加模糊效果?
  12. PMP分享 | 脚踏实地,仰望星空
  13. opencv怎么使用GPU加速
  14. 查看服务器的ip地址
  15. CAD.net cad中的菜单创建
  16. meta http-equiv=Content-Type content=text/html; charset=gb2312设置中文显示
  17. 学习英语01——听力——剑雅12 T6S2
  18. wechatpy开发微信公众号(实现自定义菜单,翻译)
  19. 推荐一位我的朋友,艾小仙,前阿里巴巴技术专家P7
  20. InGaAs APD阵列的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告

热门文章

  1. sql增删改查_增删改查!sql2pandas方法手册
  2. python编辑svg文件_如何使用librsvg Python绑定调整svg映像文件的大小
  3. 【Linux】函数与参数
  4. ionic2.0禁止横屏模式
  5. they're hiring
  6. RHlinux下安装VORACLE VM VIRTUAL BOX
  7. 集成服务监控器-green.monitor发布
  8. Python读写文件 - 转
  9. .NET技术 ASP.NET中常用的文件上传下载方法(多文件上传)
  10. 如何查看和关闭异常SQL进程