引言

无论你是在建立机器学习模型还是在日常生活中做决定,我们总是选择风险最小的方案。作为人类,我们天生就采取任何有助于我们生存的行动;然而,机器学习模型最初并不是基于这种理解而建立的。这些算法需要经过训练和优化,以选择风险最小的最优方案。此外,很重要的一点在于,我们必须明白,如果某些高风险的决定做的不正确,将会导致严重的后果。

我们以癌症诊断为例。根据病人的计算机断层扫描(CT),放射科医生能确定肿瘤的存在吗?如果他们认为病人体内有肿瘤,那么医生需要弄清楚肿瘤是良性的还是恶性的,以确定正确的治疗方法。鉴于本文的目的是描述做出这些决策的统计方法,所以我只关注问题的第一部分:病人是否有肿瘤,是,还是否?

贝叶斯定理

在统计学和概率论领域,最著名的方程之一是贝叶斯定理(见下面的公式)。基本直觉是,给定某个特征(即属性)时,某个类或事件发生的概率是基于特征值的可能性和有关该类或事件的任何先验信息计算的。这句话看起来有点复杂,所以我们一步步拆开来看。首先,癌症检测是一个两类问题。第一类ω1\omega_1ω1​表示肿瘤存在,ω2\omega_2ω2​表示肿瘤不存在。

先验

**贝叶斯定理有四个部分:先验、似然、置信和后验。**先验概率(P(ω1),P(ω2)P(\omega_1),P(\omega_2)P(ω1​),P(ω2​))定义了事件ω1\omega_1ω1​或ω2\omega_2ω2​在自然界中发生的可能性。我们要注意,先验概率的分布根据我们问题的情景而各有差异。由于目标是检测癌症,可以肯定的是,肿瘤出现的概率很低:P(ω1)<P(ω2)P(\omega_1)<P(\omega_2)P(ω1​)<P(ω2​)。但是,不管值是多少,所有先验概率的总和都必须是1。

似然

从技术上来说,CT扫描是指用x射线以圆周运动的方式进行扫描。产生的关键指标之一是衰减——衡量x射线吸收程度的指标。密度越高的物体衰减越大,反之亦然。因此,与肺组织相比,肿瘤可能具有更高的衰减。

假设我们只通过衰减值这一个特征来从ω1\omega_1ω1​和ω2\omega_2ω2​之间做出决定。每个类都有一个类条件概率密度p(x∣ω1)p(x|\omega_1)p(x∣ω1​)和p(x∣ω2)p(x|\omega_2)p(x∣ω2​),称为“似然度”。下图显示了一个的P(x∣ω)P(x|\omega)P(x∣ω)的类条件概率密度示意图。类条件概率分布是通过分析训练数据集来提取的;但是,如果有相关领域的专家来检查一下数据的有效性是最好的。

置信

描述置信p(x)p(x)p(x)最好的办法是全概率公式。这条公式指出,如果有相互排斥的事件(例如ω1\omega_1ω1​和ω2\omega_2ω2​),其发生概率总和为1,则某个特征(例如衰减程度)出现的概率(也即我们的置信)是所有相互排斥的事件的似然度与对应事件先验概率乘积的和。

后验

贝叶斯定理的结果称为后验概率P(ω1∣x)P(\omega_1|x)P(ω1​∣x)和P(ω2∣x)P(\omega_2|x)P(ω2​∣x)。后验概率表示在给定特征xxx(例如衰减程度)的情况下,观察值属于ω1\omega_1ω1​或ω2\omega_2ω2​类(即是否存在肿瘤)的概率。每一个观测值都有一个后验概率,所有后验概率的总和必须达到1。对于我们试图解决的癌症检测问题,它有两个后验概率。除了似然度和后验概率之间的联系之外,后验概率还可能受到先验概率P(ω)P(\omega)P(ω)的严重影响。

决策规则

既然我们已经很好地理解了贝叶斯定理,现在是时候看看如何利用它在两个类之间建立一个决策边界了。有两种方法可以确定病人是否有肿瘤。第一种是一种简单的方法,它只使用先验概率值来做决定;第二种方法利用后验概率,利用先验概率和类条件概率分布来确定病人患有肿瘤的概率。

使用先验概率

假设我们只根据自然的先验概率做出决策,这意味着我们忘记贝叶斯定理中的所有其他因素。由于有肿瘤的概率P(ω1)P(\omega_1)P(ω1​)远小于没有肿瘤的概率P(ω2)P(\omega_2)P(ω2​),我们的模型/系统将始终预测每个患者都没有肿瘤。尽管模型/系统在大多数情况下都是正确的,但它无法识别出真正患有肿瘤并需要救治的患者。

使用后验概率

现在让我们使用后验概率P(ω1∣x)P(\omega_1|x)P(ω1​∣x)和P(ω2∣x)P(\omega_2|x)P(ω2​∣x)来采取更全面的方法。由于后验概论是贝叶斯定理的结果,类条件概率密度p(x∣ω1)p(x|\omega_1)p(x∣ω1​)和p(x∣ω2)p(x|\omega_2)p(x∣ω2​)减轻了先验的影响。如果我们的模型/系统所观察的区域的衰减比普通组织要高,那么尽管存在自然的先验概率,但肿瘤出现的概率还是会增加。假设一个特定区域有75%的几率含有肿瘤,那么这就意味着有25%的几率根本没有肿瘤。这25%的几率是我们出错的概率,也被称为风险。

结论

您刚刚学到的是贝叶斯决策理论的一个简单的单变量应用,它可以通过使用多元高斯分布代替置信和似然度来扩展到更大的特征空间。虽然本文的重点是解决癌症检测的问题,但是贝叶斯定理也被广泛用于包括投资、市场营销和系统工程在内的众多领域。

参考资源

[1]Seo, Young-Woo. (2006). Cost-Sensitive Access Control for Illegitimate Confidential Access by Insiders. Proceedings of IEEE Intelligence and Security Informatics: 23–24 May 2006. 3975. 117–128. 10.1007/11760146_11.

[2] Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification. New York: Wiley. ISBN: 978–0–471–05669–0

[3] Glatter, R., “Medicare To Cover Low-Dose CT Scans For Those At High Risk For Lung Cancer”, Forbes (2015)

作者:Rayhaan Rasheed

deephub翻译组:Alexander Zhao

机器学习的统计方法 贝叶斯决策理论入门相关推荐

  1. Educoder 机器学习 第1关:基于贝叶斯决策理论的分类方法

    第1关:基于贝叶斯决策理论的分类方法 任务描述 本关任务:理解朴素贝叶斯的分类思想,完成编程习题. 相关知识 为了完成本关任务,你需要掌握:1.贝叶斯,2.朴素贝叶斯. 贝叶斯 朴素贝叶斯是贝叶斯决策 ...

  2. 贝叶斯决策理论之入门篇

    贝叶斯定理 首先是条件概率公式如下: P(A|B)=P(B|A)P(A)P(B)P(A|B)=P(B|A)P(A)P(B) P(A|B)=\frac {P(B|A)P(A)}{P(B)} 为了方便理解 ...

  3. 如何在机器学习项目中使用统计方法的示例

    摘要: 在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法. 统计学和机器学习是两个密切相关的领域.两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目 ...

  4. 贝叶斯决策理论和概率密度估计方法

    贝叶斯决策理论和概率密度估计方法 这学期学习了<模式识别>这门课程,刚刚考完试,趁着考试复习的机会把模式识别的基础方法总结了一下了,这一篇的主要内容是转自Angel_Yuaner大神的博客 ...

  5. 《模式识别原理及工程应用》——第2章 基于贝叶斯决策理论的分类器 2.1 分类器的描述方法...

    第2章 基于贝叶斯决策理论的分类器 2.1 分类器的描述方法 分类器是一种计算机程序,它的设计目标是在通过学习后,可自动将数据分到已知类别.分类器常应用在搜索引擎以及各种检索程序中,同时也大量应用于数 ...

  6. 基于贝叶斯决策理论的分类器

    1.引言 模式识别是根据对象特征值将其分类.d个特征组成特征向量x=[x1,···,xd]T,生成d维特征空间,在特征空间一个x称为一个模式样本. Bayes决策理论是用概率统计方法研究决策问题. ( ...

  7. 系统学习机器学习之参数方法(二)

    一.贝叶斯决策 现在举一个例子说明怎么使用贝叶斯公式来做决策. 例子: 假设有100个人,每个人都有自己的生日.1年有12个月,假设这100个人的生日从1月到12月的人数的分布情况如下: 3     ...

  8. 关于如何解释机器学习的一些方法

    关于如何解释机器学习的一些方法 到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位消费 ...

  9. 生物群落数据分析最常用的统计方法:回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法

    原文>>>R语言生物群落数据统计分析应用 R 语言作的开源.自由.免费等特点使其广泛应用于生物群落数据统计分析.生物群落数据多样而复杂,涉及众多统计分析方法.本内容以生物群落数据分析 ...

最新文章

  1. 表格中td限宽溢出以省略号代替
  2. 揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性
  3. Windows Phone 7新开发工具发布
  4. Adobe Reader阅读器打开时显示上次看到的页面
  5. 「后端小伙伴来学前端了」Vuex进阶操作,让你的代码更加高效(简称如何学会偷懒 【手动狗头】)
  6. AcWing - 175 电路维修(思维建边+最短路)
  7. 2021 NOI游记
  8. java 开发人员工具_每个Java开发人员都应该知道的10个基本工具
  9. toCharArray()和 charAt()的用法
  10. 函数及脚本的综合应用
  11. 工资太低怎么办?这几个副业每天赚300+
  12. php课后答案 唐四薪_php课后习题及答案
  13. python内置函数升序降序_python内置函数之sorted
  14. excel柱状图粗细怎么调_【EXCEL图表当中的柱状图怎么加粗,太细了。】excle柱状图怎么调整...
  15. 【微信H5开发】the permission value is offline verifying
  16. 解密QQ旋风和迅雷以及快车链接地址
  17. 微信开发工具,字体如何调整的大一点?
  18. Java 算法之三色旗
  19. python爬虫:爬取全国航班信息
  20. Electron flash插件

热门文章

  1. dwz 表单提交 html,dwz 文件上传表单提交 分析
  2. php 短信接口验证码,PHP代码示例_PHP验证码短信接口 | 微米-中国领先的短信彩信接口平台服务商...
  3. python语言用法_python语言基本语句用法总结
  4. 【乱入】Uva11021麻球繁衍
  5. ker矩阵是什么意思_第五课:初等矩阵及酉矩阵
  6. 广告VS电商 抖音快手的变现之争
  7. error C3646: 未知重写说明符
  8. 戴尔电脑遇到问题,运行SupportAssist.更新后大部分问题可以解决。
  9. JAVA-SE中:集合,IO流,文件与异常
  10. 解锁wp7手机实现真机调试