廖辰益

摘要:两百多年前英国数学家贝叶斯提出的贝叶斯定理,经过不断地发展,现在已经成为现代社会某些重要领域的基础。贝叶斯定理广泛运用于人工智能、机器学习、金融、医疗等领域,为这些领域提供了发展的基础。本文从贝叶斯定理的起源开始,紧接着对有关贝叶斯定理的基本概念进行阐述和对相关公式进行解释与推导,再对贝叶斯定理在医疗与过滤信息的应用进行简单分析,最后根据贝叶斯定理的优缺点对贝叶斯定理进行评价。

关键词:贝叶斯定理   全概率公式   联合概率   假阳性问题   过滤垃圾短信

一、贝叶斯定理的提出

贝叶斯定理最早是由英国的学者托马斯·贝叶斯(1702~1763)提出来的。他在生前主要研究概率论方面的知识,成功归纳出了概率统计的基本理论。他死后,他的朋友理查德·普莱斯将他的著作《几率性问题得到解决》发表了出去,但因为贝叶斯定理的应用不够完善,几个世纪以来都没有被广泛接受[1]。但是,随着科学技术的发展,计算机的出现和发展,社会的进步与发展,贝叶斯定理的重要性日益增加,现在已经广泛应用于金融、人工智能等方面。

贝叶斯定理的提出最早是用来解决逆向概率问题的。概率问题分为正向概率问题和逆向概率问题,正向概率问题就是像“箱子里有5个大小相同,质量相等的小球,2个黄球,3个红球,随机摸出一个,得到红球的概率为多少”这样的问题,而逆向概率问题相反,就变为了“从箱子随机摸出一个得到红球的概率为40%,问箱子里有多少球”,很明显,后者的难度远远大于前者。

二、贝叶斯定理

(一)贝叶斯公式

贝叶斯公式又称贝叶斯定理、贝叶斯规则,是概率统计中的应用所观察到的现象对有关概率分布的主观判断进行修正的标准方法,如下所示为贝叶斯公式[2]:

先验概率,人们在对事件进行主观判断中得到的概率,用P(A)表示。后验概率,即在客观调查的基础上所修正的概率,也称为条件概率。B事件发生情况下A事件发生的概率,A在B的条件下的概率,用P(A|B)表示。调整因子,是从先验概率到后验概率的修正,若先验概率为P(A),后验概率为P(A|B),则调整因子为P(B|A)/P(B)。当调整因子=1时,事件A发生的概率与不受事件B影响,当调整因子<1時,先验概率被削弱,当调整因子>1时,先验概率得到增强。联合概率,是指多个事件发生的情况下,另外一件事发生的概率[3]。联合概率的计算公式为:

(二)贝叶斯公式的推导

设有事件A、B,且P(B)>0,则由条件概率公式可得:

由全概率公式可得:

将两式联立,即可得到贝叶斯公式

三、贝叶斯公式的应用

(一)假阳性问题

医疗检测是我们生活中常见的一个问题,医疗正确检测率关乎到每个人的生命安全。运用贝叶斯公式可以解决医疗检测的概率问题。现假设某种医疗设备的报错率为1%,而被检测人员只能检测出阴性和阳性两种情况。在被检测人员中,有90%的人呈阴性,还有10%的人呈阳性,判断假阳性的概率。

我们先假设事件A为呈阳性,事件B为呈阴性,则事件A的先验概率P(A)=10%,事件B的先验概率P(B)=90%。

设事件S为阳性检出事件。可得

在检测人员呈阴性的条件下阳性检出的概率P(S|B)=1%

在检测人员呈阳性的条件下阳性检出的概率P(S|A)=99%

由全概率公式可得

阳性检出的先验概率P(S)=P(S|B)P(B)+P(S|A)P(A)=1%×90%+99%×10%=10.8%

最后由贝叶斯公式可得

P(B|S)=P(B)P(S|B)/P(S)=90%×1%/10.8%=8.333333%

P(B|S)是检测出阳性的条件下被检测人员为阴性的发生概率,即为假阳性的概率。

由此可见,我们直觉判断的概率与实际的概率相差甚远,贝叶斯公式对于医疗检测具有重要意义[4]。

(二)过滤垃圾短信

随着手机的使用越来越普及与广泛,手机短信成为了我们获取信息的一种重要方式。可是在日常的生活中,我们却时常碰到这样的问题:手机信息一大堆,有许多还是垃圾短信,而对自己有用的信息却不知怎么找,那我们该如何解决这样的问题呢?

现在的手机很多都有过滤垃圾短信的功能。只要设置了这个功能,垃圾短信问题就能迎刃而解。而这个功能实质上就是用贝叶斯公式为基础来实现的。通过对垃圾短信特定的词眼的分析,找到垃圾短信的标志,从而过滤垃圾短信。再加上不断地修正,使过滤垃圾短信的准确率不断提高。

假设现在有一条短信,含有“ox”词,它为垃圾短信或正常短信,由手机的数据库可得,在不知道有无“ox”一词的情况下短信为垃圾短信的概率为90%,短信为垃圾短信时出现“ox”这个词的概率为90%,短信为正常短信时出现“ox”这个词的概率为90%,要计算出这条短信是垃圾短信的概率,就先设垃圾短信为S,正常短信为H,而用A表示出现“ox”这个词的事件。

可得正常短信的先验概率P(H)=1-90%=10%

垃圾短信的先验概率P(S)=90%

在短信为垃圾短信时出现“ox”这个词的概率P(A|S)=90%

短信为正常短信时出现“ox”这个词的概率P(A|H)=90%

由全概率公式可得,出现“ox”这个词的概率为P(A)=P(A|S)P(S)+P(A|H)P(H)=90%

由贝叶斯公式可得,在出现“ox”这个词时短信为垃圾短信的概率,即这条短信是垃圾短信的概率为

P(S|A)=P(S)P(A|S)/P(A)=90%×90%/90%=90%

再结合其他词出现的概率,通过联合概率进行再计算,手机短信正确判定率会有所提高。

假设有另外一个词“leap”,其中,短信为垃圾短信时出现“leap”这个词的概率为50%,短信为正常短信时出现“leap”这个词的概率为30%。

我们可以设出现“leap”这个词的事件P(B).

那么短信为垃圾短信时出现“leap”这个词的概率P(B|S)=50%,短信为正常短信时出现“leap”这个词的概率P(B|H)=30%

由全概率公式可得P(B)=P(B|S)P(S)+P(B|H)P(H)=50%×90%+30%×10%=48%

再由聯合概率公式可得,短信为垃圾短信的概率

P=P(A)P(B)/{P(A)P(B)+[1-P(A)][1-P(B)]}=90%×48%/[90%×48%+(1-90%)×(1-48%)]=89.2562%

通过计算联合概率,修正了短信为垃圾短信的概率。以此类推,再结合其他词在垃圾短信和正常短信中出现的概率,利用全概率公式算出这些词的先验概率,再用联合概率公式求出短信为垃圾短信的概率,对概率进行不断修正,提高手机过滤垃圾短信的准确率。

四、贝叶斯定理的优劣

贝叶斯定理相比于传统的经典估计,以主观性为切入点,有着很大优势。能重复估计概率并不断修正概率,从而使概率的准确率提高。贝叶斯公式的创造,推动了概率统计学的发展,并广泛运用于现代社会,在以后的社会还会有更大的用途。

但贝叶斯定理也存在着一定的局限性,因为是以主观判断为前提,带有较强的主观性[5]。由于每个人对先验信息的解读不同,得出来的先验概率不同,从而得出的后验概率也是千差万别,这种估计的概率缺乏科学的客观性。

五、结语

贝叶斯定理的发现,大大推动了概率统计学的发展,由原本的无法修正概率的传统概率估计到可对概率进行不断修正的贝叶斯定理,提高了概率统计的实用性与可更新性。贝叶斯定理相对于传统概率估计是概率统计学中一扇新的大门。贝叶斯定理从提出开始就在不断的发展中,特别是到了我们今天日新月异的现代社会,它的用途越来越广泛。贝叶斯定理广泛运用于金融、医疗、人工智能等领域,像贝叶斯网络、贝叶斯机器学习等都得益于贝叶斯定理才能迅速发展并运用人工智能领域中,为我们的生活带来了诸多新奇与便利。随着社会的发展,贝叶斯定理也会不断地发展,从而贝叶斯定理也将会更好的运用于其他领域和更多的新领域。

参考文献:

[1]王丽.浅析贝叶斯公式及其在概率推理中的应用[J].科技创新导报,2010,(24):136-136.

[2]陶永祥.浅谈全概率公式和贝叶斯公式的应用[J].牡丹江大学学报,2009,(04):132+135.

[3]谢宏斌.贝叶斯公式的应用和推广[J].数学学习与研究,2017,(10):8-8.

[4]张秀英,陈梅华.贝叶斯(Bayes)公式及其在统计决策中的应用[J].河南广播电视大学学报,2000,(01):44-46.

[5]杨静,陈冬,程小红.贝叶斯公式的几个应用[J].大学数学,2011,27(02):166-169.

(作者单位:广东梅县东山中学)

贝叶斯分析好坏_浅析贝叶斯定理及其应用相关推荐

  1. 贝叶斯分析好坏_贝叶斯统计 | 第五章第一部分 决策基本概念

    逃不掉线上期中考.........开摄像头+屏录+拍照上传......20号考贝叶斯,18号考多元,时间序列考试时间还未知....... 但笔记还是要记的.不过贝叶斯已经跟上进度了,之后会按课程进度来 ...

  2. 贝叶斯分析好坏_经典Vs贝叶斯统计对点估计和线性回归理解

    一.点估计 数理统计有两大基本内容,估计(参数估计:非参数估计,如总体分布)和假设检验(原假设,备择假设).参数估计有点估计和区间估计. 对于点估计的判定都是从 经验风险 来判定, 在此,无论是频率学 ...

  3. 贝叶斯分析好坏_贝叶斯估计对比于经典估计的优势分析与其局限性

    贝叶斯估计对比于经典估计的优势分析与其局限性 经典估计和贝叶斯估计 经典估计理论是通过一个随机抽样过程, 从总体中随机抽取一定数量的样本, 再结合总体分布或总体分布族提供的的信息, 推断出总体分布或总 ...

  4. mysql concat例子_浅析MySQL中concat以及group_concat的使用

    说明: 本文中使用的例子均在下面的数据库表tt2下执行: 一.concat()函数 1.功能:将多个字符串连接成一个字符串. 2.语法:concat(str1, str2,...) 返回结果为连接参数 ...

  5. 怎样判断电饭锅温度传感器的好坏?_怎样判断一个线束胶带的好坏?

    小编语:线束胶带的市场好比血海,打的热火朝天.甚至很多OEM与线束厂甚至牺牲线束的质量而换取价格,其实这样是不可取的.判断一个胶带的好坏很简单,从性能方面逐一对比,在满足OEM标准的前提下,价格最便宜 ...

  6. python的四种内置数字类型_浅析Python数字类型和字符串类型的内置方法

    一.数字类型内置方法 1.1 整型的内置方法 作用 描述年龄.号码.id号 定义方式 x = 10 x = int('10') x = int(10.1) x = int('10.1') # 报错 内 ...

  7. catia圆柱转化为圆台_浅析actran气动噪声仿真技术,以圆柱绕流气动噪声仿真为例...

    一.写在前面Actran是fft(Free Field Technologies)公司的旗舰产品,"号称"市场上最先进最完善的声学模拟软件(引用官方语言),覆盖振动声学和流动声学的 ...

  8. python和pycharm之间的关系_浅析python,PyCharm,Anaconda三者之间的关系

    一.它们是什么? 1.python Python是一种跨平台的计算机程序设计语言,简单来说,python就是类似于C,Java,C++等,一种编程语言. 2.Anaconda Anaconda指的是一 ...

  9. docker安装redis提示没有日记写入权限_浅析Linux下Redis的攻击面(一)

    文章转自先知社区:https://xz.aliyun.com/t/7974 0x0 前言   Redis在内网渗透中常常扮演着重要的角色,其攻击方式非常多样化,在内网复杂的环境架构中容易出现各种问题, ...

  10. mysql 线程缓存_浅析MySQL内存的使用说明(全局缓存+线程缓存)

    首先我们来看一个公式,MySQL中内存分为全局内存和线程内存两大部分(其实并不全部,只是影响比较大的 部分): 复制代码 代码如下: per_thread_buffers=(read_buffer_s ...

最新文章

  1. 摄像头标定GML Camera Calibration
  2. 计算机组成原理时序,计算机组成原理 中央处理器(CPU) 多级时序系统
  3. 【viterbi维特比译码】卷积码为(2,1,7)标准卷积码和维特比译码的FPGA实现
  4. 【pmcaff】页面停留时间和网站停留时间详解
  5. postgresql update使用别名_PostgreSQL逻辑复制之pglogical
  6. 列表异步线程加载图片
  7. Maximum upload size exceede上传文件大小超出解决
  8. Java安全之数字证书
  9. 认识HTML5的WebSocket 1
  10. autojs识别数字ocr
  11. 江门android培训,基于selenium模块的江门市干部培训网络学院自动选课脚本
  12. 魔兽世界服务器维护后稀有宠物刷新,魔兽世界猎人稀有宠物图签与刷新方式时间介绍...
  13. xise php一句话木马,渗透利器 | 常见的WebShell管理工具
  14. 给文件夹加密的两种方法
  15. OSChina 周四乱弹 —— 开个程序门诊?
  16. 抖音短视频的用户来源和活跃时间
  17. Linux命令--god
  18. 怎么重置imac_[重置系统]如何重置Mac电脑到出厂状态
  19. 【MATLAB】理解采样频率和信号频率的关系
  20. 51单片机自学--改造我的机器

热门文章

  1. LINUX无法定位软件包
  2. Android车牌识别sdk开发包,【车牌识别SDK 车牌识别SDK开发包 车牌识别系统】 - 太平洋安防网...
  3. 图书馆系统软件测试计划,图书馆管理系统软件测试计划
  4. ABB伺服驱动调试(三)
  5. matlab方差分析加代码和结果分析
  6. lme4 | 在R中运行混合效应模型(多层模型)
  7. matlab 正交导频序列,导频序列和训练序列的区别
  8. 2020-11-25
  9. 【AI大咖】扒一下低调的Yoshua Bengio大神
  10. python可视化窗口制作一个摇骰子游戏_通过构建一个简单的掷骰子游戏去学习怎么用 Python 编程...