编辑导语:做过数据分析的人,想必对贝叶斯模型都不会陌生。贝叶斯预测模型是运用贝叶斯统计进行的一种预测,不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息。通过实证分析的方法,将贝叶斯预测模型与普通回归预测模型的预测结果进行比较,结果表明贝叶斯预测模型具有明显的优越性。

说到贝叶斯模型,就算是不搞数据分析的都会有所耳闻,因为它的应用范围实在是太广泛了。

大数据、机器学习、数据挖掘、数据分析等领域几乎都能找到贝叶斯模型的影子,在疾病诊断、金融投资、日常生活中也都会用到。

贝叶斯公式不仅可以帮助人们确定导致某一事件发生的最可能的原因,而且在数量上刻画了随着新信息的加入,人们对一个事物的认识如何从先验概率过渡到后验概率。

要了解贝叶斯,我们先来看看条件概率。

一、条件概率

条件概率是指事件A在事件B发生的条件下发生的概率,条件概率表示为:P(A|B)。

来看下面这个例子:

假设现在有一个装了7个石块的罐子,其中4块是红色的,3块是白色的,如图:

问题1:如果从罐子中随机取出一块石头,那么是白色的可能性是多少?

回答1:由于取石头有7种可能,其中3块是白色,所以取出白色石头的概率为3/7。

问题2:取出红色的概率是多少?

回答2:很显然,答案是4/7。

我们用P(white)来表示取到白色石头的概率,用P(red)来表示取到红色石头的概率,那么:P(white)=3/7,P(red)=4/7。

很简单,对吧?

问题来了:现在,我们把这7块石头放到两个桶中,上述概率该如何计算呢?

问题分析:要计算P(white)或者P(red),事先得知道石头所在桶的信息会不会改变结果?

假定计算的是从B桶取到白色石头的概率,这个概率可以记作P(white|B),我们称之为“在已知石头出自B桶的条件下,取出白色石头的概率”,这就是条件概率。

从上图可以看出P(white|A)=2/4,P(white|B)=1/3,依然很简单。

条件概率的计算公式如下:

P(white|B)=P(white and B)/P(B)

我们来验证下上述公式:

  • P(white and B)=球是白色且球是从B桶中取到的=1/7;
  • P(B)=从B桶中取到球的概率=3/7;
  • P(white|B)=P(white and B)/P(B)=(1/7)/(3/7)=1/3;

为了方便起见,我们将white替换为A,条件概率可以表示为P(A|B)=P(A and B)/P(B)。

二、贝叶斯公式

知道了条件概率,现在,我们来推算贝叶斯公式:

1. 第一步

条件概率公式两边都乘以P(B),可以得到:

P(A and B)=P(A|B)*P(B)

这个公式表示,条件A 和 B同时发生的概率等于B条件下A事件发生的概率乘以B事件发生的概率。

2. 第二步

顺序调换。假设条件A 和条件B是两个独立的事件,所以我们可以将上述公式顺序调换,即:

P(A and B)=P(B and A)=P(B|A)*P(A)

这个公式表示,条件A 和 B同时发生的概率等于B条件下A事件发生的概率乘以B事件发生的概率。

3. 第三步

重新代入条件概率公式:

P(A|B)=P(A and B)/P(B)

代入第二步的公式:

P(A and B)=P(B|A)P(A)

可以得到:

P(A|B)=P(B|A)P(A)/P(B)

贝叶斯公式告诉我们如何交换条件概率的条件与结果,即如果已知P(B|A),要求P(A|B),那么可以使用上述计算方法。

上述公式中,每个概率又有不同的说法:

  • P(A)被称为先验概率;
  • P(B|A)被称为后验概率;
  • P(B)被称为全概率。

三、贝叶斯公式的应用

以下摘一段 wikipedia 上对贝叶斯的简介:

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。

在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。

而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。

这个问题,就是所谓的逆概问题。

贝叶斯是机器学习的核心方法之一。

这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的。

沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。

这个时候,我们就需要提供一个猜测(hypothesis)。所谓猜测,当然就是不确定的,但也绝对不是两眼一抹黑瞎蒙——具体地说,我们需要做两件事情:

以病人的分类为例,某个医院早上收了六个门诊病人,如下表:

现在又来了第七个病人,是一个打喷嚏的建筑工人,请问他患上感冒的概率有多大?

根据贝叶斯定理:

可得:

假定”打喷嚏”和”建筑工人”这两个特征是独立的,因此,上面的等式就变成了:

这是可以计算的。

因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒;同理,可以计算这个病人患上过敏或脑震荡的概率,比较这几个概率,就可以知道他最可能得什么病。

这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。

本文由 @CARRIE 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

贝叶斯公式设b_数据分析经典模型——朴素贝叶斯相关推荐

  1. 决策树模型 朴素贝叶斯模型_有关决策树模型的概述

    决策树模型 朴素贝叶斯模型 Decision Trees are one of the highly interpretable models and can perform both classif ...

  2. 【NLP】经典分类模型朴素贝叶斯解读

    贝叶斯分类器在早期的自然语言处理任务中有着较多实际的应用,例如大部分的垃圾邮件处理都是用的贝叶斯分类器.贝叶斯分类器的理论对于理解后续的NLP模型有很大的进益,感兴趣的小伙伴一定要好好看看,本文会详细 ...

  3. 【机器学习】从一个风控案例讲起-古老而经典的朴素贝叶斯

    今天给大家带来的文章,关于朴素贝叶斯的,一个古老而经典的算法,充分的理解有利于对风控特征或者识别的开拓新的思路. 一.从一个案例讲起 假如我们的目标是判断邮件是否是垃圾邮件,邮件内容是[代开增值税发票 ...

  4. 大数据分析案例-基于朴素贝叶斯算法构建微博谣言检测模型

  5. 机器学习(五)常用分类模型(K最近邻、朴素贝叶斯、决策树)和分类评价指标

    机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 文章目录 机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 综述 常用分类模型 K最近邻模型 朴素贝叶 ...

  6. ML之NB:朴素贝叶斯Naive Bayesian算法的简介、应用、经典案例之详细攻略

    ML之NB:朴素贝叶斯Naive Bayesian算法的简介.应用.经典案例之详细攻略 目录 朴素贝叶斯Naive Bayesian算法的简介 1.朴素贝叶斯计算流程表述 2.朴素贝叶斯的优缺点 2. ...

  7. 【人工智能】— 贝叶斯网络、概率图模型、全局语义、因果链、朴素贝叶斯模型、枚举推理、变量消元

    [人工智能]- 贝叶斯网络 频率学派 vs. 贝叶斯学派 贝叶斯学派 Probability(概率): 独立性/条件独立性: Probability Theory(概率论): Graphical mo ...

  8. 朴素贝叶斯.Laplace平滑.多项式事件模型

    <Andrew Ng 机器学习笔记>这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理 ...

  9. 朴素贝叶斯python代码_朴素贝叶斯模型及python实现

    1 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理.特征条件独立假设的分类方法.在预测时,对输入x,找出对应后验概率最大的 y 作为预测. NB模型: 输入: 先验概率分布:P(Y=ck),k=1,2, ...

最新文章

  1. 存储本地_项目实战之本地存储篇
  2. mysql和mariadb对比_MySQL并发复制系列三:MySQL和MariaDB实现对比
  3. mongodb 的使用场景和不适合使用的场景
  4. 存储类型auto,static,extern,register的区别
  5. DHCP通过NAP认证
  6. 一步步实现SDDC-部署VC后的配置
  7. Java中的ConcurrentHashMap
  8. 单片机 架构 程序 经验总结_收藏!牛人总结的单片机应用程序架构
  9. OKHttp 的使用
  10. bootstrap批量删除操作!
  11. 一次解锁三个BIG分析图制作思路,畅快!
  12. JAVA根据时间增加1天
  13. 电力行业工程设计资质怎么办?专业类别有哪些?
  14. 登录邮恰显示服务器登录失败,邮洽邮箱收不到邮件是什么原因?
  15. 小学计算机教学笔记,信息技术在小学数学教学的运用
  16. 微信支付签约委托代扣文档 - 月付会员或者定期支付服务 - APP纯签约
  17. 钉钉添加代收邮箱地址
  18. 怎么把java源代码封装,如何把JAVA程序封装成EXE文件
  19. 前后落差大用什么词语_形容心情落差大的诗词
  20. linux输入法搜狗 修复,搜狗输入法自带修复功能,可以解决无法打字的问题

热门文章

  1. linux 内核 hrtimer,hrtimer在Linux内核中重复任务
  2. 【C++的深度剖析教程21】类型转换函数下
  3. Mysql function(函数)
  4. Storm的BaseBasicBolt源码解析ack机制
  5. install-info - 更新 info/dir 项
  6. Leetcode143. Reorder List重排链表
  7. 潭州课堂25班:Ph201805201 爬虫基础 第九课 图像处理- PIL (课堂笔记)
  8. Windows下struct和union字节对齐设置以及大小的确定(一 简介和结构体大小的确定)...
  9. android 多线程断点续传下载 三
  10. charles抓包工具使用指南