贝叶斯原理是英国数学家托马斯·贝叶斯提出的。

贝叶斯原理

建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

举例:

一个袋子里有10个球,其中6个黑球,4个白球;那么随机抓一个黑球的概率是0.6!(已知黑球白球数量—了解事情再判断

如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?(未知事情全貌—还能判断吗?

三个概率:

  • 先验概率:通过经验来判断事情发生的概率。一般都是单独事件概率,如P(x)、P(y)P(x)、P(y)P(x)、P(y)
  • 后验概率:发生结果A之后,推测原因B的概率P(B∣A)P(B|A)P(B∣A)
  • 条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A∣B)P(A|B)P(A∣B)。
P(y|x) 是后验概率,一般是我们求解的目标。P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。P(x) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。
  • 贝叶斯原理就是求解后验概率

  • 贝叶斯公式
    P(y∣x)=P(x∣y)∗P(y)P(x)P(y|x) = \frac{P(x|y) * P(y) }{P(x)} P(y∣x)=P(x)P(x∣y)∗P(y)​

似然函数(likelihood function):

把概率模型的训练过程理解为求参数估计的过程。似然在这里就是可能性的意思,它是关于统计参数的函数

最大似然理论

  • 认为P(x|y)最大的类别y,就是当前文档所属类别。
  • 即MaxP(x∣y)=Max{p(x1∣y)∗p(x2∣y)∗...p(xn∣y)}Max P(x|y) = Max\{ p(x1|y)*p(x2|y)*...p(xn|y)\}MaxP(x∣y)=Max{p(x1∣y)∗p(x2∣y)∗...p(xn∣y)} for all y

贝叶斯理论:

  • 认为需要增加先验概率p(y),因为有可能某个y是很稀有的类别几千年才看见一次,即使P(x|y)很高,也很可能不是它。

  • 所以y=MaxP(x∣y)∗P(y)y = Max P(x|y) * P(y)y=MaxP(x∣y)∗P(y), 其中p(y)一般是数据集里统计出来的。

朴素贝叶斯

假设每个输入变量是独立的

朴素贝叶斯模型由两种类型的概率组成:

  1. 每个类别的概率P(Cj);
  2. 每个属性的条件概率P(Ai|Cj)。

训练朴素贝叶斯模型,我们需要先给出训练数据,以及这些数据对应的分类

对于所有类别来说P(x)相同,则:

贝叶斯原理、贝叶斯分类和朴素贝叶斯区别

  • 贝叶斯原理是最大的概念,它解决了概率论中“逆向概率”的问题
  • 在这个理论基础上,人们设计出了贝叶斯分类器
  • 朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单,最常用的分类器。(朴素贝叶斯之所以朴素是因为它假设属性是相互独立的)

朴素贝叶斯预测过程

朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。

第一阶段:准备阶段

  • 需要确定特征属性
  • 并对每个特征属性进行适当划分,然后由人工对一部分数据进行分类,形成训练样本。

(分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。)

第二阶段:训练阶段

  • 生成分类器
  • 主要工作是计算每个类别在训练样本中的出现频率每个特征属性划分对每个类别的条件概率

第三阶段:应用阶段

  • 使用分类器对新数据进行分类。
  • 输入是分类器和新数据,输出是新数据的分类结果。

贝叶斯算法的优缺点

优点:

  1. 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
  2. 小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
  3. 缺失数据不太敏感算法也比较简单,常用于文本分类。

缺点:

  1. 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
  2. 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
  3. 由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
  4. 输入数据的表达形式很敏感

朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念相关推荐

  1. python基于朴素贝叶斯模型的预测概率和标签信息可视化ROC曲线

    python基于朴素贝叶斯模型的预测概率和标签信息可视化ROC曲线 目录 python基于朴素贝叶斯模型的预测概率和标签信息可视化ROC曲线

  2. 朴素贝叶斯—疾病的预测

    1. 朴素贝叶斯理论基础 贝叶斯决策理论方法时统计模型决策中的一个基本方法,基本思想如下: (1)已知类条件概率密度参数表达式和先验概率 (2)利用贝叶斯公式转换成后验概率 (3)根据后验概率大小进行 ...

  3. 朴素贝叶斯python实现预测_Python实现朴素贝叶斯分类器的方法详解

    本文实例讲述了Python实现朴素贝叶斯分类器的方法.分享给大家供大家参考,具体如下: 贝叶斯定理 贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位. 先 ...

  4. [转载] 朴素贝叶斯python实现预测_Python实现朴素贝叶斯分类器的方法详解

    参考链接: Python朴素贝叶斯分类器 本文实例讲述了Python实现朴素贝叶斯分类器的方法.分享给大家供大家参考,具体如下: 贝叶斯定理 贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进 ...

  5. 【机器学习基础】朴素贝叶斯的算法实现

    前言 本次我们将梳理下朴素贝叶斯(Naive Bayes)的相关内容. 本文约1.6k字,预计阅读10分钟. 概要 朴素贝叶斯算法是一种适用于二分类和多分类分类问题的「分类算法」.在贝叶斯概率框架下, ...

  6. 什么是贝叶斯定理?朴素贝叶斯有多“朴素”?终于有人讲明白了

    导读:如果有一天,我们知道的统计规律和现实生活发生了冲突,又或者前人的经验不符合亲身经历,那么该怎么办?面对经验与现实的矛盾,我们需要一种应对方案. 作者:徐晟 来源:大数据DT(ID:hzdashu ...

  7. 清晰明了,什么是贝叶斯定理?朴素贝叶斯又是什么?

    什么是贝叶斯定理?朴素贝叶斯又是什么? 一.提出问题? 二.什么是贝叶斯定理 1. 贝叶斯派和频率派 2. 贝叶斯推断与应用 三.朴素贝叶斯有多"朴素" 四.每个人都懂贝叶斯 来源 ...

  8. 朴素贝叶斯算法实现(预测糖尿病)

    关于朴素贝叶斯算法 在本教程中,您将学习Naive Bayes算法,包括它的工作原理以及如何在Python中从头开始实现它. 朴素贝叶斯算法是一种直观的方法,它使用属于每个类的每个属性的概率来进行预测 ...

  9. 朴素贝叶斯算法原理以及python实现

    朴素贝叶斯 一.朴素贝叶斯概述 二.概率论知识 三.朴素贝叶斯算法原理 四.参数估计方法 五.示例分析 六.拉普拉斯平滑修正 七.算法优缺点 八.python实现 8.1 sklearn贝叶斯 8.2 ...

最新文章

  1. 计算机基础课程在线教学授课方案,《计算机基础》课程分层次模块化教学实施方案...
  2. 干货:使用Fastapi开发自己的Mock server(附源码)
  3. CSS知识点补充收集
  4. xShell终端中文乱码完全解决方法
  5. 网络通信基础知识(1)
  6. SiteMesh3使用介绍及配置方法
  7. 欧专局对同族专利的详解
  8. 回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出
  9. 基于单片机PID算法温度控制系统设计(毕设)
  10. 2020建模穿越沙漠第一关python代码
  11. 智能电视无法进入服务器,三星智能电视无法连接到服务器怎么办
  12. 杂篇:随笔编程杂谈录--《隆中对》
  13. DPDK支持的硬件:CPU、网卡NIC、加密引擎、基带加速器
  14. 杏子语录(2020年12月)
  15. 常用的软件打包工具Inno Setup和AdvancedInstallerPortable
  16. 吐槽微信公众号技术团队的故障处理效率
  17. 社会主义市场经济的运作机制
  18. linux键盘背光指令,在Linux下开启背光Led键盘的背光
  19. Windows10 中的字母映射表
  20. Pandas时间序列进阶(日期范围,频率,移位,时区处理)

热门文章

  1. 如何给黑白照片上色?推荐三个给黑白照片上色的方法
  2. 购买二手iPhone的利弊,以及需要注意的问题
  3. 电信主要公司简介zz
  4. IIS/IIS Express中遇到的证书问题,此网站的安全证书存在问题。
  5. RealVNC:window远程连接ubuntu20.04
  6. 蝠鲼觅食优化(MRFO)-Matlab代码
  7. 【网络基础知识】DNS协议及服务介绍(详细)
  8. 【MinIO】MinIO分布式部署
  9. wemos d1 r1点亮st7735s屏幕(Z180SN019)
  10. 目标检测算法——工业缺陷数据集汇总2(附下载链接)