朴素:特征条件独立;贝叶斯:基于贝叶斯定理。
朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。

1.算法思想——基于概率的预测

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。

2. 理论基础

2.1 贝叶斯定理

这个定理解决了现实生活中经常遇到的问题:已知某条件概率,如何得到两个时间交换后的概率,也就是已知P(B∣A)P(B|A)P(B∣A)的情况下如何求得P(B∣A)P(B|A)P(B∣A).

条件概率P(B∣A)P(B|A)P(B∣A):事件B已经发生的情况下,事件A发生的概率。

基本求解公式为:P(A∣B)P(A|B)P(A∣B)=P(AB)P(B)P(AB)\over P(B)P(B)P(AB)​

贝叶斯定理之所以有用,是因为在我们生活中经常遇到这种情况:我们很容易得到P(A∣B)P(A|B)P(A∣B),P(B∣A)P(B|A)P(B∣A)则很难直接得出,但我们更关心P(B∣A)P(B|A)P(B∣A),贝叶斯定理则为我们打通从P(A∣B)P(A|B)P(A∣B)获得P(B∣A)P(B|A)P(B∣A)的道路。

贝叶斯定理: P(B∣A)P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(A|B)P(B)\over P(A)P(A)P(A∣B)P(B)​

先验概率:是指根据以往经验和分析得到的概率.
后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
上述名词具体解释看这篇 https://www.cnblogs.com/yemanxiaozu/p/7680761.html

2.2 朴素贝叶斯定理

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想朴素,朴素贝叶斯的思想基础是这样的:
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
通俗来说,就好比这么个道理,你在街上看到一个黑人,你猜这大哥哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石即条件概率。贝叶斯法则如下:

P(c∣x)P(c|x)P(c∣x)=P(x∣c)P(c)P(x){P(x|c)P(c)}\over{P(x)}P(x)P(x∣c)P(c)​ 等价于P(B∣A)P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(A|B)P(B)\over P(A)P(A)P(A∣B)P(B)​

P(x∣c)P(x|c)P(x∣c):类条件概率,是所有属性上的联合概率分布,难以从有限的训练集直接估计而得。

朴素贝叶斯分类的正式定义如下:
1、设x={a1,a2,a3,...,am}x={\{a_1,a_2,a_3,...,a_m\}}x={a1​,a2​,a3​,...,am​}为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合C={y1,y2,y3,...,yn}C={\{y_1,y_2,y_3,...,y_n\}}C={y1​,y2​,y3​,...,yn​}。
3、计算P(y1∣x),P(y2∣x),P(y3∣x),......,P(yn∣x)P(y_1|x),P(y_2|x),P(y_3|x),......,P(y_n|x)P(y1​∣x),P(y2​∣x),P(y3​∣x),......,P(yn​∣x)。
4、如果P(yk∣x)=max{P(y1∣x),P(y2∣x),......,P(yn∣x)}P(y_k|x)=max\{P(y_1|x),P(y_2|x),......,P(y_n|x)\}P(yk​∣x)=max{P(y1​∣x),P(y2​∣x),......,P(yn​∣x)},则x∈ykx\in y_kx∈yk​。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即:
P(a1∣y1),P(a2∣y1),...,P(am∣y1)P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1)P(a1​∣y1​),P(a2​∣y1​),...,P(am​∣y1​);
P(a1∣y2),P(a2∣y2),...,P(am∣y2)P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2)P(a1​∣y2​),P(a2​∣y2​),...,P(am​∣y2​);

P(a1∣yn),P(a2∣yn),...,P(am∣yn)P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)P(a1​∣yn​),P(a2​∣yn​),...,P(am​∣yn​);

3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导

P(yi∣x)P(y_i|x)P(yi​∣x)=P(x∣yi)P(yi)P(x)P(x|y_i)P(y_i)\over P(x)P(x)P(x∣yi​)P(yi​)​

因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的(朴素贝叶斯采用“属性条件独立性假设”,对已知类别,假设所有属性相互独立),所以有:

P(yi∣x)P(y_i|x)P(yi​∣x)=P(a1∣yi)P(a2∣yi)...P(am∣yi)P(yi)=P(yi)∏j=1mP(aj∣yi)P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i) {\prod_{j=1}^m P(a_j|y_i)}P(a1​∣yi​)P(a2​∣yi​)...P(am​∣yi​)P(yi​)=P(yi​)∏j=1m​P(aj​∣yi​)

所以,上式可写为:

P(y∣x)P(y|x)P(y∣x)=P(y)∏j=1mP(xj∣y){P(y)} {\prod_{j=1}^m P(x_j|y)}P(y)∏j=1m​P(xj​∣y) ,

m为属性数目,xjx_jxj​为xxx在第jjj个属性上的取值。

对于所有类别来说P(x)P(x)P(x)相同,因此基于h∗(x)=argmaxP(y∣x)h^*(x)=argmaxP(y|x)h∗(x)=argmaxP(y∣x)贝叶斯判定准则有:

hnb(x)=argmaxP(y)∏j=1mP(xj∣y)h_{nb}(x)=argmaxP(y){\prod_{j=1}^m P(x_j|y)}hnb​(x)=argmaxP(y)∏j=1m​P(xj​∣y) ,

这就是朴素贝叶斯分类器的表达式。

可以看到,整个朴素贝叶斯分类分为三个阶段:

  • 第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

  • 第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

  • 第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

2.3 估计类别下特征属性划分的条件概率及Laplace校准

由上式可知,朴素贝叶斯分类器的训练过程即基于训练集D来估计类先验概率P(y)P(y)P(y),并为每个属性估计条件概率P(xj∣y).P(x_j|y).P(xj​∣y).

DyD_yDy​表示训练集D中D中D中第yyy类样本的组成的集合,若有充足的独立的同分布样本,则可容易地估计出类先验概率:

P(y)P(y)P(y)=∣Dy∣∣D∣|D_y|\over|D|∣D∣∣Dy​∣​

对离散属性,令Dy,xjD_{y,x_j}Dy,xj​​表示DyD_yDy​中在第jjj个属性上的取值为xjx_jxj​的样本组成的集合,则条件概率P(xj∣y)P(x_j|y)P(xj​∣y)可估计为:

P(xj∣y)P(x_j|y)P(xj​∣y)=∣Dy,xj∣∣D∣|D_{y,x_j}|\over|D|∣D∣∣Dy,xj​​∣​

对连续属性,通常假定其值服从高斯分布(也称正态分布)。只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入如下公式则可得到需要的估计值。

Laplace校准

为了避免其他属性携带的信息被训练集中未出现的属性值抹去(即P(a∣y)=0P(a|y)=0P(a∣y)=0),在概率估计时通常需要进行“平滑”,常用“拉普拉斯修正”,NNN表示训练集DDD中可能的类别数,NiN_iNi​表示第iii个属性可能的取值数。所以上式修改为:

P^(y)\hat{P}(y)P^(y)=∣Dy∣+1∣D∣+N{|D_y|+1}\over{|D|+N}∣D∣+N∣Dy​∣+1​

P^(xi∣y)\hat{P}(x_i|y)P^(xi​∣y)=∣Dy,xi+1∣∣D∣+Ni|D_{y,x_i}+1|\over{|D|+N_i}∣D∣+Ni​∣Dy,xi​​+1∣​

拉普拉斯修正避免了因训练样本集不充分而导致概率估计值为0的问题,且在训练集变大时,修正过程所引入的先验的影响会逐渐变得可忽略,使得估计值逐渐趋向于实际概率值。

《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器相关推荐

  1. 西瓜书课后题——第七章(贝叶斯分类器)

    课后题7.1:极大似然估计西瓜数据集3.0前3个属性的类条件概率. 其实就是概率论中常见的极大似然估计问题. 参见这篇博客:https://blog.csdn.net/icefire_tyh/arti ...

  2. 西瓜书学习笔记第2章(模型评估与选择)

    西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...

  3. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  4. 西瓜书学习笔记——第十一章:特征选择与稀疏学习

    第十一章:特征选择与稀疏学习 11.1 子集搜索与评价 子集搜索 特征子集评价 11.2 过滤式选择 Relief的相关统计量 11.3 包裹式选择 拉斯维加斯方法和蒙特卡罗方法: 11.4 嵌入式选 ...

  5. 机器学习西瓜书 学习笔记

    第2章 模型评估与选择 2.1 经验误差与过拟合 错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质 欠拟合:学不到,cjb 过拟合无法彻底避免 误差 实际输出和真实 ...

  6. 《机器学习实战》学习笔记第七章 —— AdaBoost元算法

    主要内容: 一.提升方法与AdaBoost算法的简介 二.AdaBoost算法 三.代码解释 一.提升方法与AdaBoost算法的简介 1.提升方法:从弱学习算法出发,反复学习,得到一系列弱分类器(又 ...

  7. 西瓜书--学习笔记1

    西瓜书–学习笔记1 第一章 1.分类和回归是监督学习的代表,而聚类是无监督学习的代表. 2.归纳和演绎是科学推理的两大基本手段. 归纳:从特殊到一般的"泛化"过程,即从具体的事实归 ...

  8. 【Abee】吃掉西瓜——西瓜书学习笔记(六)

    贝叶斯分类器 目录 [内容包含 第七章] 贝叶斯决策论(Bayes decision theory) 极大似然估计(Maximum Likelihood Estimation,MLE) 朴素贝叶斯分类 ...

  9. 《机器学习》 周志华学习笔记第七章 贝叶斯分类器(课后习题)python 实现

    课后习题答案 1.试用极大似然法估算西瓜集3.0中前3个属性的类条件概率. 好瓜有8个,坏瓜有9个 属性色泽,根蒂,敲声,因为是离散属性,根据公式(7.17) P(色泽=青绿|好瓜=是) = 3/8 ...

  10. 周志华西瓜书学习笔记(一)

    周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...

最新文章

  1. 进驻宝岛 不闪式3D热潮来临?
  2. 做出仿iphone的圆角效果,以及shpe的各个属性
  3. 基于 REST 的 Web 服务:基础
  4. 基于指令和混合的前端通用埋点方案
  5. OpenKruise 如何实现应用的可用性防护?
  6. 怎样将python的文件转化为windows的可执行程序
  7. 数据竞赛:第四届工业大数据竞赛-虚拟测量
  8. Pwn环境配置(三)——ubuntu环境搭建
  9. 飞畅科技-千兆/百兆/核心/PoE/光纤交换机选型指南
  10. 前端学习(1427):ajax封装二
  11. [转] Mou 一个Markdown工具 语法规则文档(最后)
  12. 真实体验!我在 500 强咨询公司写代码
  13. 辨异 —— 概率与统计
  14. ftok() Linux Linux函数
  15. jdbc 事务没有回滚_《Spring Cloud Alibaba》微服务搭建之Seata分布式事务quot;发现问题quot;(十四)...
  16. PyQt、PySide、PySide2这三者到底有什么区别?
  17. 微信公众号文章采集方案
  18. 【更新中21/31】NTIRE 2022 ESR(efficient super-resolution) 方案与结果
  19. [NOIP1999]Cantor表
  20. 学生专用计算机怎么发出声音,计算机技巧-如何使显示器的内置扬声器发出声音...

热门文章

  1. E5061B矢量网络分析仪VNA概念
  2. How to use HM software(H.265)
  3. 无心剑七绝《十里龙舟》
  4. 装linux电脑内存只有4G,linux下可用内存只有不到4G
  5. windows环境下下tomcat服务搭建
  6. Java 反射 - 指南
  7. 人性:人类的五种需求
  8. 教你如何将下载的电影刻录成VCD
  9. SuperMap iManager 功能详解
  10. 容联云通讯的学习笔记二