朴素贝叶斯分类,这种方法的预测发现了一个问题:某个样本的属性值并未出现在训练集中,导致尽管要预测的这个苹果看起来很像是好果,但是朴素贝叶斯目标函数的结果仍为0,最终被划分为一般的苹果,有些时候这并不是合理的,那么该如何解决呢?
如下的数据集:
大小 颜色 形状 标签
1 小 青色 非规则 否
2 大 红色 非规则 是
3 大 红色 圆形 是
4 大 青色 圆形 否
5 大 青色 非规则 否
6 小 红色 圆形 是
7 大 青色 非规则 否
8 小 红色 非规则 否
9 小 青色 圆形 否
10大 红色 圆形 是

测试集上要预测的某个样本如下:

大小 颜色 形状 标签

11 大 青色 圆形 ?

02 —拉普拉斯修正

上面通过这个例子折射处一个问题:训练集上,很多样本的取值可能并不在其中,但是这不并代表这种情况发生的概率为0,因为未被观测到,并不代表出现的概率为0 。
正如上面的样本,看其他两个属性很可能属于好苹果,但是再加上颜色:青色,这三个属性取值组合在训练集中并未出现过,所以朴素贝叶斯分类后,这个属性取值的信息抹掉了其他两个属性的取值,在概率估计时,通常解决这个问题的方法是要进行平滑处理,常用拉普拉斯修正。
拉普拉斯修正的含义是,在训练集中总共的分类数,用 N 表示;di 属性可能的取值数用 Ni 表示,因此原来的先验概率 P© 的计算公式由:

被拉普拉斯修正为:

类的条件概率P(x | c) 的计算公式由:

被拉普拉斯修正为:

03 —例子阐述

在拉普拉斯修正后,本文提到的预测样本预测的结果会不会还是一般的果子呢?(因为好果的概率因为某项乘积为0,所以导致最终结果为0)

大小 颜色 形状 标签

11 大 青色 圆形 ?

用拉普拉斯修正后的公式计算,先验概率 P© ,

P(c = 好果)= (4+1) / (10+2) = 5/12

P(c = 一般) = (6+1) / (10+2) = 7/12

每个属性的类条件概率:

P(大小=大 | c=好果) = (3+1)/(4+2) = 4/6

P(颜色=青色 | c=好果) = (0+1)/(4+2) = 1/6

P(形状=圆形 | c=好果) = (3+1) / (4+2) = 4/6

P(大小=大 | c=一般) = (3+1) /( 6+2) = 4/8

P(颜色=青色 | c=一般) = (5+1)/(6+2) = 6/8

P(形状=圆形 | c=一般) = (2+1)/(6+2) = 3/8

因此:

P(c=好果) * P(大小=大 | c=好果) * P(颜色=青色 | c=好果) * P(形状=圆形 | c=好果)

= 5/12 * 4/6 * 1/6 * 4/6

= 0.031

P(c=一般) * P(大小=大 | c=一般) * P(颜色=红色 | c=一般) * P(形状=圆形 | c=一般)

= 7/12 * 4/8 * 6/8 * 3/8

= 0.082

因此预测结果还是一般的果子,这是训练集学习后得到的结果,可能与原来的结果正好吻合,但是并不代表拉普拉斯修正是没有必要的,有时候预测的结果会和原来直接某项为0的结果不一样,可以看到拉普拉斯修正后,原来为0的结果被平滑的过渡为0.031,这起到了修正的作用。

朴素贝叶斯:拉普拉斯修正相关推荐

  1. 斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑

    作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢 声明:此系列博文根据斯坦福CS229课程,吴恩达主讲 所写,为本人自学笔记,写 ...

  2. 朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing)

    转自:https://blog.csdn.net/qq_25073545/article/details/78621019 拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑,是比 ...

  3. 基于朴素贝叶斯实现文本分类

    基于朴素贝叶斯实现文本分类 数据集介绍 数据集为网上公开的新闻数据,其中数据集包含10个类别. 模型选择 贝叶斯分类 贝叶斯公式 朴素贝叶斯 拉普拉斯平滑引入 某个属性的条件概率为0,则会导致整体概率 ...

  4. 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

    文章目录 I . 判别模型 与 概率模型 II . 贝叶斯分类 III . 拉普拉斯修正 IV . 使用 朴素贝叶斯分类器 + 拉普拉斯修正 为样本分类 ( 完整分类流程 ) V . 朴素贝叶斯分类器 ...

  5. 机器学习(六):朴素贝叶斯及拉普拉斯修正

    一.前言 2022年的第一篇博客,<机器学习>这个专栏去年由于自己的时间原因,更新的不勤,乘最近稍微有点时间准备开始陆陆续续更新,今天先来一道开胃菜:带拉普拉斯修正的朴素贝叶斯,话不多说请 ...

  6. 朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正的朴素贝叶斯分类器

    贝叶斯方法与朴素贝叶斯 1.生成模型与判别模型 2.贝叶斯 2.1贝叶斯公式 2.2贝叶斯方法 3朴素贝叶斯 3.1条件独立性假设 3.2朴素贝叶斯Naive在何处? 3.3朴素贝叶斯的三种模型 3. ...

  7. 基于朴素贝叶斯的垃圾邮件分类-着重理解拉普拉斯变换

    1. 引言 在正式学习朴素贝叶斯之前,需要明确的是机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x),即根据特征得到所属类别的概率,首先引入两个概念. 判别式模型(disc ...

  8. 机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑

    数学基础: 数学基础是贝叶斯决策论Bayesian DecisionTheory,和传统统计学概率定义不同. 频率学派认为频率是是自然属性,客观存在的. 贝叶斯学派,从观察这出发,事物的客观随机性只是 ...

  9. 机器学习之朴素贝叶斯(一):朴素贝叶斯的介绍、概率基础(拉普拉斯平滑)、sklearn朴素贝叶斯实现API、朴素贝叶斯分类的优缺点、文本的特征工程

    朴素贝叶斯 文章目录 朴素贝叶斯 一.介绍 1.1 文本分类的应用 词云的例子 垃圾邮件分类 文章类别的概率 二.概率基础 2.1 概率例题 2.2 联合概率和条件概率 2.3 朴素贝叶斯-贝叶斯公式 ...

  10. [CS229学习笔记] 5.判别学习算法与生成学习算法,高斯判别分析,朴素贝叶斯,垃圾邮件分类,拉普拉斯平滑

    本文对应的是吴恩达老师的CS229机器学习的第五课.这节课介绍了判别学习算法和生成学习算法,并给出了生成学习算法的一个实例:利用朴素贝叶斯进行垃圾邮件分类. 判别学习(Discriminative L ...

最新文章

  1. 智能车复工日记【6】:有bug的模糊PID记录
  2. PID控制器开发笔记之八:带死区的PID控制器的实现
  3. struct timeval结构体 以及 gettimeofday()函数
  4. 8-4 测试http服务器(上)
  5. MYSQL 查看表定义的 4 种方法
  6. SQL Server将表数据从一个数据源复制到另一个数据源(未完成)
  7. Web后端的基础知识
  8. python基础之列表(八)
  9. readyState的值的含义
  10. android 动画遮盖,android view用动画实现遮罩效果
  11. 【2020年高被引学者】 孙剑 旷视科技
  12. 未来科学技十幻想画计算机,人教版美术教案第七册(全册)
  13. win10+vs2017配置MPI和OpenMP
  14. TortoiseSVN的所有使用
  15. win10装ubuntu双系统
  16. 2018年春季学期-助教总结
  17. python查看包的依赖关系
  18. Discuz大气仿英雄联盟游戏风格论坛模板源码
  19. 地理信息系统软件工程与应用开发实验报告
  20. java模拟加速匀速减速_Android学习之 动画加速减速 匀速控制

热门文章

  1. 电脑投屏电视怎么设置_夏普电视怎么投屏?投屏功能在哪?
  2. 安卓虚拟键盘_微软双屏Surface Duo上的安卓应用体验:可瞬间变身笔记本电脑
  3. python保留字符串之外的_Python--字符串
  4. (day 47 - 位运算 ) 剑指 Offer 65. 不用加减乘除做加法
  5. vb6 由于超出容量限制 不能创建新事务_Executors类创建四种常见线程池
  6. linux拆除模块驱动程序会跑吗,关于移植linux驱动问题,是不是还有别的办法?...
  7. Oracle 11g ora 15018,OracleASM错误之--ORA-15031、ORA-15014
  8. Spring IOC(依赖注入的三种方式)
  9. (CVPR2019)视频-图像语义分割(21) 联合传播数据增广+标签松弛提升边界精度=语义分割效果提升
  10. (完整版)原因可能是堆被损坏,这也说明 中或它所加载的任何DLL 中有bug】的解决