【机器学习】拉普拉斯平滑

  • 一、提出原因(背景)
  • 二、思想及举例

一、提出原因(背景)

  在某些场景,如文本分析中,计算某词的概率,可能会因为训练集中从没出现过这个词,而认为该词概率为0,并将影响后续计算。
  为解决零概率问题,法国数学家、物理学家拉普拉斯提出了拉普拉斯平滑。

二、思想及举例

  拉普拉斯平滑,又叫加一平滑,它对分子划分的计数加1,分母加类别数。

   例如,已知一维变量分布的采样结果,变量为A,A的取值有三种情况:a1,a2,a3,现有样本集{ a1, a2, a1, a2, a3, a1, a1, a2},采用拉普拉斯平滑计算三种取值的概率。
  P(A=a1) = (4+1)/(8+3) = 5/11
  P(A=a2) = (3+1)/(8+3) = 4/11
  P(A=a3) = (1+1)/(8+3) = 2/11

   又如,计算单个词语 ωi 的概率,当不进行平滑时,是通过用总词数 N 标准化该词的出现次数 ci 进行计算的:

  当进行拉普拉斯平滑时,对词的计数加1,由于词典大小为 V ,每个词的次数都增加了1,因此还需要为分母加 V:

  方法十分简单,但有效避免了零概率的出现,在文本分析中经常使用,增强了算法的健壮性。

【机器学习】拉普拉斯平滑相关推荐

  1. 关于机器学习中的朴素贝叶斯以及拉普拉斯平滑

    看过我博文的同学可能知道机器学习之中,存在着判别学习以及生成学习,其主要区别我在另一篇文章中有详细描述,今天我们要讨论的是,在高斯判别分析之中,特征向量x是连续的,实数域上的向量,那么如果这个特征向量 ...

  2. 机器学习之朴素贝叶斯三、拉普拉斯平滑技术、优化改进情感分析

    文章目录 一.前文问题 1. 先看下改进前我们的代码计算部分 2. `问题分析`: 二.针对问题进行解决 1. 什么是`拉普拉斯平滑`技术 2. 拉普拉斯优化-下溢上溢问题 3. 改进地方分析: 4. ...

  3. 机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑

    数学基础: 数学基础是贝叶斯决策论Bayesian DecisionTheory,和传统统计学概率定义不同. 频率学派认为频率是是自然属性,客观存在的. 贝叶斯学派,从观察这出发,事物的客观随机性只是 ...

  4. 机器学习之朴素贝叶斯(一):朴素贝叶斯的介绍、概率基础(拉普拉斯平滑)、sklearn朴素贝叶斯实现API、朴素贝叶斯分类的优缺点、文本的特征工程

    朴素贝叶斯 文章目录 朴素贝叶斯 一.介绍 1.1 文本分类的应用 词云的例子 垃圾邮件分类 文章类别的概率 二.概率基础 2.1 概率例题 2.2 联合概率和条件概率 2.3 朴素贝叶斯-贝叶斯公式 ...

  5. 斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑

    作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢 声明:此系列博文根据斯坦福CS229课程,吴恩达主讲 所写,为本人自学笔记,写 ...

  6. 逻辑回归和拉普拉斯平滑 作业

    任务 执行您认为必要的预处理 使用分层抽样将数据集划分为训练和验证数据集 检查训练和验证数据集的类分布 安装.加载和阅读"naivebayes"包 使用以下命令构建基本的朴素贝叶斯 ...

  7. 贝叶斯网络、拉普拉斯平滑

    本总结是是个人为防止遗忘而作,不得转载和商用. 说明:前置知识是朴素贝叶斯,这个我以总结,地址是: http://blog.csdn.net/xueyingxue001/article/details ...

  8. [CS229学习笔记] 5.判别学习算法与生成学习算法,高斯判别分析,朴素贝叶斯,垃圾邮件分类,拉普拉斯平滑

    本文对应的是吴恩达老师的CS229机器学习的第五课.这节课介绍了判别学习算法和生成学习算法,并给出了生成学习算法的一个实例:利用朴素贝叶斯进行垃圾邮件分类. 判别学习(Discriminative L ...

  9. 朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

    相关文章 K近邻算法和KD树详细介绍及其原理详解 朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解 决策树算法和CART决策树算法详细介绍及其原理详解 线性回归算法和逻辑斯谛回归算法详细介绍及其原理详 ...

  10. 明天太阳一定会升起吗?兼谈拉普拉斯平滑

    皮埃尔-西蒙,拉普拉斯侯爵(1749-1827),法国著名的天文学家和数学家: 曾经提出一个问题:千百万年以来,每天太阳都会升起.但是,可以就此推断明天太阳一定会升起吗? 1 火鸡问题 这个问题似乎有 ...

最新文章

  1. OKR案例分析,哪种类型的企业适合OKR?
  2. RDKit | 基于随机森林(RF)预测SARS-CoV 3CL蛋白酶抑制剂的pIC50
  3. python爬虫笔记(三):提取(二)
  4. 【渝粤教育】广东开放大学 网络编程技术 形成性考核 (57)
  5. win10自动切换日夜模式
  6. Spring MVC请求处理流程分析
  7. mac 使用vmware funsion 挂载cdlinux跑wifi字典经历
  8. 学生管理系统IPO图_基于BIM技术的医院建筑运维管理系统构建
  9. You have 3 unapplied migration(s). Your project may not work properly until you apply the migrations
  10. mysql的event_mysql中event的用法详解
  11. python切片原理_彻底理解Python list切片原理
  12. 【读书笔记】《读懂一本书》——如何读书不枯燥,读得懂,记得住
  13. PVE下虚拟机安装UNRAID
  14. EA绘制类图时,怎样将类由ICON形式(圆形)转为Label形式(方形)
  15. R语言 数据正态化+标准化
  16. 取得高等学校教师资格证应当具备什么学历要求
  17. iPad自带邮箱添加网易企业邮箱
  18. 【QT】Windows下QT下载安装
  19. 如何确定EINT中断唤醒源
  20. Python集合类型详解(一)——集合定义与集合操作符

热门文章

  1. 如何简单地将工资单发给员工?
  2. CAN FD Bit Timing
  3. ceph纠删码性能测试
  4. 中望cad自定义快捷键命令_[cad常用快捷键命令大全]中望cad常用快捷键及命令
  5. IBM发布基于内存的人工智能计算架构
  6. 信号与系统相关知识回顾总结
  7. cad文字递增快捷键_AutoCAD常用快捷键命令大全(文字版)
  8. 最简单的文件加密工具(完全免费)
  9. 南京邮电大学c语言实验报告4,南京邮电大学软件设计实验报告..doc
  10. 微信小程序高仿京东分类效果完整版(超详细)