平滑技术
平滑技术是为了解决训练集的数据稀松问题。
  零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。
  一般的m阶马尔科夫链转移概率是这样训练的:
  

P(cm+1|c1c2...cm)=count(c1c2...cmcm+1)∑c(count(c1c2...cmc))

P(c_{m+1}|c_1c_2...c_m)=\frac{count(c_1c_2...c_mc_{m+1})}{\quad \sum_c(count(c_1c_2...c_{m}c))}(1.1)
  

P(cn+1|c1c2...cn)=count′(c1c2...cncn+1)∑c(count′(c1c2...cnc))

P(c_{n+1}|c_1c_2...c_n)=\frac{count'(c_1c_2...c_nc_{n+1})}{\quad \sum_c(count'(c_1c_2...c_nc))}for n< m (1.2)

count(c1c2...cmc)

count(c_1c_2...c_{m}c)是训练集中所有(m+1)-gram的数量,比如“abcd”,如果训练集中没有出现“ab@”这样的3-gram,那么P(@|ab)=0,这样所有的前缀为”ab@”的字符串的概率就都为0了,这样所有在训练集中未出现的n-gram,就会被判定为概率为0,“ab@password”和”ab@sdf#2(“的概率都为0,这是不合理的。解决办法就是对未出现的n-gram,给他们一个较小的概率,避免让其为0.
Laplace平滑
  为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
  假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
应用举例
  假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01,对这三个量使用拉普拉斯平滑的计算方法如下:
  1/1003 = 0.001,991/1003=0.988,11/1003=0.011
将公式1.1的每个count和公式1.2中的count’,都加一个正数a,这就避免了转移概率出现0的情况。

P(cm+1|c1c2...cm)=count(c1c2...cmcm+1)+a∑c(count(c1c2...cmc)+a)

P(c_{m+1}|c_1c_2...c_m)=\frac{count(c_1c_2...c_mc_{m+1})+a}{\quad \sum_c(count(c_1c_2...c_{m}c)+a)}
  

P(cn+1|c1c2...cn)=count′(c1c2...cncn+1)+a∑c(count′(c1c2...cnc)+a)

P(c_{n+1}|c_1c_2...c_n)=\frac{count'(c_1c_2...c_nc_{n+1})+a}{\quad \sum_c(count'(c_1c_2...c_nc)+a)}for n< m

建议取a=0.01.

转载请注明出处。

Laplace(拉普拉斯)平滑相关推荐

  1. 朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing)

    转自:https://blog.csdn.net/qq_25073545/article/details/78621019 拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑,是比 ...

  2. 极大似然估计、拉普拉斯平滑定理、M-估计详解

    注意: (1)   原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8765536 (2)   英文原文链接:http://www ...

  3. 逻辑回归和拉普拉斯平滑 作业

    任务 执行您认为必要的预处理 使用分层抽样将数据集划分为训练和验证数据集 检查训练和验证数据集的类分布 安装.加载和阅读"naivebayes"包 使用以下命令构建基本的朴素贝叶斯 ...

  4. [CS229学习笔记] 5.判别学习算法与生成学习算法,高斯判别分析,朴素贝叶斯,垃圾邮件分类,拉普拉斯平滑

    本文对应的是吴恩达老师的CS229机器学习的第五课.这节课介绍了判别学习算法和生成学习算法,并给出了生成学习算法的一个实例:利用朴素贝叶斯进行垃圾邮件分类. 判别学习(Discriminative L ...

  5. 关于机器学习中的朴素贝叶斯以及拉普拉斯平滑

    看过我博文的同学可能知道机器学习之中,存在着判别学习以及生成学习,其主要区别我在另一篇文章中有详细描述,今天我们要讨论的是,在高斯判别分析之中,特征向量x是连续的,实数域上的向量,那么如果这个特征向量 ...

  6. 斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑

    作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢 声明:此系列博文根据斯坦福CS229课程,吴恩达主讲 所写,为本人自学笔记,写 ...

  7. 斯坦福第五章:拉普拉斯平滑处理

    链接:http://blog.csdn.net/daijiguo/article/details/52222683 拉普拉斯平滑 拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑 ...

  8. 机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑

    数学基础: 数学基础是贝叶斯决策论Bayesian DecisionTheory,和传统统计学概率定义不同. 频率学派认为频率是是自然属性,客观存在的. 贝叶斯学派,从观察这出发,事物的客观随机性只是 ...

  9. 拉普拉斯二阶锐化matlab,laplace(拉普拉斯)锐化matlab程序

    <laplace(拉普拉斯)锐化matlab程序>由会员分享,可在线阅读,更多相关<laplace(拉普拉斯)锐化matlab程序(6页珍藏版)>请在人人文库网上搜索. 1.第 ...

最新文章

  1. U盘也玩NTFS权限。
  2. 【流媒體】jrtplib—VS2010 下RTP开源协议库JRTPLIB3.9.1编译
  3. 7-25日牛客网刷题 未知点、错题 集合
  4. 转: 理解RESTful架构
  5. 太吾绘卷第一世攻略_建平中学高二数学周练卷(2020.09)
  6. 北交计算机学硕培养计划,北京交通大学硕士研究生培养方案——交通信息工程及控制...
  7. keras中文文档_【DL项目实战02】图像识别分类——Keras框架+卷积神经网络CNN(使用VGGNet)
  8. Search in Rotated Sorted Array II
  9. 移动前端webApp开发点滴积累20140524
  10. 用Barcode生成条形码图片
  11. 物联网将如何影响你的钱包?
  12. 设计模式系列之「装饰模式」
  13. Mac下安装第三方模块报错:‘sqlfront.h‘ file not found的解决办法
  14. 微软推出Windows Lite,目标Chrome OS上网本
  15. 局域网共享加密账号密码登录自动创建账户
  16. android apk旋转,系统的屏幕旋转弱爆了!超强屏幕旋转控制APP
  17. DAY20:尚学堂高琪JAVA(156~164)其他流及 IO的设计模式
  18. pyspark写法总结
  19. 内部DNS服务器搭建
  20. QT 中多线程实现方法总结

热门文章

  1. qt修改程序图标名称_【Qt开发】更改应用程序图标和任务栏图标
  2. border-radius 兼容 IE8浏览器
  3. 特殊字符编码格式数据库不支持
  4. 期货法律法规重点笔记2
  5. Smss.exe进程分析
  6. ssd测试遇到的问题
  7. 关于this.$XXXXXXX
  8. TensorFlow Estimator 官方文档之----内置Estimator
  9. 车用高速音视频传输串行总线技术简介(APIX、FPD-LINK、GMSL、ClockLessLink)
  10. Java中Native的作用