Laplace(拉普拉斯)平滑
平滑技术
平滑技术是为了解决训练集的数据稀松问题。
零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。
一般的m阶马尔科夫链转移概率是这样训练的:
P(c_{m+1}|c_1c_2...c_m)=\frac{count(c_1c_2...c_mc_{m+1})}{\quad \sum_c(count(c_1c_2...c_{m}c))}(1.1)
P(c_{n+1}|c_1c_2...c_n)=\frac{count'(c_1c_2...c_nc_{n+1})}{\quad \sum_c(count'(c_1c_2...c_nc))}for n< m (1.2)
count(c_1c_2...c_{m}c)是训练集中所有(m+1)-gram的数量,比如“abcd”,如果训练集中没有出现“ab@”这样的3-gram,那么P(@|ab)=0,这样所有的前缀为”ab@”的字符串的概率就都为0了,这样所有在训练集中未出现的n-gram,就会被判定为概率为0,“ab@password”和”ab@sdf#2(“的概率都为0,这是不合理的。解决办法就是对未出现的n-gram,给他们一个较小的概率,避免让其为0.
Laplace平滑
为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
应用举例
假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01,对这三个量使用拉普拉斯平滑的计算方法如下:
1/1003 = 0.001,991/1003=0.988,11/1003=0.011
将公式1.1的每个count和公式1.2中的count’,都加一个正数a,这就避免了转移概率出现0的情况。
P(c_{m+1}|c_1c_2...c_m)=\frac{count(c_1c_2...c_mc_{m+1})+a}{\quad \sum_c(count(c_1c_2...c_{m}c)+a)}
P(c_{n+1}|c_1c_2...c_n)=\frac{count'(c_1c_2...c_nc_{n+1})+a}{\quad \sum_c(count'(c_1c_2...c_nc)+a)}for n< m
建议取a=0.01.
转载请注明出处。
Laplace(拉普拉斯)平滑相关推荐
- 朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing)
转自:https://blog.csdn.net/qq_25073545/article/details/78621019 拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑,是比 ...
- 极大似然估计、拉普拉斯平滑定理、M-估计详解
注意: (1) 原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8765536 (2) 英文原文链接:http://www ...
- 逻辑回归和拉普拉斯平滑 作业
任务 执行您认为必要的预处理 使用分层抽样将数据集划分为训练和验证数据集 检查训练和验证数据集的类分布 安装.加载和阅读"naivebayes"包 使用以下命令构建基本的朴素贝叶斯 ...
- [CS229学习笔记] 5.判别学习算法与生成学习算法,高斯判别分析,朴素贝叶斯,垃圾邮件分类,拉普拉斯平滑
本文对应的是吴恩达老师的CS229机器学习的第五课.这节课介绍了判别学习算法和生成学习算法,并给出了生成学习算法的一个实例:利用朴素贝叶斯进行垃圾邮件分类. 判别学习(Discriminative L ...
- 关于机器学习中的朴素贝叶斯以及拉普拉斯平滑
看过我博文的同学可能知道机器学习之中,存在着判别学习以及生成学习,其主要区别我在另一篇文章中有详细描述,今天我们要讨论的是,在高斯判别分析之中,特征向量x是连续的,实数域上的向量,那么如果这个特征向量 ...
- 斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑
作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢 声明:此系列博文根据斯坦福CS229课程,吴恩达主讲 所写,为本人自学笔记,写 ...
- 斯坦福第五章:拉普拉斯平滑处理
链接:http://blog.csdn.net/daijiguo/article/details/52222683 拉普拉斯平滑 拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑 ...
- 机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑
数学基础: 数学基础是贝叶斯决策论Bayesian DecisionTheory,和传统统计学概率定义不同. 频率学派认为频率是是自然属性,客观存在的. 贝叶斯学派,从观察这出发,事物的客观随机性只是 ...
- 拉普拉斯二阶锐化matlab,laplace(拉普拉斯)锐化matlab程序
<laplace(拉普拉斯)锐化matlab程序>由会员分享,可在线阅读,更多相关<laplace(拉普拉斯)锐化matlab程序(6页珍藏版)>请在人人文库网上搜索. 1.第 ...
最新文章
- U盘也玩NTFS权限。
- 【流媒體】jrtplib—VS2010 下RTP开源协议库JRTPLIB3.9.1编译
- 7-25日牛客网刷题 未知点、错题 集合
- 转: 理解RESTful架构
- 太吾绘卷第一世攻略_建平中学高二数学周练卷(2020.09)
- 北交计算机学硕培养计划,北京交通大学硕士研究生培养方案——交通信息工程及控制...
- keras中文文档_【DL项目实战02】图像识别分类——Keras框架+卷积神经网络CNN(使用VGGNet)
- Search in Rotated Sorted Array II
- 移动前端webApp开发点滴积累20140524
- 用Barcode生成条形码图片
- 物联网将如何影响你的钱包?
- 设计模式系列之「装饰模式」
- Mac下安装第三方模块报错:‘sqlfront.h‘ file not found的解决办法
- 微软推出Windows Lite,目标Chrome OS上网本
- 局域网共享加密账号密码登录自动创建账户
- android apk旋转,系统的屏幕旋转弱爆了!超强屏幕旋转控制APP
- DAY20:尚学堂高琪JAVA(156~164)其他流及 IO的设计模式
- pyspark写法总结
- 内部DNS服务器搭建
- QT 中多线程实现方法总结