Additive smoothing
概述
- 在统计学中,加法平滑(也称为拉普拉斯平滑(不要与图像处理中使用的拉普拉斯平滑混淆)或Lidstone平滑是用于平滑分类数据的技术。
- 鉴于一个观察
来自一个具有N次试验的多项分布,数据的“平滑”版本给出了估算器。
- 在公式中伪距
是一个平滑参数,
对应没有采用平滑。
- 加法平滑是一种收缩估计,因为得到的估计将在经验概率(相对频率)
与和均匀概率
之间。
- 从贝叶斯的观点来看,这对应于后验分布的期望值,使用具有参数α作为先验分布的对称Dirichlet分布。 在类别数为2的特殊情况下,这相当于使用Beta分布作为二项分布参数的共轭先验。
历史
当他试图估计明天太阳升起的可能性时,拉普拉斯想出了这种平滑技术。 他的理由是,即使有太阳升起的大量日子,我们仍然不能完全确定明天太阳仍会升起(称为日出问题)
伪距
伪距是一个量(通常不是整数)被添加到观察到的案例的数量,以便在不知道为零时改变那些数据的模型中的预期概率。之所以如此命名是因为粗略地说是伪计数值与后验分布类似,具有附加计数
的每个类别。如果每个条目i的频率
来自于N个样本,那么事件i的经验概率为:
。加性平滑后的后验概率是
Additive smoothing相关推荐
- 【简单理解】自然语言处理-平滑方法(Smoothing)
[简单理解]自然语言处理-平滑方法(Smoothing) 简单介绍平滑策略 平滑策略的引入,主要使为了解决语言模型计算过程中出现的零概率问题.零概率问题又会对语言模型中N-gram模型的Perplex ...
- 统计学习方法:朴素贝叶斯
作者:桂. 时间:2017-04-20 18:31:37 链接:http://www.cnblogs.com/xingshansi/p/6740308.html 前言 本文为<统计学习方法&g ...
- java构建词性词袋_词袋模型
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型.此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方 ...
- 详解基于朴素贝叶斯的情感分析及 Python 实现
相对于「 基于词典的分析 」,「 基于机器学习 」的就不需要大量标注的词典,但是需要大量标记的数据,比如: 还是下面这句话,如果它的标签是: 服务质量 - 中 (共有三个级别,好.中.差) ╮(╯-╰ ...
- 我好吗 太阳照常升起梁静茹_明天太阳会升起吗?
我好吗 太阳照常升起梁静茹 拉普拉斯,贝叶斯和当今的机器学习 (Laplace, Bayes, and machine learning today) It may not be a question ...
- Machine Learning Algorithms Study Notes--Supervised Learning
转载自:http://www.tuicool.com/articles/VvuIvqU Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Mic ...
- Spark高级分析与机器学习笔记
一.高级分析和机器学习概览 1. 高级分析是指各种旨在发现数据规律,或根据数据做出预测和推荐等核心问题的技术.机器学习最佳的模型结构要根据要执行的任务制定,最常见的任务包括: (1)监督学习,包括分类 ...
- Machine Learning Algorithms Study Notes
2 Supervised Learning 3 2.1 Perceptron Learning Algorithm (PLA) 3 2.1.1 PLA -- " ...
- 自然语言处理(5)——语言模型
NLP学习笔记(5)--语言模型 1. 基本概念 1.1 概念导入 1.2 划分等价类的方法--n元文法模型(n-gram) 1.3 概率计算 1.4 语言模型的应用 1.4.1 音字转换问题 1.4 ...
最新文章
- python怎么显示分数_在Python中使用分数
- discussion function on the github system
- BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)
- java调用存储过程同时获取[返回参数]和[结果集]
- 哈尔莫斯:怎样做数学研究
- mac mysql 链接_mac上搭建mysql环境配置和Navicat连接mysql
- Puppet安装部署篇(一)
- node mysql崩溃_Node出错导致运行崩溃的解决方案
- php strcmp函数用法,php字符串比较函数用法小结(strcmp,strcasecmp,strnatcmp及strnatcasecmp)...
- 2022春季“金三银四”跳槽必备:软件测试面试题(附带答案)
- 数据挖掘十大算法之C4.5
- 苹果商店近期审核的问题
- 常用20个正则表达式
- SzNOI语法百题之总目录
- Py修行路 python基础 (四)运算 copy
- 机器学习十大算法!入门看这个就够了~
- Tilera發表100核心處理器
- 看linux centos版本信息,Linux CentOS查看操作系统版本信息
- inprivate浏览是什么意思_IE8的InPrivate浏览功能
- 做数学建模不得不会的数据特征分析---相关性分析