重复词语处理
1.多项式模型(词袋模型)
词语每出现 一次就计数一次
2.伯努利模型(词集模型)
将重复的词语都视为只出现一次
3.在计算句子概率时(训练时),不考虑重复词语出现的次数,但在计算词语概率P(“词语”|c)时(判断时),却考虑重复词语的出现次数

工程应用注意事项
1.对数处理,因为乘法运算,计算的时间开销比较大,一般都是先计算出所有可能的结果,然后查表
2.转换权重,对于二分类问题,直接比较每个词向量相对概率
logCC¯¯¯¯=logP(w|c0)P(w|c1)logCC¯=logP(w|c0)P(w|c1)log{\frac{C}{\overline{C}}}=log{\frac{P(w|c_0)}{P(w|c_1)}}
3.选取topk的关键词
4.分割样本,
对于长篇幅邮件,按一定的大小,比如每500字,将其分割成小的文本段落,再对小文本段落采用topk关键词的方法。只要其中有一个小文本段落超过阈值就判断整封邮件是垃圾邮件。
对于超短篇幅邮件,比如50字,可以按篇幅与标准比较篇幅的比例来选取topk,以确定应该匹配关键词语的个数。比如选取 50/500×15≈2 个词语进行匹配,相应的阈值可以是之前阈值的 2/15 。以此来判断则更合理。
5.位置权重
敏感词如果出现在标题中应该比它出现在正文中对判断整个邮件的影响更大;而出现在段首句中又比其出现在段落正文中对判断整个邮件的影响更大。所以可以根据词语出现的位置,对其权重再乘以一个放大系数,以扩大其对整封邮件的影响,提高识别准确度。

应用场景:
褒贬分析
拼写纠错

N-gram语言模型
独立性假设
P(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10)P(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10)P(x_1,x_2,x_3,x_4,x_5,x_6,x_7,x_8,x_9,x_{10})=P(x1)P(x2)P(x3)P(x4)P(x5)P(x6)P(x7)P(x8)P(x9)P(x10)P(x1)P(x2)P(x3)P(x4)P(x5)P(x6)P(x7)P(x8)P(x9)P(x10)P(x_1)P(x_2)P(x_3)P(x_4)P(x_5)P(x_6)P(x_7)P(x_8)P(x_9)P(x_{10})
非独立性假设
P(x1,x2,x3,x4,x5,…,xn)P(x1,x2,x3,x4,x5,…,xn)P(x_1,x_2,x_3,x_4,x_5,…,x_n)=P(x1)P(x2|x1)P(x3|x1,x2)...P(xn|x1,x2,...,xn−1)P(x1)P(x2|x1)P(x3|x1,x2)...P(xn|x1,x2,...,xn−1)P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_1,x_2,...,x_{n-1})

联合概率链规则公式考虑到词和词之间的依赖关系,但是比较复杂,在实际生活中几乎没办法使用,所以就有了n-gram模型来近似这个算法.就是马尔科夫假设(Markov Assumption),下一个词的出现依赖于它前面的一个或几个词.
二元语法(bigram,2-gram)
P(x1,x2,x3,x4,x5,…,xn)P(x1,x2,x3,x4,x5,…,xn)P(x_1,x_2,x_3,x_4,x_5,…,x_n)=P(x1)P(x2|x1)P(x3|x2)P(x4|x3)..P(x10|x9)=P(x1)P(x2|x1)P(x3|x2)P(x4|x3)..P(x10|x9)=P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3)..P(x_{10}|x_9)
三元语法(trigram,3gram)
P(x1,x2,x3,x4,x5,…,xn)P(x1,x2,x3,x4,x5,…,xn)P(x_1,x_2,x_3,x_4,x_5,…,x_n)=P(x1)P(x2|x1)P(x3|x1,x2)P(x4|x2,x3)×...×P(x10|x8,x9)=P(x1)P(x2|x1)P(x3|x1,x2)P(x4|x2,x3)×...×P(x10|x8,x9)=P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)P(x_4|x_2,x_3)×...×P(x_{10}|x_8,x_9)

经验上一般选择trigram

应用场景:
词性标注
垃圾邮件识别
中文分词

朴素贝叶斯(naive Bayes) 二相关推荐

  1. 朴素贝叶斯(naive bayes)

    朴素贝叶斯(naive bayes) 标签: Python 机器学习 主要參考资料:<机器学习实战><统计学习方法> 1.朴素贝叶斯分类原理 朴素贝叶斯法是基于贝叶斯定理和特征 ...

  2. 机器学习一:朴素贝叶斯(Naive Bayes)

    朴素贝叶斯 Naive Bayes 1. Introduction 1.1 离散属性 1.2 连续属性 1.2.1 Gaussian Naive Bayes 1.2.2 Multinomial Nai ...

  3. 机器学习:基于朴素贝叶斯(Naive Bayes)的分类预测

    目录 一.简介和环境准备 简介: 环境: 二.实战演练 2.1使用葡萄(Wine)数据集,进行贝叶斯分类 1.数据导入 2.模型训练 3.模型预测 2.2模拟离散数据集–贝叶斯分类 1.数据导入.分析 ...

  4. 【手写算法实现】 之 朴素贝叶斯 Naive Bayes 篇

    [手写算法实现] 之 朴素贝叶斯 Naive Bayes 篇 朴素贝叶斯模型(naive bayes)属于分类模型,也是最为简单的概率图模型,对于之后理解HMM.CRF等模型,大有裨益.这里手写算法介 ...

  5. 机器学习笔记——朴素贝叶斯(Naive Bayes)

    1贝叶斯算法简介 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法.在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算 ...

  6. 朴素贝叶斯(Naive Bayes),“Naive”在何处?

    加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes). Naive的发音是"乃一污",意思是"朴素的"."幼稚的".&q ...

  7. 西瓜书+实战+吴恩达机器学习(八)监督学习之朴素贝叶斯 Naive Bayes

    文章目录 0. 前言 1. 朴素贝叶斯算法 2. 半朴素贝叶斯算法 2.1. ODE 2.2. SPODE 2.3. TAN 2.4. AODE 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔 ...

  8. 机器学习算法: 朴素贝叶斯(Naive Bayes)

    朴素贝叶斯的介绍 朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一.它是基于贝叶斯定义和特征条件独立假设的分类器方法.由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数 ...

  9. 机器学习(十)分类算法之朴素贝叶斯(Naive Bayes)算法

    贝叶斯定理 首先我们来了解一下贝叶斯定理: 贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大? 了解一下公式 事件B发生的条件下,事件A发生的概率为: 这里写图片描述 同 ...

最新文章

  1. linux终端密码星星,如何在Ubuntu终端中显示密码星号
  2. 源码安装apache实例
  3. 1 编码_TMS320F28379D之CLB解码多摩川编码器1——入手小知识(原创)
  4. hdu 1251+hdu 1671(字典树)
  5. 转载一遍Java规范
  6. 什么是C ++ 11中的lambda表达式?
  7. Keil uVision5 下载程序 add flash programming algorithm选项缺少需要的下载算法的解决办法
  8. [以太坊源代码分析]III. 挖矿和共识算法的奥秘
  9. C语言求最大公约数欧几里得Euclid算法(附完整源码)
  10. 前端学习(1720):前端系列javascript之生命周期下
  11. 动物行为检测计算机视觉_基于红外热成像和计算机视觉的动物行为研究系统便是其中一例...
  12. C++之再探参数绑定bind、bind1st、bind2nd、placeholders占位符
  13. modules node 太大了_如何将Node.js Docker镜像大小减小10倍
  14. Mapreduce执行过程分析(基于Hadoop2.4)——(三)
  15. 【图像处理】高斯模糊、高斯函数、高斯核、高斯卷积操作
  16. 各个地图经纬度转换工具类
  17. adb通过局域网连接手机
  18. 笔记本连不上网(IPV4和IPV6无网络访问权限)解决方法
  19. 用Java写数据结构作业——7-1 拯救007
  20. Unity3d C#获取海康/大华摄像头在萤石平台直播视频流功能(含源码)

热门文章

  1. Python+Matplotlib绘制带误差线的柱状图
  2. Python+matplotlib绘图时显示中文的设置方法
  3. Python花式编程案例集锦(6)
  4. Python使用UDP协议打造在线时间服务器
  5. python2和python3字符串区别_python2和python3字符串区别
  6. C语言 判断一个数是否为素数
  7. linux测试内网速度慢,shell多线程快速检测内网ip是否存活
  8. html 隐藏hide,jQuery UI 实例
  9. 122. 买卖股票的zui佳时机 II(JavaScript)
  10. idea mybaits逆向工程_IDEA 中集成 MyBatis Generator 组件逆向生成工程