朴素贝叶斯分类器的分类

朴素贝叶斯分类器通常有两种实现方式,

  • (1)基于贝努利模型实现,

    所谓贝努利模型,即为 0-1 模型;
    对于文本分类而言,不考虑词在文中出现的次数,只考虑出不出现,因此在这个意义上将词是等权重的;

  • (2)基于多项式模型实现

    考虑词在文档中的出现次数;

从一个合理的推测开始(Starting with a reasonable guess)

对于文本分类(过滤)问题,我们计算条件概率 p(w1,…,n|c1…,k)p(w_{1,\ldots,n}|c_{1\ldots,k})(在某一类别的前提下,出现该属性的次数)。这里存在一个问题,只根据以往见过的信息,会令其在训练的初期阶段,对那些极少出现的单词异常敏感

如,在某一训练用的样本数据中,单词”money”只在一篇文档中出现过,并且由于这是一篇涉及赌博的广告,因此文档被划归为“bad”类。由于单词“money”只在一篇“bad”类的文档中出现过,而任何“good”类的文档中均未出现该词。所以利用条件概率计算所得的单词“money”在“good”分类出现的概率为0.这样做有些偏激,因为“money”可能完全是一个中性词,只是恰好先出现在一篇“bad”类的文档中而已。随着单词越来越多地出现在同属于一个分类的文档中,其对应的概率值也逐渐接近于0,这样会更合理一些。

为了解决上述问题,当我们手头掌握的有关当前属性的信息极为有限时,我们还需根据一个假设的概率来作出判断。一个推荐的初始值(reasonable guess,assumption)是0.5,我们还需为假设的概率值赋以多大的权重(weight)。经过加权的概率值返回的是概率的加权平均。

选择分类

在垃圾信息过滤的例子中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要(宁可漏掉一千,不可错杀一个)。

为了解决这一问题,可以为每一个分类定义一个最小阈值。以垃圾邮件过滤为例,例如过滤掉“bad”分类的阈值为 3,则针对“bad”分类的概率就必须至少3倍于针对“good”分类的概率才可以(P(bad)>3P(good)),此时如果预测为 “bad” 的分类小于其他任何一个分类的三倍,都不会将其预测为“bad”(P(bad) < 3P(others)),具体的预测取决与业务逻辑,比如返回“unknown”。加入针对“good”分类的阈值为1.,则对于任何邮件,只要P(good)>P(bad),它就是属于 “good”分类的。

机器学习基础(五十二)—— 朴素贝叶斯细节相关推荐

  1. Python3《机器学习实战》学习笔记(五):朴素贝叶斯实战篇之新浪新闻分类

    转载请注明作者和出处:http://blog.csdn.net/c406495762 Github代码获取:https://github.com/Jack-Cherish/Machine-Learni ...

  2. 机器学习实战(三)朴素贝叶斯 (Peter Harrington著)

    知识储备: 一.概率论和数理统计 第一章 概率论的基本概念 1.必须要掌握的名词 (1) 样本空间 一般可以认为是整个样本 (2) 样本点 其中的一个样本,其中每个样本一般可以理解为特征向量 (3) ...

  3. 机器学习笔记(五)续——朴素贝叶斯算法的后验概率最大化含义

    上一节中讲了朴素贝叶斯算法将实例分到后验概率最大的类.这等价于期望风险最小化. 假设使用0-1损失函数: L(Y,f(X))={1,0,Y≠f(X)Y=f(X) L(Y, f(X)) = \Bigg\ ...

  4. [机器学习] 分类 --- Naive Bayes(朴素贝叶斯)

    一.概率知识点复习 (1)条件概率 就是事件A在另外一个事件B已经发生条件下的发生概率.条件概率表示为P(A|B),读作"在B条件下A的概率". (2)联合概率 可以简单的理解为事 ...

  5. 机器学习第六章之朴素贝叶斯模型

    朴素贝叶斯模型(了解) 6.1 朴素贝叶斯模型算法原理 6.1.1 一维特征向量下的贝叶斯模型 6.1.2 二维特征向量下的贝叶斯模型 6.1.3 n维特征向量下的贝叶斯模型 6.1.4 朴素贝叶斯模 ...

  6. 机器学习监督学习之分类算法---朴素贝叶斯理论知识

    感谢Jack-Cui大佬的知识分享 机器学习专栏点击这里 目录 感谢Jack-Cui大佬的知识分享 0. 概述 1. 朴素贝叶斯理论 1.1 贝叶斯理论 1.1.1 相关计算公式:条件概率公式,贝叶斯 ...

  7. 机器学习算法(7)—— 朴素贝叶斯算法

    朴素贝叶斯算法 1 朴素贝叶斯介绍 2 贝叶斯公式 3 拉普拉斯平滑系数 4 朴素贝叶斯api使用 5 朴素贝叶斯算法总结 5.1 朴素贝叶斯优缺点 5.2 朴素贝叶斯疑难点 5.3 与逻辑回归的区别 ...

  8. [机器学习]一个例子完美解释朴素贝叶斯分类器

    何为"朴素":属性条件独立性假设 如果已知条件不止一个属性,二是多个呢,这个时候贝叶斯公式可以写作 上述公式假设特征属性 a1,a2⋯ 相互独立,这也是"朴素" ...

  9. 机器学习算法(8)——朴素贝叶斯、最小风险贝叶斯决策

    最后以巨佬--"贝叶斯大爷"作为基本机器学习算法学习的压轴算法>>>>>>>>>>>>>膜拜!!!!! ...

  10. 机器学习监督学习之分类算法---朴素贝叶斯代码实践

    目录 1. 言论过滤器 1.1 项目描述 1.2 朴素贝叶斯 工作原理: 1.2.1 词条向量 1.3 开发流程: 1.4 代码实现 1.4.1 创建样本 1.4.2 构建词汇表,用于建立词集向量 1 ...

最新文章

  1. JAVA图片处理--缩放,切割,类型转换
  2. 1、时间、FHS 学习笔记
  3. Nginx集群session管理的两种方式
  4. python多线程并发编程技术_同步线程 - Python并发编程教程™
  5. 《Python和HDF 5大数据应用》——2.4 你的第一个HDF5文件
  6. word2016 图片去底灰_看来看去,还是高级灰最耐看,喜欢现代简约风的你,选它准不会错...
  7. mysql 监控 开源_强大的开源企业级数据库监控利器Lepus
  8. 安卓蓝牙键盘切换输入法_超薄无线蓝牙双模罗技K580键盘,自由切换享受打字快乐...
  9. 丰田汽车顶级供应商 Denso 疑遭勒索攻击,被威胁泄露商业机密
  10. 问题十六:使用初始化列表的构造函数和使用函数体的构造函数有什么区别?
  11. 轨迹绕圈算法_算法程序解决如下问题:质点在平面坐标系中运动,每次x或者y坐标增加或减少1,如何判断质点是否顺时针质点的轨迹我们是知道的,当我们已经知道质点在绕圈运动了,那么怎么判断它是在顺时...
  12. RailsCasts21 Super Simple Authentication 超级简单的验证机制
  13. android 点阵字库
  14. 信息流项目计划和思路
  15. 数据结构常用常考经典习题【按十大专题总结】
  16. 进化算法和深度强化学习的关系?
  17. 故乡的原风景-宗次郎
  18. Excel学习日记:L22-时间格式工龄与工时的计算
  19. SpringBoot之RMI的简单使用
  20. Maxima解方程的一点收获

热门文章

  1. php_connect_nonb,net2ftp无法显示文件列表输出为空
  2. 解决数据倾斜一:RDD执行reduceByKey或则Spark SQL中使用group by语句导致的数据倾斜
  3. 查看linux电脑内存free命令,Linux free命令查看内存状态
  4. php shell ddos,用shell解决ddos攻击实例
  5. convert for mysql_DBConvert for MySQL PostgreSQL下载|DBConvert for MySQL PostgreSQL官方下载-太平洋下载中心...
  6. clobzh字符串缓冲区太小的解决方法_用4K屏玩LOL英雄联盟游戏指针太小解决方法已找到...
  7. php程序员需要精通js的程度_PHP程序员基本要求和必备技能
  8. 告白气球--吉他教学
  9. jQuery动态加载select下拉列表
  10. 例题6-4 Broken Keyboard UVa11988