贝叶斯公式

P(a|b) = P(a) * P(b|a) / P(b)
P(a)是先验概率;你提前知道一个袋里有5个球,3红2白;那么,白球概率是0.4,红球概率是0.6.这是已知分布情况下的概率;
P(b|a)是a情况下,b发生的概率;

P(b)是发生b的总概率,注意这个不等于一,等于发生b的总数,不是发生a的。

朴素贝叶斯

wiki的例子:

如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

还是来看wiki:

理论上,概率模型分类器是一个条件概率模型。(为什么?)P(C|F1,F2...Fn),C是独立的类别变量有若干类别(苹果成熟和不成熟还有半成熟三个类别),判断条件依赖于F1,F2。。。Fn,(F1红色,F2大,F3圆。。,那么这三个其实有联系)。
那么,方程的理解变成:在具有这些属性的情况下,苹果是成熟的概率是多大?比如:拿起来一个苹果,红色,不大,圆,那么这个苹果是成熟苹果吗?这个我事先不知道是不是成熟苹果。
再来对比一下先验概率:成熟苹果具有这些特征的概率是?对于F1,十个苹果,红色7个,就是0.7,没有条件,也就是没有成熟苹果或者不成熟苹果之分。
再来看一下:P(F1|C)。C TRUE的条件下,F1的概率。成熟苹果内,F1的概率。
分母可以看成常数,因为每个子项的分母都一样。

但是,F1,F2。。。Fn都其实或多或少联系的,当n很大时,计算太难了。那怎么办?

假设每个特征Fi对于其他特征Fj是条件独立的。这就意味着P(Fi|C,Fj) = P(Fi|C)。(这个很好理解,假设有两个特征F1,F2;那么,他们互相联系,P(C|F1,F2)=P(F1)P(F1|C,F2) 后面的是C和F2条件下,F1的概率。(具体可以看概率书,有推导)这样就难做了。)

P(Fi|C,Fj) = P(Fi|C)时,P(C|F1,F2...Fn) = 1/Z * P(C)P(F1|C)P(F2|C)...P(Fn|C)。Z是一个依赖Fn的缩放因子。

那么,C到底是成熟还是不成熟呢?根据最大似然估计,概率最大的就是正确的。公式写不了,其他人那里有,可以借鉴下。

工程应用

经常用来做拼写检查器。

argmaxc P(C|W) ---> argmaxc P(W|C)P(C)/P(W)
argmaxc P(C|W):如果我想写C(正确拼写),但是写了W(想写cao,写成了cai,那写了w就是结果)的概率;那,写成了cai时,其实想写的有很多,系统不知道,比如可以写成cau,cap,caw等等。这个公式的意思就leile,如果写了cai,求出写成cao,cau等等的概率,什么词的概率最大?哪个概率大就用哪个。
P(C):cao,cau等等在文章中的概率多大,是统计得出的。

P(W|C):用边际距离求,输入C的情况下,W的概率。

代码:

《机器学习工程师》朴素贝叶斯相关推荐

  1. python贝叶斯算法的论文_朴素贝叶斯算法从入门到Python实践

    1,前言 很久不发文章,整理些干货,希望相互学习吧.进入主题,本文主要时说的为朴素贝叶斯分类算法.与逻辑回归,决策树一样,是较为广泛使用的有监督分类算法,简单且易于理解(号称十大数据挖掘算法中最简单的 ...

  2. 机器学习__04__朴素贝叶斯算法

    文章目录 朴素贝叶斯 1.0 概述 2.0 相关原理 2.1后验概率最大化含义 2.2拉普拉斯平滑 3.0 朴素贝叶斯的三种形式和实现 3.1高斯型 3.2多项式型 3.3伯努利型 4.0 中文文本分 ...

  3. 一步步教你轻松学朴素贝叶斯模型算法理论篇1

    一步步教你轻松学朴素贝叶斯模型理论篇1 (白宁超2018年9月3日17:51:32) 导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果.所以很受欢迎,对 ...

  4. 【数据科学系统学习】机器学习算法 # 西瓜书学习记录 [6] 朴素贝叶斯实践

    本篇内容为<机器学习实战>第 4 章 基于概率论的分类方法:朴素贝叶斯程序清单.所用代码为 python3. 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题. 缺点:对于 ...

  5. ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估

    ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 c ...

  6. ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估

    ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 class ...

  7. ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估

    ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测.评估 目录 输出结果 设计思路 核心代码 ...

  8. 朴素贝叶斯 半朴素贝叶斯_使用朴素贝叶斯和N-Gram的Twitter情绪分析

    朴素贝叶斯 半朴素贝叶斯 In this article, we'll show you how to classify a tweet into either positive or negativ ...

  9. NB朴素贝叶斯理论推导与三种常见模型

    转自:http://www.tuicool.com/articles/zEJzIbR 朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤). ...

  10. 先马后看!详解线性回归、朴素贝叶斯、随机森林在R和Python中的实现应用!(附代码)...

    来源| analyticsvidhya 编译| 火火酱,责编| Carol 出品 | AI科技大本营(ID:rgznai100) 谷歌的自动驾驶汽车和机器人得到了媒体的广泛关注,但是公司真正的未来是在 ...

最新文章

  1. 超级计算机性能调查,调查:多数超级计算机使用Linux操作系统
  2. 《计量经济学》学习笔记之多元线性回归模型
  3. SAP Analytics Cloud连接Cloud for Customer的一些后台调试
  4. 玩客云pc端_玩客云电脑客户端-玩客云pc端下载 v1.4.5.112官方版--pc6下载站
  5. 婚纱摄影五大标杆品牌告诉你,客资转化居然可以这么玩?
  6. C# 生成高清缩略图
  7. USB-AUDIO初步分析
  8. 闩锁效应Latch-up effect---Phsical cell---Welltap---SOI
  9. 【四足机器人那些事儿】MiniCheetah中的MPC控制
  10. 计算机网络的定义及答案,计算机网络习题库
  11. c语言谱曲软件,基于C语言的音乐谱曲技巧与应用研究
  12. GIS数据在哪里下载
  13. SPIR-V 研究:编译器基本原理(二)
  14. 底层码农的Stanford梦 --- 从SCPD开始 [转]
  15. 【Python 数据科学】分组group by基础
  16. 基于C/C++语言的停车场管理系统编程课程设计超详细
  17. html50页面显示在线人数,50个网页常用小代码
  18. Elasticsearch笔记(九):实践篇-查找附近的人
  19. arm搭建云手机教程_云手机解决方案对比:arm服务器与安卓板机
  20. cavium CN71XX芯片 GSER Interface总结

热门文章

  1. 代码整洁之道--命名规范
  2. 一个程序最多可以使用多少内存?
  3. [Asp.net]web.config customErrors 如何设置?
  4. 家用电信公网ip桥接网络设置
  5. 数学建模之相关性分析2
  6. RKMPP API安装使用总结
  7. ffmpeg学习日记602-指令-转换视频的分辨率
  8. Facebook Folly源代码分析
  9. Oracle中全角字符串判断,半角字符串和全角字符串之间转换
  10. pyqt5制作GUI界面(一)