【数学基础】
1. 概率
  • 条件概率:
    事件A在事件B发生的前提下发生的概率,表示为:P(A|B),读作A在B发生的条件下发生的概率。
  • 联合概率:
    两个事件共同发生的概率,比如事件A和B的联合概率表示为:P(AB)或者P(A,B)。
  • 边缘概率:
    是对某个事件发生的概率,而与其他事件无关,比如事件A的边缘概率表示为P(A),同样事件B的边缘概率表示为P(B)。
  • 条件概率的链式法则:
    P(A,B) = P(A) * P(B|A)
    如果A事件和B事件是互相独立,那么P(B|A)=P(B),其对应联合概率:
    P(A,B) = P(A) * P(B)
2. 贝叶斯公式

P(A|B) = P(B|A) * P(A) / P(B)
推导:
=> P(A,B) = P(A) * P(B|A)
=> P(B,A) = P(B) * P(A|B)
=> P(A,B) = P(B,A)
=> P(A) * P(B|A) = P(B) * P(A|B)
=> P(A|B) = P(B|A) * P(A) / P(B)
简单应用:比如有10个西瓜,西瓜有很多特征[圆/椭圆,平滑/粗糙],根据特征训练并判断分类标签[好瓜/坏瓜]。
P(标签|特征) = P(特征|标签) * P(标签) / P(特征)

朴素贝叶斯有一个很重要的假设:条件独立性,即特征之间是独立的,这也是贝叶斯“朴素”的原因,它将问题简化了。实际生活中很多特征之间大多都是有关系的。

3. 先验概率与后验概率

先验概率:标签的概率,比如上面西瓜分类中,好瓜标签的概率。
后验概率:在特征已知的情况下发生的概率,比如特征为圆且平滑的西瓜,它是好瓜的概率。

【贝叶斯分类器基本原理】
  • 贝叶斯决策论通过相关概率已知的情况下,利用误判损失来选择最优的类别分类。
    假设有N种可能的分类标记,记为Y = {c1, c2, c3, …, cN},那对于样本x,它属于哪一类呢?计算步骤如下:
    step1:算出样本x属于第i个类别的概率,即P(ci|x);
    step2:通过比较所有的P(ci|x),得到样本x所属的最佳类别;
    step3:将类别ci和样本x代入贝叶斯公式中,得到:
    P(ci|x) = P(x|ci) * P(ci) / P(x)
    其中,P(ci)为先验概率,P(x|ci)为条件概率,我们需要求的就是P(x|ci)条件概率。

  • 假设样本x包含d个属性,即x = {x1, x2, x3, …, xd},那么:
    P(x|ci) = P(x1, x2, x3, …, xd|ci)
    这个联合概率难以从有限训练样本中直接计算得到。朴素贝叶斯采用“属性条件独立性假设”,即假设所有的属性是相互独立的,那么:
    P(x|ci) = P(x1, x2, x3, …, xd|ci) = P(xj|ci)的乘积

  • 最终只需要对条件概率P(xj|ci)求解,即对各自特征属性的条件概率求解,按照条件概率公式,采用统计的方式求解:
    P(xj|ci) = P(xj, ci) / P(ci) = num(xj, ci) / num(ci)
    其中,num(xj, ci)表示训练样本中xj, ci同时出现的次数。

【实战案例】

西瓜训练集数据:https://download.csdn.net/download/LWY_Xing/13209988

对下面的测试数据进行分类:

计算过程:

  1. 计算标签的先验概率P(ci):
    P(好瓜=是) = 8 / 17 = 0.471
    P(好瓜=否) = 9 / 17 = 0.529
  2. 计算每个特征属性的条件概率:

    01.朴素贝叶斯介绍相关推荐

    1. 【076】朴素贝叶斯介绍

      内容目录(原文见公众号:python宝) 一.贝叶斯介绍二.高斯分布贝叶斯三.多项式分布贝叶斯四.伯努利分布贝叶斯 一.贝叶斯介绍 # 高斯分布就是正态分布 # [用途]用于一般分类问题 from s ...

    2. 【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布

      贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A.B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是 ...

    3. 离线轻量级大数据平台Spark之MLib机器学习库朴素贝叶斯实例

      1.朴素贝叶斯介绍 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率,公式为: 贝叶斯定理: 从已知P(A|B)获得P(B|A)值. 假设A和B代表两类互相影响的事件,如 ...

    4. python人工智能——机器学习——分类算法-朴素贝叶斯算法

      1.概率基础 2.朴素贝叶斯介绍 概率基础 概率定义为一件事情发生的可能性 联合概率和条件概率 朴素贝叶斯-贝叶斯公式 拉普拉斯平滑 如果词频列表里面有很多出现次数都为0,则会导致计算结果为0. sk ...

    5. 贝叶斯 朴素贝叶斯_手动执行贝叶斯分析

      贝叶斯 朴素贝叶斯 介绍 (Introduction) Bayesian analysis offers the possibility to get more insights from your ...

    6. 机器学习面试题——朴素贝叶斯

      机器学习面试题--朴素贝叶斯 提示:这些知识点也是大厂笔试经常考的题目,我记得阿里和京东就考!!!想必在互联网大厂就会用这些知识解决实际问题 朴素贝叶斯介绍一下 朴素贝叶斯优缺点 贝叶斯公式 朴素贝叶 ...

    7. 朴素贝叶斯算法面试问题汇总

      自己救自己系列,不然我这个渣渣就要没工作了. 我只是个木得感情的搬运机器,以下内容都附有原链接地址,你不想我搬运的话,可以联系我删除好勒. 红色加粗是我见了好多次,感觉经常会考得点. 一.朴素贝叶斯介 ...

    8. 机器学习算法(7)—— 朴素贝叶斯算法

      朴素贝叶斯算法 1 朴素贝叶斯介绍 2 贝叶斯公式 3 拉普拉斯平滑系数 4 朴素贝叶斯api使用 5 朴素贝叶斯算法总结 5.1 朴素贝叶斯优缺点 5.2 朴素贝叶斯疑难点 5.3 与逻辑回归的区别 ...

    9. ML算法基础——分类算法(朴素贝叶斯)

      文章目录 朴素贝叶斯算法 1.概率基础 2.朴素贝叶斯介绍 3.朴素贝叶斯算法案例 3.1 sklearn朴素贝叶斯实现API 3.2 sklearn-20类新闻分类 3.3 朴素贝叶斯案例流程 4. ...

    最新文章

    1. python构造方法与java区别_一张图秒懂Java和Python的区别,你知道吗?
    2. python中的中文乱码问题深入分析
    3. JavaScript 仿LightBox内容显示效果
    4. display:inline-block解决文字有间隙问题
    5. java有var吗_java – Var和Var之间的区别
    6. 小学五年级年级计算机教学计划,小学五年级信息技术教学计划范文
    7. ios 点生成线路 百度地图_iOS SDK | 百度地图API SDK
    8. 火狐 html5 退出 白屏,Html5+ 后退按钮出现白屏(webView.back会白屏)
    9. 布隆过滤算法c语言,通过实例解析布隆过滤器工作原理及实例
    10. 图像处理——DCT变换的学习笔记
    11. 机器学习——异常值检测
    12. 付费率第一 亏损显著收窄 网易云音乐将实现盈利?
    13. 后摩尔时代下先进封装技术
    14. EasyUI整站示例系统-SyPro
    15. 从一到无穷大 #5 公有云时序数据库定价
    16. 2020淘宝平台搜索规则变化和调整,搜索转化率如何提升
    17. Unity精品专栏之序列化操作之Json
    18. winmail 数据库设置_企业邮箱winmail设置方法
    19. 2019最新计算机毕业设计-题目汇总大全-系列4
    20. 遥感图像处理-Spectral–Spatial Weighted Kernel Manifold Embedded Distribution Alignment for Remote Sensing

    热门文章

    1. 惠普HP LaserJet Pro M405dn 打印机驱动
    2. Netty空闲检测之写空闲
    3. 我想做安卓开发,怎么系统学习?
    4. 医疗管理系统软件 linux系统,MyPatients 4.0.2 发布,医疗信息管理系统
    5. VMware虚拟机复制文件卡死的解决
    6. 【爱生活之咖啡】咖啡入坑记--咖啡豆的那些事
    7. java 联网版五子棋
    8. R for LC+cohort
    9. 难上加难?女性在技术领域可以这样做……
    10. 从零开始自制实现WebServer(五)---- 浅沿芳草鲜花小路静心踱步 拨云见雾终见多线程ThreadPool