【数学基础】
1. 概率
  • 条件概率:
    事件A在事件B发生的前提下发生的概率,表示为:P(A|B),读作A在B发生的条件下发生的概率。
  • 联合概率:
    两个事件共同发生的概率,比如事件A和B的联合概率表示为:P(AB)或者P(A,B)。
  • 边缘概率:
    是对某个事件发生的概率,而与其他事件无关,比如事件A的边缘概率表示为P(A),同样事件B的边缘概率表示为P(B)。
  • 条件概率的链式法则:
    P(A,B) = P(A) * P(B|A)
    如果A事件和B事件是互相独立,那么P(B|A)=P(B),其对应联合概率:
    P(A,B) = P(A) * P(B)
2. 贝叶斯公式

P(A|B) = P(B|A) * P(A) / P(B)
推导:
=> P(A,B) = P(A) * P(B|A)
=> P(B,A) = P(B) * P(A|B)
=> P(A,B) = P(B,A)
=> P(A) * P(B|A) = P(B) * P(A|B)
=> P(A|B) = P(B|A) * P(A) / P(B)
简单应用:比如有10个西瓜,西瓜有很多特征[圆/椭圆,平滑/粗糙],根据特征训练并判断分类标签[好瓜/坏瓜]。
P(标签|特征) = P(特征|标签) * P(标签) / P(特征)

朴素贝叶斯有一个很重要的假设:条件独立性,即特征之间是独立的,这也是贝叶斯“朴素”的原因,它将问题简化了。实际生活中很多特征之间大多都是有关系的。

3. 先验概率与后验概率

先验概率:标签的概率,比如上面西瓜分类中,好瓜标签的概率。
后验概率:在特征已知的情况下发生的概率,比如特征为圆且平滑的西瓜,它是好瓜的概率。

【贝叶斯分类器基本原理】
  • 贝叶斯决策论通过相关概率已知的情况下,利用误判损失来选择最优的类别分类。
    假设有N种可能的分类标记,记为Y = {c1, c2, c3, …, cN},那对于样本x,它属于哪一类呢?计算步骤如下:
    step1:算出样本x属于第i个类别的概率,即P(ci|x);
    step2:通过比较所有的P(ci|x),得到样本x所属的最佳类别;
    step3:将类别ci和样本x代入贝叶斯公式中,得到:
    P(ci|x) = P(x|ci) * P(ci) / P(x)
    其中,P(ci)为先验概率,P(x|ci)为条件概率,我们需要求的就是P(x|ci)条件概率。

  • 假设样本x包含d个属性,即x = {x1, x2, x3, …, xd},那么:
    P(x|ci) = P(x1, x2, x3, …, xd|ci)
    这个联合概率难以从有限训练样本中直接计算得到。朴素贝叶斯采用“属性条件独立性假设”,即假设所有的属性是相互独立的,那么:
    P(x|ci) = P(x1, x2, x3, …, xd|ci) = P(xj|ci)的乘积

  • 最终只需要对条件概率P(xj|ci)求解,即对各自特征属性的条件概率求解,按照条件概率公式,采用统计的方式求解:
    P(xj|ci) = P(xj, ci) / P(ci) = num(xj, ci) / num(ci)
    其中,num(xj, ci)表示训练样本中xj, ci同时出现的次数。

【实战案例】

西瓜训练集数据:https://download.csdn.net/download/LWY_Xing/13209988

对下面的测试数据进行分类:

计算过程:

  1. 计算标签的先验概率P(ci):
    P(好瓜=是) = 8 / 17 = 0.471
    P(好瓜=否) = 9 / 17 = 0.529
  2. 计算每个特征属性的条件概率:

    01.朴素贝叶斯介绍相关推荐

    1. 【076】朴素贝叶斯介绍

      内容目录(原文见公众号:python宝) 一.贝叶斯介绍二.高斯分布贝叶斯三.多项式分布贝叶斯四.伯努利分布贝叶斯 一.贝叶斯介绍 # 高斯分布就是正态分布 # [用途]用于一般分类问题 from s ...

    2. 【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布

      贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A.B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是 ...

    3. 离线轻量级大数据平台Spark之MLib机器学习库朴素贝叶斯实例

      1.朴素贝叶斯介绍 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率,公式为: 贝叶斯定理: 从已知P(A|B)获得P(B|A)值. 假设A和B代表两类互相影响的事件,如 ...

    4. python人工智能——机器学习——分类算法-朴素贝叶斯算法

      1.概率基础 2.朴素贝叶斯介绍 概率基础 概率定义为一件事情发生的可能性 联合概率和条件概率 朴素贝叶斯-贝叶斯公式 拉普拉斯平滑 如果词频列表里面有很多出现次数都为0,则会导致计算结果为0. sk ...

    5. 贝叶斯 朴素贝叶斯_手动执行贝叶斯分析

      贝叶斯 朴素贝叶斯 介绍 (Introduction) Bayesian analysis offers the possibility to get more insights from your ...

    6. 机器学习面试题——朴素贝叶斯

      机器学习面试题--朴素贝叶斯 提示:这些知识点也是大厂笔试经常考的题目,我记得阿里和京东就考!!!想必在互联网大厂就会用这些知识解决实际问题 朴素贝叶斯介绍一下 朴素贝叶斯优缺点 贝叶斯公式 朴素贝叶 ...

    7. 朴素贝叶斯算法面试问题汇总

      自己救自己系列,不然我这个渣渣就要没工作了. 我只是个木得感情的搬运机器,以下内容都附有原链接地址,你不想我搬运的话,可以联系我删除好勒. 红色加粗是我见了好多次,感觉经常会考得点. 一.朴素贝叶斯介 ...

    8. 机器学习算法(7)—— 朴素贝叶斯算法

      朴素贝叶斯算法 1 朴素贝叶斯介绍 2 贝叶斯公式 3 拉普拉斯平滑系数 4 朴素贝叶斯api使用 5 朴素贝叶斯算法总结 5.1 朴素贝叶斯优缺点 5.2 朴素贝叶斯疑难点 5.3 与逻辑回归的区别 ...

    9. ML算法基础——分类算法(朴素贝叶斯)

      文章目录 朴素贝叶斯算法 1.概率基础 2.朴素贝叶斯介绍 3.朴素贝叶斯算法案例 3.1 sklearn朴素贝叶斯实现API 3.2 sklearn-20类新闻分类 3.3 朴素贝叶斯案例流程 4. ...

    最新文章

    1. 聊聊Batch Normalization在网络结构中的位置
    2. PHPCMS V9.3.2用户注册模板中的一个低级Bug
    3. Eigen(8)实例最小二乘法
    4. mysql bin值总是变化_MySQL|update字段为相同的值是否会记录binlog
    5. contentProvider 内容提供者
    6. kettle mysql_KETTLE7如何连接MYSQL8?
    7. 怎么查看任天堂账号是哪个服务器的,科普:任天堂账号和NS的本地用户有什么区别?...
    8. leetcode947. Most Stones Removed with Same Row or Column
    9. 2021年中国痤疮皮肤护理市场趋势报告、技术动态创新及2027年市场预测
    10. Java Socket编程基础实例
    11. 数据库中间表插入乱序
    12. 前加加++和后加加++的深入理解
    13. signature=a5d52dd3b1c2e95cc6ca952d8f8e8a05,6d53beb98227311df5d5a4ccf0177f23
    14. 记录学习向量的铭心刻骨的句子
    15. 智商黑洞(门萨Mensa测试)8
    16. VS2019项目模板中没有[ASP.NET空网站]的解决方案
    17. 悲观者往往正确,乐观者往往成功
    18. 十一、HTML常用标签
    19. Python中numpy.ix_ 的用法
    20. 这个夏天,有些东西需要记忆

    热门文章

    1. 教育资源平台空间装扮html代码,一看就会—— 河南省基础教育资源公共服务平台“人人通空间”...
    2. 怎么修改手机app服务器数据库,手机app服务器数据库
    3. 病案归档管理系统_ER图_功能图_数据字典_数据库脚本
    4. 电脑主板RS232串口硬件设计
    5. 操作系统-文件存储空间管理
    6. 2020湖南省技能竞赛获奖名单_雄安新区网络安全技能竞赛举办!9人获奖!
    7. GAPIT 3.0:全基因组关联分析与预测软件最新版发布
    8. ssRender引擎
    9. 停车场停车怎么找车?怎样查车停车什么停车场?
    10. 自媒体必备工具合集分享