01.朴素贝叶斯介绍
【数学基础】
1. 概率
- 条件概率:
事件A在事件B发生的前提下发生的概率,表示为:P(A|B),读作A在B发生的条件下发生的概率。 - 联合概率:
两个事件共同发生的概率,比如事件A和B的联合概率表示为:P(AB)或者P(A,B)。 - 边缘概率:
是对某个事件发生的概率,而与其他事件无关,比如事件A的边缘概率表示为P(A),同样事件B的边缘概率表示为P(B)。 - 条件概率的链式法则:
P(A,B) = P(A) * P(B|A)
如果A事件和B事件是互相独立,那么P(B|A)=P(B),其对应联合概率:
P(A,B) = P(A) * P(B)
2. 贝叶斯公式
P(A|B) = P(B|A) * P(A) / P(B)
推导:
=> P(A,B) = P(A) * P(B|A)
=> P(B,A) = P(B) * P(A|B)
=> P(A,B) = P(B,A)
=> P(A) * P(B|A) = P(B) * P(A|B)
=> P(A|B) = P(B|A) * P(A) / P(B)
简单应用:比如有10个西瓜,西瓜有很多特征[圆/椭圆,平滑/粗糙],根据特征训练并判断分类标签[好瓜/坏瓜]。
P(标签|特征) = P(特征|标签) * P(标签) / P(特征)
朴素贝叶斯有一个很重要的假设:条件独立性,即特征之间是独立的,这也是贝叶斯“朴素”的原因,它将问题简化了。实际生活中很多特征之间大多都是有关系的。
3. 先验概率与后验概率
先验概率:标签的概率,比如上面西瓜分类中,好瓜标签的概率。
后验概率:在特征已知的情况下发生的概率,比如特征为圆且平滑的西瓜,它是好瓜的概率。
【贝叶斯分类器基本原理】
贝叶斯决策论通过相关概率已知的情况下,利用误判损失来选择最优的类别分类。
假设有N种可能的分类标记,记为Y = {c1, c2, c3, …, cN},那对于样本x,它属于哪一类呢?计算步骤如下:
step1:算出样本x属于第i个类别的概率,即P(ci|x);
step2:通过比较所有的P(ci|x),得到样本x所属的最佳类别;
step3:将类别ci和样本x代入贝叶斯公式中,得到:
P(ci|x) = P(x|ci) * P(ci) / P(x)
其中,P(ci)为先验概率,P(x|ci)为条件概率,我们需要求的就是P(x|ci)条件概率。假设样本x包含d个属性,即x = {x1, x2, x3, …, xd},那么:
P(x|ci) = P(x1, x2, x3, …, xd|ci)
这个联合概率难以从有限训练样本中直接计算得到。朴素贝叶斯采用“属性条件独立性假设”,即假设所有的属性是相互独立的,那么:
P(x|ci) = P(x1, x2, x3, …, xd|ci) = P(xj|ci)的乘积最终只需要对条件概率P(xj|ci)求解,即对各自特征属性的条件概率求解,按照条件概率公式,采用统计的方式求解:
P(xj|ci) = P(xj, ci) / P(ci) = num(xj, ci) / num(ci)
其中,num(xj, ci)表示训练样本中xj, ci同时出现的次数。
【实战案例】
西瓜训练集数据:https://download.csdn.net/download/LWY_Xing/13209988
对下面的测试数据进行分类:
计算过程:
- 计算标签的先验概率P(ci):
P(好瓜=是) = 8 / 17 = 0.471
P(好瓜=否) = 9 / 17 = 0.529 - 计算每个特征属性的条件概率:
01.朴素贝叶斯介绍相关推荐
- 【076】朴素贝叶斯介绍
内容目录(原文见公众号:python宝) 一.贝叶斯介绍二.高斯分布贝叶斯三.多项式分布贝叶斯四.伯努利分布贝叶斯 一.贝叶斯介绍 # 高斯分布就是正态分布 # [用途]用于一般分类问题 from s ...
- 【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布
贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A.B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是 ...
- 离线轻量级大数据平台Spark之MLib机器学习库朴素贝叶斯实例
1.朴素贝叶斯介绍 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率,公式为: 贝叶斯定理: 从已知P(A|B)获得P(B|A)值. 假设A和B代表两类互相影响的事件,如 ...
- python人工智能——机器学习——分类算法-朴素贝叶斯算法
1.概率基础 2.朴素贝叶斯介绍 概率基础 概率定义为一件事情发生的可能性 联合概率和条件概率 朴素贝叶斯-贝叶斯公式 拉普拉斯平滑 如果词频列表里面有很多出现次数都为0,则会导致计算结果为0. sk ...
- 贝叶斯 朴素贝叶斯_手动执行贝叶斯分析
贝叶斯 朴素贝叶斯 介绍 (Introduction) Bayesian analysis offers the possibility to get more insights from your ...
- 机器学习面试题——朴素贝叶斯
机器学习面试题--朴素贝叶斯 提示:这些知识点也是大厂笔试经常考的题目,我记得阿里和京东就考!!!想必在互联网大厂就会用这些知识解决实际问题 朴素贝叶斯介绍一下 朴素贝叶斯优缺点 贝叶斯公式 朴素贝叶 ...
- 朴素贝叶斯算法面试问题汇总
自己救自己系列,不然我这个渣渣就要没工作了. 我只是个木得感情的搬运机器,以下内容都附有原链接地址,你不想我搬运的话,可以联系我删除好勒. 红色加粗是我见了好多次,感觉经常会考得点. 一.朴素贝叶斯介 ...
- 机器学习算法(7)—— 朴素贝叶斯算法
朴素贝叶斯算法 1 朴素贝叶斯介绍 2 贝叶斯公式 3 拉普拉斯平滑系数 4 朴素贝叶斯api使用 5 朴素贝叶斯算法总结 5.1 朴素贝叶斯优缺点 5.2 朴素贝叶斯疑难点 5.3 与逻辑回归的区别 ...
- ML算法基础——分类算法(朴素贝叶斯)
文章目录 朴素贝叶斯算法 1.概率基础 2.朴素贝叶斯介绍 3.朴素贝叶斯算法案例 3.1 sklearn朴素贝叶斯实现API 3.2 sklearn-20类新闻分类 3.3 朴素贝叶斯案例流程 4. ...
最新文章
- python构造方法与java区别_一张图秒懂Java和Python的区别,你知道吗?
- python中的中文乱码问题深入分析
- JavaScript 仿LightBox内容显示效果
- display:inline-block解决文字有间隙问题
- java有var吗_java – Var和Var之间的区别
- 小学五年级年级计算机教学计划,小学五年级信息技术教学计划范文
- ios 点生成线路 百度地图_iOS SDK | 百度地图API SDK
- 火狐 html5 退出 白屏,Html5+ 后退按钮出现白屏(webView.back会白屏)
- 布隆过滤算法c语言,通过实例解析布隆过滤器工作原理及实例
- 图像处理——DCT变换的学习笔记
- 机器学习——异常值检测
- 付费率第一 亏损显著收窄 网易云音乐将实现盈利?
- 后摩尔时代下先进封装技术
- EasyUI整站示例系统-SyPro
- 从一到无穷大 #5 公有云时序数据库定价
- 2020淘宝平台搜索规则变化和调整,搜索转化率如何提升
- Unity精品专栏之序列化操作之Json
- winmail 数据库设置_企业邮箱winmail设置方法
- 2019最新计算机毕业设计-题目汇总大全-系列4
- 遥感图像处理-Spectral–Spatial Weighted Kernel Manifold Embedded Distribution Alignment for Remote Sensing
热门文章
- 【076】朴素贝叶斯介绍