【ML小结7】贝叶斯分类器:朴素、半朴素贝叶斯
贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。
分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。
贝叶斯分类器的基础
贝叶斯公式
P(H∣X)=P(X∣H)P(H)P(X)P(H|X)=\frac{P(X|H)P(H)}{P(X)}P(H∣X)=P(X)P(X∣H)P(H)其中,X表示n个属性的测量描述;
H为某种假设,比如假设某观察值X属于某个特定的类别C;
P(X)则是X的先验概率, P(H)也是先验概率;
P(X|H)是类条件概率,也叫似然;
P(H|X)是后验概率,即在条件X下,H的后验概率;
对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到假设H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。
举个栗子,假设数据属性仅限于用教育背景和收入来描述顾客,而X是学历是硕士,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机。
- P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;
- P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;
- P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;
- P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。
模型表示
对每个样本xxx选择能使后验概率P(c∣x)P(c|x)P(c∣x)最大的类别标记:
(1)h∗(x)=argmaxc∈YP(c∣x)=argmaxc∈YP(x∣c)P(c)P(x)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1h∗(x)=argc∈YmaxP(c∣x)=argc∈YmaxP(x)P(x∣c)P(c)(1)即当分类器预测样本xxx属于类别cic_ici时,当且仅当:
P(ci∣x)>P(cj∣x),1≤j≤m,j≠iP(c_i|x)>P(c_j|x),\quad 1\le j\le m,j\ne iP(ci∣x)>P(cj∣x),1≤j≤m,j̸=i
朴素贝叶斯分类器
朴素贝叶斯法是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大(01损失函数时期望风险最小)的y。
基于属性条件独立性假设(假设每个属性独立地对分类结果发生影响)
P(x∣c)=∏iP(xi∣c)P(x|c)=\prod_i P(x_i|c)P(x∣c)=i∏P(xi∣c)
模型表示
在式(1)中,
P(c∣x)=P(x∣c)P(c)P(x)=P(c)P(x)∏iP(xi∣c)P(c|x)=\frac{P(x|c)P(c)}{P(x)}= \frac{P(c)}{P(x)}\prod_i P(x_i|c)P(c∣x)=P(x)P(x∣c)P(c)=P(x)P(c)i∏P(xi∣c)
由于对于所有类别来说P(x)相同,所以最终朴素贝叶斯分类器的模型表示为:
h∗(x)=argmaxc∈YP(c∣x)=argmaxc∈YP(c)∏iP(xi∣c)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c)h∗(x)=argc∈YmaxP(c∣x)=argc∈YmaxP(c)i∏P(xi∣c)
缺点
在现实任务中属性条件独立性假设往往很难成立
应用
一篇文档属于类别 C 的概率:
垃圾邮件识别:
- 特征提取(词袋模型、TF-IDF模型、词向量)
- 分类器:朴素贝叶斯、SVM等
举例
半朴素贝叶斯分类器
对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖信息。
常用策略:独依赖估计,假设每个属性在类别之外最多仅依赖于一个其他属性。
h∗(x)=argmaxc∈YP(c∣x)=argmaxc∈YP(c)∏iP(xi∣c,pai)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c,pa_i)h∗(x)=argc∈YmaxP(c∣x)=argc∈YmaxP(c)i∏P(xi∣c,pai)其中,paipa_ipai是属性xix_ixi所依赖的属性,称为xix_ixi的父属性。
【ML小结7】贝叶斯分类器:朴素、半朴素贝叶斯相关推荐
- 机器学习算法——贝叶斯分类器3(朴素贝叶斯分类器)
基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得. 为避开这个障碍,朴素贝叶斯分类器(Naive Bayes cl ...
- 机器学习基础(六):贝叶斯分类(贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法)
6.贝叶斯分类 6.1贝叶斯决策论Bayesian decision theory 概率框架下实施决策的基本方法. 对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和 ...
- 机器学习-贝叶斯分类器
https://www.toutiao.com/a6684876999611122187/ 2019-04-28 17:36:54 目录: 1.贝叶斯分类器的基础 2.朴素贝叶斯分类器 3.朴素贝叶斯 ...
- 机器学习模型5——贝叶斯分类器
前置知识 条件概率 贝叶斯公式 (贝叶斯模型还是很好理解的,主要基于高中就学到过的条件概率.) 贝叶斯定理 P(A),P(B)分别是事件A,B发生的概率,而P(A|B)是在事件A在事件B发生的前提下发 ...
- 【贝叶斯分类3】半朴素贝叶斯分类器
文章目录 1. 朴素贝叶斯分类器知识回顾 1.1 类别,特征 1.2 风险,概率 1.3 类条件概率 2. 半朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 2.3 半朴素贝叶斯分类器 2. ...
- 朴素贝叶斯 半朴素贝叶斯_使用朴素贝叶斯和N-Gram的Twitter情绪分析
朴素贝叶斯 半朴素贝叶斯 In this article, we'll show you how to classify a tweet into either positive or negativ ...
- 机器学习实验 - 朴素贝叶斯分类器
目录 一.报告摘要 1.1 实验要求 1.2 实验思路 1.3 实验结论 二.实验内容 2.1 方法介绍 2.2 实验细节 2.2.1 实验环境 2.2.2 实验过程 2.2.3 实验与理论内容的不同 ...
- 朴素贝叶斯分类器NBC
朴素贝叶斯分类器NBC 朴素贝叶斯算法是统计学的一种分类方法,利用概率统计知识进行分类.朴素贝叶斯一贝叶斯定理为基础,故统称为贝叶斯分类. ##贝叶斯流派 在提出贝叶斯方法之前,人们认为一件事发生的概 ...
- 机器学习(3)高斯判别分析朴素贝叶斯分类器
判别模型与生成模型 判别模型 判别模型是对观测数据进行直接分类,常见的判别模型有逻辑回归和感知机算法等.此模型仅对数据进行分类,并不能具象化或者量化数据本身的分布状态,因此也无法根据分类生成可观测的图 ...
- 【贝叶斯分类2】朴素贝叶斯分类器
文章目录 1. 贝叶斯决策论回顾 1.1 分类原理 1.2 贝叶斯分类器 1.3 P(c|x) 1.4 计算公式 1.5 极大似然估计 2. 朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 ...
最新文章
- python whl是什么文件
- 一个Python绘图示例程序中的几个语法糖果
- 关于软件产品服务有感
- AMD规范:简单而优雅的动态载入JavaScript代码
- Linux基础优化之SElinux和iptables项
- 国内“重量级”单体数据中心开始运营 火了这个县
- java获取pdf的页数、内容和缩略图
- mysql数据库优化课程---13、mysql基础操作
- document.body.scrollTop用法
- 使用抓包工具fiddler和apipost进行接口测试
- python什么时候开始流行的_Python什么时候会被取代?
- 和root权限挣扎过的一些记录
- LaTex warning:Font shape `TU/ppl/bx/n' undefined(Font) using `TU/ppl/m/n' instead
- JDK官网下载+JDK环境安装+hadoop环境配置
- 俄罗斯独立自主的计算机技术和计算机网络
- 微信公众号支付(二)
- Ackerman函数
- H5打开支付宝小程序
- 腾讯游戏人生 android,腾讯游戏
- marquee标签_html滚动文字
热门文章
- SQL2005企业版详细部署(一)
- 文件异步加载读取 php,js文件的异步加载的方法总结(附代码)
- string容器字符存取
- stringbuilder 拼接语句缺失右括号_C++编程基础: 6. 语句、表达式和运算符
- 数据库习题(填空题三)
- 判断非负整数是否是3的倍数_价格是最小变动价位(tick)整数倍检查
- python序列类型唯一的映射类型_什么是python中唯一的映射类型
- python盖帽法_干货:用Python进行数据清洗,这7种方法你一定要掌握
- 函数解素数求距离问题
- 最全计算机基础知识竞赛试题及答案,计算机基础知识竞赛试题.doc