贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。
分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。

贝叶斯分类器的基础

贝叶斯公式

P(H∣X)=P(X∣H)P(H)P(X)P(H|X)=\frac{P(X|H)P(H)}{P(X)}P(H∣X)=P(X)P(X∣H)P(H)​其中,X表示n个属性的测量描述;
H为某种假设,比如假设某观察值X属于某个特定的类别C;
P(X)则是X的先验概率, P(H)也是先验概率;
P(X|H)是类条件概率,也叫似然;
P(H|X)是后验概率,即在条件X下,H的后验概率;

对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到假设H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。

举个栗子,假设数据属性仅限于用教育背景和收入来描述顾客,而X是学历是硕士,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机。

  • P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;
  • P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;
  • P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;
  • P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。

模型表示

对每个样本xxx选择能使后验概率P(c∣x)P(c|x)P(c∣x)最大的类别标记:
(1)h∗(x)=argmax⁡c∈YP(c∣x)=argmax⁡c∈YP(x∣c)P(c)P(x)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1h∗(x)=argc∈Ymax​P(c∣x)=argc∈Ymax​P(x)P(x∣c)P(c)​(1)即当分类器预测样本xxx属于类别cic_ici​时,当且仅当:
P(ci∣x)>P(cj∣x),1≤j≤m,j≠iP(c_i|x)>P(c_j|x),\quad 1\le j\le m,j\ne iP(ci​∣x)>P(cj​∣x),1≤j≤m,j̸​=i

朴素贝叶斯分类器

朴素贝叶斯法是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大(01损失函数时期望风险最小)的y。

基于属性条件独立性假设(假设每个属性独立地对分类结果发生影响)
P(x∣c)=∏iP(xi∣c)P(x|c)=\prod_i P(x_i|c)P(x∣c)=i∏​P(xi​∣c)

模型表示

在式(1)中,
P(c∣x)=P(x∣c)P(c)P(x)=P(c)P(x)∏iP(xi∣c)P(c|x)=\frac{P(x|c)P(c)}{P(x)}= \frac{P(c)}{P(x)}\prod_i P(x_i|c)P(c∣x)=P(x)P(x∣c)P(c)​=P(x)P(c)​i∏​P(xi​∣c)
由于对于所有类别来说P(x)相同,所以最终朴素贝叶斯分类器的模型表示为:
h∗(x)=argmax⁡c∈YP(c∣x)=argmax⁡c∈YP(c)∏iP(xi∣c)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c)h∗(x)=argc∈Ymax​P(c∣x)=argc∈Ymax​P(c)i∏​P(xi​∣c)

缺点

在现实任务中属性条件独立性假设往往很难成立

应用

一篇文档属于类别 C 的概率:

垃圾邮件识别:

  • 特征提取(词袋模型、TF-IDF模型、词向量)
  • 分类器:朴素贝叶斯、SVM等

举例

半朴素贝叶斯分类器

对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖信息。
常用策略:独依赖估计,假设每个属性在类别之外最多仅依赖于一个其他属性。
h∗(x)=argmax⁡c∈YP(c∣x)=argmax⁡c∈YP(c)∏iP(xi∣c,pai)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c,pa_i)h∗(x)=argc∈Ymax​P(c∣x)=argc∈Ymax​P(c)i∏​P(xi​∣c,pai​)其中,paipa_ipai​是属性xix_ixi​所依赖的属性,称为xix_ixi​的父属性。

【ML小结7】贝叶斯分类器:朴素、半朴素贝叶斯相关推荐

  1. 机器学习算法——贝叶斯分类器3(朴素贝叶斯分类器)

    基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得. 为避开这个障碍,朴素贝叶斯分类器(Naive Bayes cl ...

  2. 机器学习基础(六):贝叶斯分类(贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法)

    6.贝叶斯分类 6.1贝叶斯决策论Bayesian decision theory 概率框架下实施决策的基本方法. 对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和 ...

  3. 机器学习-贝叶斯分类器

    https://www.toutiao.com/a6684876999611122187/ 2019-04-28 17:36:54 目录: 1.贝叶斯分类器的基础 2.朴素贝叶斯分类器 3.朴素贝叶斯 ...

  4. 机器学习模型5——贝叶斯分类器

    前置知识 条件概率 贝叶斯公式 (贝叶斯模型还是很好理解的,主要基于高中就学到过的条件概率.) 贝叶斯定理 P(A),P(B)分别是事件A,B发生的概率,而P(A|B)是在事件A在事件B发生的前提下发 ...

  5. 【贝叶斯分类3】半朴素贝叶斯分类器

    文章目录 1. 朴素贝叶斯分类器知识回顾 1.1 类别,特征 1.2 风险,概率 1.3 类条件概率 2. 半朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 2.3 半朴素贝叶斯分类器 2. ...

  6. 朴素贝叶斯 半朴素贝叶斯_使用朴素贝叶斯和N-Gram的Twitter情绪分析

    朴素贝叶斯 半朴素贝叶斯 In this article, we'll show you how to classify a tweet into either positive or negativ ...

  7. 机器学习实验 - 朴素贝叶斯分类器

    目录 一.报告摘要 1.1 实验要求 1.2 实验思路 1.3 实验结论 二.实验内容 2.1 方法介绍 2.2 实验细节 2.2.1 实验环境 2.2.2 实验过程 2.2.3 实验与理论内容的不同 ...

  8. 朴素贝叶斯分类器NBC

    朴素贝叶斯分类器NBC 朴素贝叶斯算法是统计学的一种分类方法,利用概率统计知识进行分类.朴素贝叶斯一贝叶斯定理为基础,故统称为贝叶斯分类. ##贝叶斯流派 在提出贝叶斯方法之前,人们认为一件事发生的概 ...

  9. 机器学习(3)高斯判别分析朴素贝叶斯分类器

    判别模型与生成模型 判别模型 判别模型是对观测数据进行直接分类,常见的判别模型有逻辑回归和感知机算法等.此模型仅对数据进行分类,并不能具象化或者量化数据本身的分布状态,因此也无法根据分类生成可观测的图 ...

  10. 【贝叶斯分类2】朴素贝叶斯分类器

    文章目录 1. 贝叶斯决策论回顾 1.1 分类原理 1.2 贝叶斯分类器 1.3 P(c|x) 1.4 计算公式 1.5 极大似然估计 2. 朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 ...

最新文章

  1. python whl是什么文件
  2. 一个Python绘图示例程序中的几个语法糖果
  3. 关于软件产品服务有感
  4. AMD规范:简单而优雅的动态载入JavaScript代码
  5. Linux基础优化之SElinux和iptables项
  6. 国内“重量级”单体数据中心开始运营 火了这个县
  7. java获取pdf的页数、内容和缩略图
  8. mysql数据库优化课程---13、mysql基础操作
  9. document.body.scrollTop用法
  10. 使用抓包工具fiddler和apipost进行接口测试
  11. python什么时候开始流行的_Python什么时候会被取代?
  12. 和root权限挣扎过的一些记录
  13. LaTex warning:Font shape `TU/ppl/bx/n' undefined(Font) using `TU/ppl/m/n' instead
  14. JDK官网下载+JDK环境安装+hadoop环境配置
  15. 俄罗斯独立自主的计算机技术和计算机网络
  16. 微信公众号支付(二)
  17. Ackerman函数
  18. H5打开支付宝小程序
  19. 腾讯游戏人生 android,腾讯游戏
  20. marquee标签_html滚动文字

热门文章

  1. SQL2005企业版详细部署(一)
  2. 文件异步加载读取 php,js文件的异步加载的方法总结(附代码)
  3. string容器字符存取
  4. stringbuilder 拼接语句缺失右括号_C++编程基础: 6. 语句、表达式和运算符
  5. 数据库习题(填空题三)
  6. 判断非负整数是否是3的倍数_价格是最小变动价位(tick)整数倍检查
  7. python序列类型唯一的映射类型_什么是python中唯一的映射类型
  8. python盖帽法_干货:用Python进行数据清洗,这7种方法你一定要掌握
  9. 函数解素数求距离问题
  10. 最全计算机基础知识竞赛试题及答案,计算机基础知识竞赛试题.doc