【机器学习－西瓜书】七、贝叶斯分类器

推荐前期阅读：http://blog.csdn.net/u011995719/article/details/76732663
推荐阅读：期望损失；条件风险

7.1 贝叶斯决策论

关键词：期望损失；条件风险；贝叶斯风险；判别模式；生成模式

假设对手写体数字进行分类，共计有10种类别标记，即Y=｛y0,…,y9｝Y=｛y_{0},…,y_{9}｝, λij\lambda _{ij}是将一个真实样本标记为cjc_{j} 的样本错误分类为 cic_{i}所产生的损失。

如 λ17\lambda _{17}表示，把数字7认为是数字1的损失。在贝叶斯理论中，基于后验概率 P(ci∣x)P(c_{i}\mid x)来进行分类的（想了解后验概率，先验概率的请参考博客：
http://blog.csdn.net/u011995719/article/details/76732663），也就是在10个后验概率当中选取最大的那个后验概率对应的类别作为预测，例如 P(c1∣x)P(c_{1}\mid x) =0.89，那么就认为样本x的分类是数字1，但是样本x真正的类别是数字7，那么这样所产生的损失为λ17\lambda _{17} 。

将样本x分成cic_{i}的期望损失(expected loss)，也就是样本x上的条件风险（conditional risk）.二者是一个意思。条件风险公式如下：R(ci∣x)=∑10j=1λijP(cj∣x)R(c_{i}\mid x)= \sum_{j=1}^{10}\lambda_{ij}P(c_{j}\mid x)

条件风险这个值隶属于单一样本x以及某一种类别标记，啥意思？也就是对于样本x来说，它有10个条件风险，分别是对应类别数字0 、类别数字1……类别数字9。对于类别数字0的条件风险为R(c0∣x)=∑10j=1λ0jP(cj∣x)R(c_{0}\mid x)= \sum_{j=1}^{10}\lambda_{0j}P(c_{j}\mid x)

贝叶斯分类器的任务就是寻找一个判定准则h，使得总体风险最小，总体风险为：R(h)=Ex[R(h(x))∣x)]R(h)=E_{x}\left [ R(h(x))\mid x) \right ] ，显然，对每个样本x，若h能最小化条件风险 R(ci∣x)=∑10j=1λijP(cj∣x)R(c_{i}\mid x)= \sum_{j=1}^{10}\lambda_{ij}P(c_{j}\mid x)，则总体风险R（h）也将被最小化。

可以得出贝叶斯准则（Bayes decision rule）：为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即 h∗(x)=argminR(c∣x)h^{*}(x)=\arg \min R(c\mid x)

h∗h^{*}称为贝叶斯最优分类器（Bayes optimal classifer），与之对应的总体风险R(h∗)R(h^{*}) 称为贝叶斯风险（Bayes risk）， 1−R(h∗)1-R(h^{*})反映了分类器能达到的最好性能

若采用0/1损失函数，那么条件风险R(c∣x)=1−P(c∣x)R(c\mid x)=1-P(c\mid x) ，其中 P(c∣x)P(c\mid x)表示将样本x判定为类别c的概率（真实类别就是c），当P(c∣x)P(c\mid x)这个概率越大，1- 就越小，即风险就越小。

所以最小化错误率的最优贝叶斯分类器h∗(x)=argminR(c∣x)h^{*}(x)=\arg \min R(c\mid x) ，即对样本x，选择后验概率P(c∣x)P(c\mid x) 最大的类别标记。于是乎，贝叶斯分类器首要任务就求后验概率，然而在现实任务中很难直接求取后验概率。

求这个后验概率主要分为以下两种策略：

给定x，可直接通过建模 P(c∣x)P(c\mid x)来预测c，这样得到的模型称之为判别式模型（discriminative models）；

2.可先对联合概率分布P（x,c）建模，然后再由此获得，此称之为生成式模型（generative models）.

决策树、神经网络、支持向量机、线性模型都属于判别式模型。而贝叶斯分类器即是生成式模型，对于生成式模型来说，必然考虑贝斯公式：
P(c∣x)=P(x,c)P(x)=P(c)⋅P(x∣c)P(x)P(c\mid x)=\frac{P(x,c)}{P(x)}=\frac{P(c)\cdot P(x \mid c)}{P(x)}

其中P(c)称为先验概率， P(x∣c)P(x\mid c)称之为似然（likelihood），没错，就是最大似然估计的似然！最大似然就是要这个似然最大！

P（x）是用于“归一化”的证据因子，而P（x）与类别标记无关，因此估计P(c∣x)P(c\mid x) 的问题，就转化为如何基于训练数据集D来估计先验概率P(c) 以及条件概率 P(x∣c)P(x\mid c)

先验概率P(c)表示样本空间中各类别样本所占的比例，依据大数定律，P（c）可通过各类样本出现的频率来进行估计

对于类条件概率P(x∣c)P(x\mid c) ，涉及x所有属性的联合概率，通常很难直接求取。但是，当x中的属性是独立的情况下（属性条件独立性假设），就可以利用公式 P(x∣c)=∏di=1P(xi∣c) P(x \mid c) =\prod _{i=1}^{d}P(x_{i}\mid c)轻而易举求出类条件概率P(x∣c) P(x \mid c) ，这么做就是朴素贝叶斯分类器了，虽然属性条件独立性假设几乎是不可能的，但是这样做的效果还是不错的！接下来将介绍什么是朴素贝叶斯分类器
(http://blog.csdn.net/u011995719/article/details/77800120)

【机器学习－西瓜书】七、贝叶斯分类器相关推荐

python机器学习库sklearn——朴素贝叶斯分类器
分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程文档贝叶斯分类器的相关的知 ...
机器学习笔记(七)贝叶斯分类器
7.贝叶斯分类器 7.1贝叶斯决策论贝叶斯决策论(Bayesiandecision theory)是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如 ...
机器学习（二）——贝叶斯分类器
文章目录 1. 贝叶斯决策论 1.1 贝叶斯判定准则 1.2 极大似然估计 2. 朴素贝叶斯分类器 2.1 拉普拉斯平滑 2.2 示例 1. 贝叶斯决策论核心: 将最小化分类错误率转换为最大化先验概 ...
西瓜书《贝叶斯》朴素贝叶斯公式推导
机器学习西瓜书（周志华）第七章贝叶斯分类器
第七章贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论贝 ...
【周志华机器学习】七、贝叶斯分类器
文章目录参考资料 1. 基本概念 1.1 贝叶斯公式 1.2 贝叶斯决策论 1.2.1 判别式模型 and 生成式模型 1.3 极大似然法 2. 朴素贝叶斯分类器 3. 半朴素贝叶斯分类器 4. E ...
西瓜书笔记7:贝叶斯分类器
目录相关概率知识贝叶斯-全概率公式先验概率.后验概率.似然概率 7.1 贝叶斯决策论 7.2 极大似然估计极大似然估计公式均值方差估计公式推导概率知识复习高斯分布最大似然估计 7.3 ...
机器学习-贝叶斯分类器
https://www.toutiao.com/a6684876999611122187/ 2019-04-28 17:36:54 目录: 1.贝叶斯分类器的基础 2.朴素贝叶斯分类器 3.朴素贝叶斯 ...
机器学习之用Python从零实现贝叶斯分类器
机器学习之用Python从零实现贝叶斯分类器 2015/02/06 · 系列教程 · 13 评论 · 机器学习分享到:27 本文由伯乐在线 - Halal 翻译,toolate 校稿.未经许可,禁 ...

【机器学习－西瓜书】七、贝叶斯分类器

7.1 贝叶斯决策论

【机器学习－西瓜书】七、贝叶斯分类器相关推荐

最新文章

热门文章