《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器

朴素：特征条件独立；贝叶斯：基于贝叶斯定理。
朴素贝叶斯是经典的机器学习算法之一，也基于概率论的分类算法，属于监督学习的生成模型。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。

1.算法思想——基于概率的预测

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。

2. 理论基础

2.1 贝叶斯定理

这个定理解决了现实生活中经常遇到的问题：已知某条件概率，如何得到两个时间交换后的概率，也就是已知P(B∣A)P(B|A)P(B∣A)的情况下如何求得P(B∣A)P(B|A)P(B∣A).

条件概率P(B∣A)P(B|A)P(B∣A)：事件B已经发生的情况下，事件A发生的概率。

基本求解公式为：P(A∣B)P(A|B)P(A∣B)=P(AB)P(B)P(AB)\over P(B)P(B)P(AB)

贝叶斯定理： P(B∣A)P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(A|B)P(B)\over P(A)P(A)P(A∣B)P(B)

先验概率：是指根据以往经验和分析得到的概率.
后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小。
上述名词具体解释看这篇 https://www.cnblogs.com/yemanxiaozu/p/7680761.html

2.2 朴素贝叶斯定理

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想朴素，朴素贝叶斯的思想基础是这样的：
对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。
通俗来说，就好比这么个道理，你在街上看到一个黑人，你猜这大哥哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯最核心的部分是贝叶斯法则，而贝叶斯法则的基石即条件概率。贝叶斯法则如下：

P(c∣x)P(c|x)P(c∣x)=P(x∣c)P(c)P(x){P(x|c)P(c)}\over{P(x)}P(x)P(x∣c)P(c) 等价于P(B∣A)P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(A|B)P(B)\over P(A)P(A)P(A∣B)P(B)

P(x∣c)P(x|c)P(x∣c):类条件概率，是所有属性上的联合概率分布，难以从有限的训练集直接估计而得。

朴素贝叶斯分类的正式定义如下：
1、设x={a1,a2,a3,...,am}x={\{a_1,a_2,a_3,...,a_m\}}x={a1,a2,a3,...,am}为一个待分类项，而每个a为x的一个特征属性。
2、有类别集合C={y1,y2,y3,...,yn}C={\{y_1,y_2,y_3,...,y_n\}}C={y1,y2,y3,...,yn}。
3、计算P(y1∣x),P(y2∣x),P(y3∣x),......,P(yn∣x)P(y_1|x),P(y_2|x),P(y_3|x),......,P(y_n|x)P(y1∣x),P(y2∣x),P(y3∣x),......,P(yn∣x)。
4、如果P(yk∣x)=max{P(y1∣x),P(y2∣x),......,P(yn∣x)}P(y_k|x)=max\{P(y_1|x),P(y_2|x),......,P(y_n|x)\}P(yk∣x)=max{P(y1∣x),P(y2∣x),......,P(yn∣x)}，则x∈ykx\in y_kx∈yk。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

P(yi∣x)P(y_i|x)P(yi∣x)=P(x∣yi)P(yi)P(x)P(x|y_i)P(y_i)\over P(x)P(x)P(x∣yi)P(yi)

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的(朴素贝叶斯采用“属性条件独立性假设”，对已知类别，假设所有属性相互独立)，所以有：

P(yi∣x)P(y_i|x)P(yi∣x)=P(a1∣yi)P(a2∣yi)...P(am∣yi)P(yi)=P(yi)∏j=1mP(aj∣yi)P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i) {\prod_{j=1}^m P(a_j|y_i)}P(a1∣yi)P(a2∣yi)...P(am∣yi)P(yi)=P(yi)∏j=1mP(aj∣yi)

所以，上式可写为：

P(y∣x)P(y|x)P(y∣x)=P(y)∏j=1mP(xj∣y){P(y)} {\prod_{j=1}^m P(x_j|y)}P(y)∏j=1mP(xj∣y) ,

m为属性数目，xjx_jxj为xxx在第jjj个属性上的取值。

对于所有类别来说P(x)P(x)P(x)相同，因此基于h∗(x)=argmaxP(y∣x)h^*(x)=argmaxP(y|x)h∗(x)=argmaxP(y∣x)贝叶斯判定准则有：

hnb(x)=argmaxP(y)∏j=1mP(xj∣y)h_{nb}(x)=argmaxP(y){\prod_{j=1}^m P(x_j|y)}hnb(x)=argmaxP(y)∏j=1mP(xj∣y) ,

这就是朴素贝叶斯分类器的表达式。

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

2.3 估计类别下特征属性划分的条件概率及Laplace校准

由上式可知，朴素贝叶斯分类器的训练过程即基于训练集D来估计类先验概率P(y)P(y)P(y)，并为每个属性估计条件概率P(xj∣y).P(x_j|y).P(xj∣y).

DyD_yDy表示训练集D中D中D中第yyy类样本的组成的集合，若有充足的独立的同分布样本，则可容易地估计出类先验概率：

P(y)P(y)P(y)=∣Dy∣∣D∣|D_y|\over|D|∣D∣∣Dy∣

对离散属性，令Dy,xjD_{y,x_j}Dy,xj表示DyD_yDy中在第jjj个属性上的取值为xjx_jxj的样本组成的集合，则条件概率P(xj∣y)P(x_j|y)P(xj∣y)可估计为:

P(xj∣y)P(x_j|y)P(xj∣y)=∣Dy,xj∣∣D∣|D_{y,x_j}|\over|D|∣D∣∣Dy,xj∣

对连续属性，通常假定其值服从高斯分布（也称正态分布）。只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入如下公式则可得到需要的估计值。

$g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma }e^-\frac{(x-\eta)^2}{2\sigma^2}$

Laplace校准

为了避免其他属性携带的信息被训练集中未出现的属性值抹去（即P(a∣y）=0P(a|y）=0P(a∣y）=0)，在概率估计时通常需要进行“平滑”，常用“拉普拉斯修正”，NNN表示训练集DDD中可能的类别数，NiN_iNi表示第iii个属性可能的取值数。所以上式修改为：

P^(y)\hat{P}(y)P^(y)=∣Dy∣+1∣D∣+N{|D_y|+1}\over{|D|+N}∣D∣+N∣Dy∣+1

P^(xi∣y)\hat{P}(x_i|y)P^(xi∣y)=∣Dy,xi+1∣∣D∣+Ni|D_{y,x_i}+1|\over{|D|+N_i}∣D∣+Ni∣Dy,xi+1∣

拉普拉斯修正避免了因训练样本集不充分而导致概率估计值为0的问题，且在训练集变大时，修正过程所引入的先验的影响会逐渐变得可忽略，使得估计值逐渐趋向于实际概率值。