机器学习基础（六）：贝叶斯分类（贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法）

6、贝叶斯分类

6.1贝叶斯决策论Bayesian decision theory

概率框架下实施决策的基本方法。
对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯判定准则Bayes decision rule：为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即，h* 称为贝叶斯最优分类器Bayes optimal classifier，与之对应的总体风险R(h*)称为贝叶斯风险Bayes risk，1-R(h*)反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

——要使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率（通常难直接获得）
→机器学习要实现的是基于有限的训练样本尽可能准确地估计出后验概率（两种策略：①判别式模型discriminative models：给定x，可通过直接建模来预测c，决策树、BP神经网络、支持向量机等都可归入判别式模型的范畴；②生成式模型generative models：先对联合概率分布建模，然后再由此获得，考虑，估计的问题就转化为如何基于训练数据D来估计类先验概率P©和似然/类条件概率）

→直接使用频率来估计显然不可行，因为"未被观测到"与"出现概率为零"通常是不同的，假设具有确定的形式并且被参数向量唯一确定，记为
→用极大似然估计MLE（根据数据采样来估计概率分布参数的经典方法）

缺点：估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布（往往需在一定程度上利用关于应用任务本身的经验知识假设概率分布形式）

6.2朴素贝叶斯分类器naive Bayes classifier，NB

采用“属性条件独立性假设attribute conditional independence assumption”：对已知类别，假设所有属性相互独立，即假设每个属性独立地对分类结果发生影响

基于此，可重写为
d为属性数目，xi为x在第i个属性上的取值（实际上是一个“属性-值”对）

朴素贝叶斯分类器的表达式（基于的贝叶斯判定准则）：

→ 拉普拉斯修正Laplacian correction（平滑处理）：为避免其他属性携带的信息被训练集中未出现的属性值抹去，在估计概率值时通常要进行平滑。假设属性值与类别均匀分布。

6.3半朴素贝叶斯分类器semi-naive Bayes classifiers

适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

→独依赖估计One-Dependent Estimator,ODE（最常用的一种策略）：
假设每个属性在类别之外最多仅依赖于一个其他属性：

→如何确定每个属性的父属性？
①超父super-parent：假设所有属性都依赖于同一个属性
通过交叉验证等模型选择方法确定超父属性，形成SPODE方法。
②TAN（Tree Augmented naive Bayes）：在最大带权生成树算法的基础上通过以下步骤将属性间依赖关系约简为树形结构（实际上仅保留了强相关属性之间的依赖性）：

③AODE（Averaged One-Dependent Estimator）：基于集成学习机制、更为强大的独依赖分类器（与SPODE不同，AODE尝试将每个属性作为超父来构建SPODE，然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果）：

6.4贝叶斯网Bayesian network

是经典的概率图模型，也称作“信念网”，借助有向无环图DAG来刻画属性之间的依赖关系，并使用条件概率表CPT来描述属性的联合概率分布

6.4.1结构

贝叶斯网中三个变量之间的典型依赖关系：

①同父common parent结构：给定父节点x1的取值，则x3与x4条件独立（x3⊥x4 | x1）；若x1的取值未知，则x3和x4就不独立（x3╨x4不成立）
②顺序结构：给定x的值，则y与z条件独立（y⊥z | x）；但y╨z不成立
③V型结构（冲撞结构）：给定子结点x4的取值，x1与x2必不独立；若x4的取值完全未知，则V型结构下x1与x2却是相互独立的（）（边际独立性marginal independence），记为x1||x2

→ 有向分离D-separation（分析有向图中变量间的条件独立性）
①先把有向图转变为一个无向图（“道德图moral graph”）：

②假定道德图中有变量x,y和变量集合z={zi}，若变量x和y能在图上被z分开，即从道德图中将变量集合z去除后，x和y分属两个连通分支，则称变量x和y被z有向分离，x⊥y | z成立：

6.4.2学习

往往不知道网络结构→贝叶斯网学习的首要任务是根据训练数据集来找出结构最“恰当”的贝叶斯网

→ 评分搜索（常用方法）：
①定义一个评分函数score function，以此来评估贝叶斯网与训练数据的契合程度

AIC评分函数：f(θ)=1，AIC(B|D)=|B|-LL(B|D)
BIC评分函数：f(θ)=(1/2)logm，AIC(B|D)=(1/2)logm|B|-LL(B|D)
若f(θ)=0，评分函数退化为负对数似然，相应的，学习任务退化为极大似然估计

②然后基于这个评分函数寻找结构最优的贝叶斯网
有两种常用的策略能在有限时间内求得近似解：第一种是贪心法，例如从某个网络结构出发，每次调整一条边(增加、删除或调整方向)，直到评分函数值不再降低为止;第二种是通过给网络结构施加约束来削减搜索空间，例如将网络结构限定为树形结构等（半朴素贝叶斯分类器可看作贝叶斯网的特例）

6.4.3推断inference

通过已知变量观测值（“证据evidence”）来推测待查询变量的过程
贝叶斯网的近似推断常使用吉布斯采样（一种随机采样方法）来完成
→

(吉布斯采样实际上是在贝叶斯网所有变量的联合状态空间与证据E=e一致的子空间中进行随机漫步random walk，每一步仅依赖于前一步的状态，这是一个“马尔可夫链Markov chain”）

缺点：收敛速度较慢；若贝叶斯网中存在极端概率0或1，则不能保证马尔可夫链存在平稳分布，此时吉布斯采样会给出错误的估计结果

6.5 EM算法（无监督聚类算法）

存在未观测变量（隐变量latent variable）的情形下对模型参数进行估计？

简要来说，EM算法使用两个步骤变替计算：第一步是期望(E)步，利用当前估计的参数值来计算对数似然的期望值；第二步是最大化(M) 步，寻找能使E步产生的似然期望最大化的参数值。然后，新得到的参数值重新被用于E步，……直至收敛到局部最优解

①EM算法原型：

②若不是取Z的期望，而是基于所计算隐变量Z的概率分布：

_ _ _ _ _ _ 未完待续，喜欢的朋友可以关注后续文章 _ _ _ _ _ _

机器学习基础系列文章回顾：
机器学习基础（一）：简介
机器学习基础（二）：模型评估与选择
机器学习基础（三）：决策树
机器学习基础（四）：特征选择与稀疏学习
机器学习基础（五）：计算学习理论

参考书目：
周志华.《机器学习》