引言

上一节介绍了判别变量/特征之间是否具备条件独立性的方法——D\mathcal DD划分，本节从贝叶斯网络整体出发，总结 贝叶斯网络家族 中包含哪些模型(Representation)。

基于贝叶斯网络的模型

场景构建

数据集合X\mathcal XX依然是包含NNN个样本，并且每个样本均包含ppp个维度的特征信息：
这里的样本特征是‘离散型随机变量’~
X=(x1,x2,⋯,xp)T=(x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N))N×px(i)∈Rp;i=1,2,⋯,N\mathcal X = \left(x_1,x_2,\cdots,x_p\right)^T = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N \times p} x^{(i)} \in \mathbb R^p;i=1,2,\cdots,NX=(x1,x2,⋯,xp)T=⎝⎛x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N)⎠⎞N×px(i)∈Rp;i=1,2,⋯,N
如果是监督学习，数据集合X\mathcal XX对应的标签集合Y\mathcal YY是一个N×1N \times1N×1的向量形式。而每个样本x(i)∈Xx^{(i)} \in \mathcal Xx(i)∈X对应的标签结果y(i)∈Yy^{(i)} \in \mathcal Yy(i)∈Y是一个标量：
Y=(y(1),y(2),⋯,y(N))T\mathcal Y = \left(y^{(1)},y^{(2)},\cdots,y^{(N)}\right)^TY=(y(1),y(2),⋯,y(N))T

朴素贝叶斯分类器

从假设的角度观察，关于样本特征之间最简单的假设即朴素贝叶斯假设：在分类结果给定的条件下(假设共包含kkk个分类)，各分类下的样本集合Xl(l=1,2,⋯,k)\mathcal X_l(l = 1,2,\cdots,k)Xl(l=1,2,⋯,k)中的任意两个不同特征之间相互独立。数学符号表示如下：
xi⊥ij∣Y=l{i,j∈{1,2,⋯,p};i≠j;l∈{1,2,⋯,k};x_i \perp i_j \mid \mathcal Y = l \quad \begin{cases} i,j \in \{1,2,\cdots, p\};\\ i \neq j;\\ l \in \{1,2,\cdots,k\};\end{cases}xi⊥ij∣Y=l⎩⎨⎧i,j∈{1,2,⋯,p};i=j;l∈{1,2,⋯,k};

对应的概率图模型是朴素贝叶斯分类器。其贝叶斯网络表示如下：

基于朴素贝叶斯假设的 概率分布P(X∣Y)\mathcal P(\mathcal X \mid \mathcal Y)P(X∣Y)表示如下：
P(X∣Y=l)=P(x1,⋯,xp∣Y=l)=∏i=1pP(xi∣Y=l)l∈{1,2,⋯,k}\begin{aligned} \mathcal P(\mathcal X \mid \mathcal Y = l) & = \mathcal P(x_1,\cdots,x_p \mid \mathcal Y = l) \\ & = \prod_{i=1}^p \mathcal P(x_i \mid \mathcal Y = l) \quad l \in \{1,2,\cdots,k\} \end{aligned}P(X∣Y=l)=P(x1,⋯,xp∣Y=l)=i=1∏pP(xi∣Y=l)l∈{1,2,⋯,k}
从贝叶斯网络的角度观察朴素贝叶斯分类器的概率图模型：

上述贝叶斯网络中一共包含ppp条有向边；
任意两条有向边都能组成同父结构(Common Parent)；传送门
在Y\mathcal YY给定的条件下，任意两个特征之间均条件独立。

混合模型

观察朴素贝叶斯假设，它的假设方式是单一的：给定标签特征Y\mathcal YY的条件下，就已经将各样本特征(x1,x2,⋯,xp)(x_1,x_2,\cdots,x_p)(x1,x2,⋯,xp)相互独立地划分开来：
x1⊥x2⊥⋯⊥xp∣Yx_1 \perp x_2 \perp \cdots \perp x_p \mid \mathcal Yx1⊥x2⊥⋯⊥xp∣Y

可能存在如下情况：单独观察各维度样本特征，可能无法观测到其独立性的表现；如果将各维度样本特征融合 →\to→ 从样本的角度能够明显地观察其独立关系。

称这种模型为混合模型。其中混合模型最具代表性的是用作聚类任务的高斯混合模型(Gaussian Mixture Model,GMM)。其贝叶斯网络表示如下：

其中Z\mathcal ZZ表示隐变量，是一个离散型随机变量：
其每个取值均对应一个分类；
Z∈{1,2,⋯k}\mathcal Z \in \{1,2,\cdots k\}Z∈{1,2,⋯k}
而数据集合X\mathcal XX是 给定Z\mathcal ZZ取值的条件下，从概率模型P(X∣Z)\mathcal P(\mathcal X \mid \mathcal Z)P(X∣Z)中生成的样本：
X∣Z=l∼N(μl,Σl)l∈{1,2,⋯,k}\mathcal X \mid \mathcal Z= l \sim \mathcal N(\mu_l,\Sigma_l) \quad l \in \{1,2,\cdots,k\}X∣Z=l∼N(μl,Σl)l∈{1,2,⋯,k}

从贝叶斯网络角度观察，貌似该网络并不满足前面介绍的三种结构，为了更直观的表达高斯混合模型的假设，将上述贝叶斯网络修改为如下形式：

可以发现，隐变量Z\mathcal ZZ各标签下的融合特征之间在给定Z\mathcal ZZ条件下，属于同父结构。即 各标签条件下的各融合特征(x1,⋯,xp)(x_1,\cdots,x_p)(x1,⋯,xp)之间均条件独立。

基于时间变化的模型

如果从时间或者序列角度观察，增加特征在时间上的变化信息，即：样本特征随着时间的变化发生变化。最具代表性的模型是马尔可夫链(MCMC方法中有介绍)(Markov Chain)。其贝叶斯网络表示如下：

其中结点中的Xi(i=1,2,⋯,T)\mathcal X_i(i=1,2,\cdots,T)Xi(i=1,2,⋯,T)表示如下：
Xi=(x1,x2,⋯,xp)∣t=ii∈{1,2,⋯,T}\mathcal X_i = (x_1,x_2,\cdots,x_p)\mid_{t=i} \quad i \in \{1,2,\cdots,T\}Xi=(x1,x2,⋯,xp)∣t=ii∈{1,2,⋯,T}
而马尔可夫链满足马尔可夫性质。以一阶齐次马尔可夫假设为例，马尔可夫性质表示如下：
Xi+1⊥Xj∣Xis.t.{i,j∈{1,2,⋯,T}j<i\mathcal X_{i+1} \perp \mathcal X_{j} \mid \mathcal X_i \quad s.t. \begin{cases} i,j \in \{1,2,\cdots,T\} \\ j < i \end{cases}Xi+1⊥Xj∣Xis.t.{i,j∈{1,2,⋯,T}j<i
从贝叶斯网络的角度观察马尔可夫链，我们发现：任意三个连续结点之间均属于顺序结构。即：
Xi−1⊥Xi+1∣Xi\mathcal X_{i-1} \perp \mathcal X_{i+1} \mid \mathcal X_iXi−1⊥Xi+1∣Xi

于此同时，如果增加连续结点，如Xi−2,Xi−3,⋯\mathcal X_{i-2},\mathcal X_{i-3},\cdotsXi−2,Xi−3,⋯，只要Xi\mathcal X_iXi给定的条件下，Xi−1,Xi−2,Xi−3,⋯\mathcal X_{i-1},\mathcal X_{i-2},\mathcal X_{i-3},\cdotsXi−1,Xi−2,Xi−3,⋯均和Xi+1\mathcal X_{i+1}Xi+1条件独立。这完全和齐次马尔可夫假设相吻合。

特征是连续型随机变量的贝叶斯网络

上面介绍的模型，它们的共同点是：随机变量X\mathcal XX的特征均是离散型随机变量。具有代表性的是高斯网络(Gaussian Network)。而特征的连续性在有向图和无向图中均可以表示，我们将 特征连续性服从高斯分布的贝叶斯网络 称为高斯贝叶斯网络(Gaussian Bayessian Network,GBN)。

动态概率图模型

在概率模型背景的阶段性介绍中提到过，动态概率图模型是在 混合模型的基础上，增加变量在时间上的变化信息。即：隐变量Z\mathcal ZZ随着时间的变化而变化，通过影响Z\mathcal ZZ的变化，从而影响特征X\mathcal XX的变化。
注意这里的描述，这里说的‘变量’不一定是指样本特征(观测变量)，还有可能是‘隐变量’。这和‘马尔可夫链’的描述存在一些差异。

这里可以将动态概率模型看作是混合模型与基于时间变化模型的结合体。动态概率图模型中最具代表性的是隐马尔可夫模型。
隐马尔可夫模型的贝叶斯网络表示如下：

其中，模型中隐状态序列是一条马尔可夫链，并且隐状态Z\mathcal ZZ中的各特征是离散型随机变量。
我们同样可以根据贝叶斯网络观察隐马尔可夫模型中的两条假设：

齐次马尔可夫假设。
该假设与上述‘马尔可夫链’中的假设描述完全相同，这里不多赘述。
观测独立性假设。即：某时刻观测变量oto_tot的条件概率，只和当前时刻的状态变量iti_tit相关，与其他变量无关。数学符号表示如下：
P(ot∣it,it−1,⋯,i1,ot−1,⋯,o1)=P(ot∣it)\mathcal P(o_t \mid i_t,i_{t-1},\cdots,i_1,o_{t-1},\cdots,o_1) = \mathcal P(o_t \mid i_t)P(ot∣it,it−1,⋯,i1,ot−1,⋯,o1)=P(ot∣it)
我们从上述贝叶斯网络中观察：
以o2o_2o2为例。与o2o_2o2相关联的结点子图 表示如下：

观察上述子图：

i1,i2,o2i_1,i_2,o_2i1,i2,o2三个结点之间构成顺序结构，在给定i2i_2i2的条件下，o2o_2o2与i1i_1i1条件独立：
o2⊥i1∣i2o_2 \perp i_1 \mid i_2o2⊥i1∣i2
o2,i2,i3o_2,i_2,i_3o2,i2,i3三个结点之间构成同父结构，在给定i2i_2i2的条件下，o2o_2o2与i3i_3i3条件独立：
o2⊥i3∣i2o_2 \perp i_3 \mid i_2o2⊥i3∣i2

同理，除去o2,i2o_2,i_2o2,i2的其他任意结点与i2,o2i_2,o_2i2,o2构建路径时，i2i_2i2给定的条件下，o2o_2o2与其他结点均条件独立。

总结

本节主要是从贝叶斯网络的图结构角度 认识相关的概率图模型。
基于贝叶斯网络的模型有如下总结：

从 单个特征的条件独立性到混合特征的条件独立性；
如高斯混合模型中的样本特征(x1,⋯,xp)(x_1,\cdots,x_p)(x1,⋯,xp)只和 对应分类的隐变量标签相关联，与其他隐变量结果的结点条件独立：
(x1,⋯,xp)∣Z=l⊥(x1,⋯,xp)∣Z=jl,j∈{1,2,⋯,k};l≠j(x_1,\cdots,x_p) \mid \mathcal Z = l \perp (x_1,\cdots,x_p) \mid \mathcal Z = j \quad l,j \in \{1,2,\cdots,k\};l \neq j(x1,⋯,xp)∣Z=l⊥(x1,⋯,xp)∣Z=jl,j∈{1,2,⋯,k};l=j
从特征变量的离散到连续；
这里指朴素贝叶斯、混合模型等与高斯贝叶斯网络之间的区别。
‘高斯网络’在后续笔记中进行介绍。
从模型的静态到动态；
这里指混合模型(静态概率图模型)与动态概率图模型之间的区别。
这里忽略了一些细节。动态概率图模型中，隐马尔可夫模型(HMM)是最具有代表性的模型，其他模型如‘线性动态系统(Kalman Filter)、粒子滤波(Particle Filter)’，它们都属于‘动态模型’。并且它们与HMM共用同一个‘贝叶斯网络’。在后续笔记中进行介绍。

下一节将介绍马尔可夫随机场(Markov Random Field,MRF)。

相关参考：
机器学习-概率图模型4-贝叶斯网络-Representation-具体模型例子

机器学习笔记之概率图模型(四)基于贝叶斯网络的模型概述相关推荐

斯坦福 CS228 概率图模型中文讲义四、贝叶斯网络
四.贝叶斯网络原文:Bayesian networks 译者:飞龙协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译我们从表示的话题开始:我们如何选择概率分布来为世界的一些有趣方面建模? ...
概率图模型中的贝叶斯网络
目录一.概率图二.贝叶斯网络什么是贝叶斯网络? 贝叶斯网络结构怎么构建? 三.概率知识四.贝叶斯网络知识网络条件独立性结构六.概率推断七.案例分析八.贝叶斯学习九.Netica ...
一起自学SLAM算法：7.4 基于贝叶斯网络的状态估计
连载文章,长期更新,欢迎关注: 写在前面第1章-ROS入门必备知识第2章-C++编程范式第3章-OpenCV图像处理第4章-机器人传感器第5章-机器人主机第6章-机器人底盘第7章-SLA ...
贝叶斯网络计算机系统性能建模,基于贝叶斯网络的AIBNS系统建模研究及其应用-计算机应用技术专业论文.docx...
摘要智能授导系统ITS研究的重点在于增加远程网络教学系统的适摘要智能授导系统ITS研究的重点在于增加远程网络教学系统的适应性和智能性.学生模型是ITS的基础和核心,是其他模块进行工作的前提.论 ...
【汉字识别】基于贝叶斯网络实现汉字识别含Matlab源码
1 简介 2 部分代码 clc,clear,closefor i=1:5 imp=imread(['.\字库',num2str(i),'.jpg']); create_database(imp,i) ...
机器学习算法（二十七）：贝叶斯网络
目录 1. 对概率图模型的理解 2. 贝叶斯方法 2.1 频率派观点 2.2 贝叶斯学派 2.3 贝叶斯定理 2.4 应用:拼写检查 3 贝叶斯网络 3.1 贝叶斯网络的定义 3.2 贝叶斯网络的3种 ...
贝叶斯网络python实现_机器学习_统计模型之（二）贝叶斯网络
1. 贝叶斯网络贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型.它用网络结构代表领域的基本因果知识. 贝叶斯网络中的节点表示命题(或随 ...
机器学习笔记（五）续——朴素贝叶斯算法的后验概率最大化含义
上一节中讲了朴素贝叶斯算法将实例分到后验概率最大的类.这等价于期望风险最小化. 假设使用0-1损失函数: L(Y,f(X))={1,0,Y≠f(X)Y=f(X) L(Y, f(X)) = \Bigg\ ...
干货 | 基于贝叶斯推断的分类模型机器学习你会遇到的“坑”
本文转载自公众号"读芯术"(ID:AI_Discovery) 本文3153字,建议阅读8分钟. 本文讲解了在学习基于贝叶斯推断的分类模型中,我们需要的准备和方法. 数学准备概率: ...

机器学习笔记之概率图模型(四)基于贝叶斯网络的模型概述

机器学习笔记之概率图模型——基于贝叶斯网络的模型概述

引言