《深度学习导论及案例分析》一2.5概率有向图模型

####本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章，第2.5节，作者李玉鑑张婷，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5概率有向图模型

如果一组随机变量中存在因果关系，那么常常可以建立一个概率有向图模型来紧凑、自然地表达它们的联合概率分布。概率有向图模型又称为贝叶斯网络（Bayesian network）、贝叶斯模型（Bayesian model）、信念网络（belief network），是一种通过有向无圈图来表示随机变量及其条件依赖关系的概率图模型。

贝叶斯网络B是一个以随机变量为顶点，以边为条件依赖关系的有向无圈图G=（V，E），其联合概率分布可以进行如下因子分解：

PB（X1，…，XN）=∏Ni=1P（XiPaG（Xi））（2.55）

其中单个因子P（XiPaG=（Xi））称为条件概率分布（conditional probability distribution，CPD）或局部概率模型。这个因子分解的表达式也称为贝叶斯网的链式法则。例如，根据该法则，图2.1所示的贝叶斯网络的联合概率分布可以分解如下：

PB（X1，…，X7）=∏7i=1P（XiPaG（Xi））=P（X1）P（X2X1）P（X3X2）P（X4X3）P（X5）P（X6X2，X5）P（X7X6）（2.56）

可以证明，贝叶斯网络的联合概率分布满足局部条件独立性（local conditional independencies）［104］。也就是说，一个贝叶斯网络的任意节点X与其所有非后代节点都条件独立于其父节点集，即
X⊥NonDescG（X）PaG（X）（2.57）
在一个贝叶斯网络中，任意一条由三个变量构成的迹XiXkXj，可能存在下面三种连接方式：

1）串行连接（serial connection）或链（chain），如图2.2所示。根据公式（2.55），图2.2a相应的联合分布为

PB（Xi，Xk，Xj）=P（Xi）P（XkXi）P（XjXk）（2.58）

因此，在给定Xk的条件下，Xi和Xj的联合概率为

PB（Xi，XjXk）=P（Xi）P（XkXi）P（Xi，Xk）P（XjXk）P（Xk）=P（XiXk）P（XjXk）（2.59）

这说明，在串行连接的情况下，Xi⊥XjXk。

注意，图2.2b为串行连接的另一种情况，有关推导是类似的。图2.2a的串行连接又称为Xi到Xj的因果路径，图2.2b的串行连接则又称为Xi到Xj的证据路径。

2）发散连接（diverging connection）或叉口（fork），表示Xi和Xj有共同的原因，如图2.3所示。根据公式（2.55），相应的联合分布为

PB（Xi，Xk，Xj）=P（Xk）P（XiXk）P（XjXk）（2.60）

因此，在给定Xk的条件下，Xi和Xj的联合概率为

PB（Xi，XjXk）=P（Xi，Xj，Xk）P（Xk）=P（XiXk）P（XjXk）（2.61）

这说明，在发散连接的情况下，Xi⊥XjXk。

3）收敛连接（converging connection），又称倒叉口（inverted fork）、碰撞（collider）、v结构（vstructure），表示Xi和Xj有共同的效果，如图2.4所示。根据公式（2.55），相应的联合分布为
PB（Xi，Xk，Xj）=P（Xi）P（Xj）P（XkXi，Xj）（2.62）

∑xk∈val（Xk）P（Xk=xkXi，Xj）=1（2.63）

PB（Xi，Xj）=P（Xi）P（Xj）（2.64）
因此，变量Xi和Xj是先验独立的，即Xi⊥Xj。

但是，在给定Xk或其后代的条件下，Xi和Xj并不一定独立，也就是说可能有
PB（Xi，XjXk）≠P（XiXk）P（XjXk）（2.65）
这说明，在收敛连接的情况下，未必Xi⊥XjXk。

根据上述分析，在串行连接Xi→Xk→Xj和Xi←Xk←Xj以及发散连接Xi←Xk→Xj中，只有未观察到中心变量Xk时，Xi和Xj之间才可能产生有效的相互影响，否则它们就是相互独立的。而在收敛连接Xi→Xk←Xj中，只有观察到中心变量Xk时，Xi和Xj之间才可能产生有效的相互影响，否则它们就是相互独立的。在一个贝叶斯网络中，如果两个随机变量X和Y可能通过一条迹产生有效的相互影响，X和Y就不会是相互独立的，这条迹则称为有效迹。

在给定观测变量集Z的条件下，贝叶斯网络B的一条迹X1…Xn称为有效迹，如果对其中任意的收敛连接Xi-1→Xi←Xi+1都有Xi∈Z或DescB（Xi）∩Z≠，且该迹上的其他节点都不在Z中。

如果X、Y、Z是贝叶斯网络B的三个互不相交的节点子集，且在给定Z的条件下，对任意节点X∈X和Y∈Y之间都不存在有效迹，那么称X和Y在给定Z时是d分离（dseparation）的，或被Z d分离［105］。其中Z称为分离子集。d分离定理为：如果X与Y被Z d分离，那么在给定Z的条件下，X和Y一定是相互独立的［105］。这种条件独立性X⊥YZ称为贝叶斯网络的全局马尔可夫独立性（global Markov independencies）。

在图2.1中，如果令X={X1，X2}，Y={X3，X4，X7}，Z={X2，X6}，那么可以验证X和Y被Z d分离。显然，在给定Z时，X和Y是相互独立的，即X⊥YZ。

此外，如果利用v结构的贝叶斯网来表达因果模型，有时可能出现解释消除（explaining away）现象。解释消除是指本来相互独立的多个原因在给定观察结果时，可能不再相互独立，而是变得相互依赖、相互影响，甚至一种原因的出现几乎可以排除另一种原因出现的可能。例如，一座高楼倒塌可能有两种本来相互独立的原因：自然地震或恐怖袭击。可是，在看到9•11美国世贸大厦被飞机撞击倒塌的视频之后，恐怖袭击便成为美国世贸大厦倒塌的直接解释，而这种解释几乎完全排除了自然地震作为解释的可能性。解释消除只是因果间推理（intercausal reasoning）的一个特例，而因果间推理在人类的推理中是非常普遍的模型。

下面通过一个具体例子说明解释消除现象。如图2.5所示，

用一个v结构的贝叶斯网络表示电池和燃料情况对油表的影响。这个贝叶斯网络由三个二值节点构成，分别是电池节点B（battery）、燃料节点F（fuel）、油表节点G（gauge）。B代表电池是否有电，B=1表示有电，B=0表示没电。F表示燃料（汽油）的情况，F=1表示油箱是满的，F=0表示油箱是空的。G表示油表的指示情况，G=1表示油表刻度指示油箱是满的，G=0表示油表刻度指示油箱为空。

假设已经知道了这个模型的有关概率为：p（B=1）=0.9，p（F=1）=0.9，p（G=1B=1，F=1）=0.8，p（G=1B=1，F=0）=0.2，p（G=1B=0，F=1）=0.2，p（G=1B=0，F=0）=0.1。

根据油表贝叶斯网络的结构，有：

p（B，F，G）=p（B）p（F）p（GB，F）（2.66）

于是，可以计算在观测到油表指示油箱为空的情况下，油箱确实空着的概率如下：

p（F=0G=0）=p（G=0F=0）p（F=0）p（G=0）（2.67）
其中，
p（G=0）=∑B∈{0，1}∑F∈{0，1}p（G=0B，F）p（B）p（F）（2.68）p（G=0F=0）=∑B∈{0，1}p（G=0B，F=0）p（B）（2.69）
因此，
p（F=0G=0）=p（G=0F=0）p（F=0）p（G=0）0.257（2.70）p（F=0G=0）=0.257>p（F=0）=0.1（2.71）

从以上结果可知，在观测到油表指示为空的情况下，油箱真为空的概率会比没有任何观测的情况大很多，这符合油表的常理作用。如果进一步考虑更复杂的情况，计算在同时观测到油表指示为空和油表的电池没电的情况下，油箱真为空的概率，那么不难通过公式推导得到：

p（F=0G=0，B=0）=p（G=0B=0，F=0）p（F=0）∑F∈{0，1}p（G=0B=0，F）0.111（2.72）
综合公式（2.43）和公式（2.44）这两种情况，可以得到如下不等式：
p（F=0）=0.1<p（F=0G=0，B=0）=0.111<p（F=0G=0）=0.257（2.73
）```

《深度学习导论及案例分析》一2.5概率有向图模型相关推荐

《深度学习导论及案例分析》一2.11概率图模型的推理
本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第2章,第2.11节,作者李玉鑑张婷,更多章节内容可以访问云栖社区"华章计算机"公众号查看. 2.11概率图模 ...
免费教材丨第56期：《深度学习导论及案例分析》、《谷歌黑板报-数学之美》
小编说离春节更近了! 本期教材本期为大家发放的教材为:<深度学习导论及案例分析>.<谷歌黑板报-数学之美>两本书,大家可以根据自己的需要阅读哦! < ...
《深度学习导论及案例分析》一导读
PREFACE 前言 "深度学习"一词大家已经不陌生了,随着在不同领域取得了超越其他方法的成功,深度学习在学术界和工业界掀起了一次神经网络发展史上的新浪潮.运用深度学习解决实际问题 ...
深度学习之LSTM案例分析（三）
#背景来自GitHub上<tensorflow_cookbook>[https://github.com/nfmcclure/tensorflow_cookbook/tree/maste ...
深度学习在工业推荐如何work？Netflix这篇论文「深度学习推荐系统Netflix案例分析」阐述DL在RS的优劣与经验教训...
来源:专知深度学习在推荐系统中如何发挥作用是一个重要的问题.最近来自Netflix的文章详细阐述了这一点指出:在建模用户物品交互方面,深度学习相比传统基线方法并无太大优势,而对于异质特征的表示融入深 ...
深度学习之LSTM案例分析（二）
#背景来自GitHub上<tensorflow_cookbook>[https://github.com/nfmcclure/tensorflow_cookbook/tree/maste ...
深度学习导论（2）深度学习案例：回归问题
深度学习导论(2)深度学习案例:回归问题问题分析优化方法代码采样数据计算误差计算梯度梯度更新 main函数结果输出这篇文章将介绍深度学习的小案例:回归问题的问题分析.优化以及实现代码 ...
深度学习导论（4）神经网络基础
深度学习导论(4)神经网络基础一. 训练深度学习模型的步骤二. 线性层(或叫全链接层)(Linear layer(dense or fully connected layers)) 1. 定义一个 ...
深度学习导论（3）PyTorch基础
深度学习导论(3)PyTorch基础一. Tensor-Pytorch基础数据结构二. Tensor索引及操作 1. Tensor索引类型 2. Tensor基础操作 3. 数值类型 4. 数值类 ...
MIT 深度学习导论来啦！附视频下载
点击我爱计算机视觉标星,更快获取CVML新技术相信很多同学读过MIT的<算法导论>(Introduction to Algorithms)这本书,虽称"导论",但其内 ...

《深度学习导论及案例分析》一2.5概率有向图模型

2.5概率有向图模型

《深度学习导论及案例分析》一2.5概率有向图模型相关推荐

最新文章

热门文章