引言

上一节介绍了基于平均场假设的变分推断与广义EM算法的关系，本节将介绍通过随机梯度的思想实现变分推断。

回顾：基于平均场假设的变分推断

基于平均场假设的变分推断通常称为经典变分推断(Classical Variational Inference)。其核心自然是 平均场假设：将隐变量Z\mathcal ZZ的概率分布Q(Z)\mathcal Q(\mathcal Z)Q(Z)看做M\mathcal MM个独立的子概率分布：
Q(Z)=∏i=1MQi(Z(i))\mathcal Q(\mathcal Z) = \prod_{i=1}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})Q(Z)=i=1∏MQi(Z(i))
其迭代过程的思想是坐标上升法(Coordinate Ascent)：

求解Qj(Z(j))\mathcal Q_j(\mathcal Z^{(j)})Qj(Z(j))，固定除Qj(Z(j))\mathcal Q_j(\mathcal Z^{(j)})Qj(Z(j))外的所有分布，并将求解出的Q^i(Z(i))\hat {\mathcal Q}_i(\mathcal Z^{(i)})Q^i(Z(i))替换原始的Qj(Z(j))\mathcal Q_j(\mathcal Z^{(j)})Qj(Z(j))：
Q^j(Z(j))=arg⁡max⁡Qj(Z(j)){−KL[ϕ^(X,Z(j))∣∣Qj(Z(j))]}Q(Z)=Q1(Z(1))×⋯×Q^j(Z(j))×⋯×QM(Z(M))\hat {\mathcal Q}_j (\mathcal Z^{(j)}) = \mathop{\arg\max}\limits_{\mathcal Q_j(\mathcal Z^{(j)})} \left\{-\mathcal K\mathcal L \left[\hat \phi (\mathcal X,\mathcal Z^{(j)}) || \mathcal Q_j(\mathcal Z^{(j)})\right]\right\} \\ \mathcal Q(\mathcal Z) = \mathcal Q_1(\mathcal Z^{(1)}) \times \cdots \times \hat {\mathcal Q}_j(\mathcal Z^{(j)}) \times \cdots\times \mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)})Q^j(Z(j))=Qj(Z(j))argmax{−KL[ϕ^(X,Z(j))∣∣Qj(Z(j))]}Q(Z)=Q1(Z(1))×⋯×Q^j(Z(j))×⋯×QM(Z(M))
重复上述步骤，最终第一次迭代结果得到如下形式：
Q(Z)=Q^1(Z(1))×⋯×Q^M(Z(M))\mathcal Q(\mathcal Z) = \hat {\mathcal Q}_1(\mathcal Z^{(1)}) \times \cdots \times \hat {\mathcal Q}_{\mathcal M}(\mathcal Z^{(\mathcal M)})Q(Z)=Q^1(Z(1))×⋯×Q^M(Z(M))
继续迭代，直到Q(Z)\mathcal Q(\mathcal Z)Q(Z)结果稳定且收敛。

经典变分推断的问题

虽然通过坐标上升法能够近似求解隐变量Z\mathcal ZZ的最优后验概率分布P(Z∣X)P(\mathcal Z \mid \mathcal X)P(Z∣X)，但 经典变分推断 的问题也是显而易见的：平均场假设这个假设本身过于苛刻。

平均场假设要保证隐变量各分组之间相互独立。而隐变量本身就是基于真实情况人为定义的变量。
实际情况中，定义的隐变量满足平均场假设是极为困难的，因此，经典变分推断基本无法使用于真实任务。

至此，我们在近似求解后验概率分布P(Z∣X)P(\mathcal Z \mid \mathcal X)P(Z∣X)，就需要对 P(Z∣X)P(\mathcal Z \mid \mathcal X)P(Z∣X)整体进行求解。
本节将从梯度角度对P(Z∣X)P(\mathcal Z \mid \mathcal X)P(Z∣X)进行求解。

随机梯度变分推断的求解过程

回顾变分推断的推导过程，基于隐变量Z\mathcal ZZ的最优近似分布Q^(Z)\hat {\mathcal Q}(\mathcal Z)Q^(Z) 可进行如下表示：
Q^(Z)=arg⁡max⁡Q(Z)L[Q(Z)]⇒Q^(Z)≈P(Z∣X)L[Q(Z)]=∫ZQ(Z)⋅log⁡[P(X,Z)Q(Z)]dZ\hat {\mathcal Q}(\mathcal Z) = \mathop{\arg\max}\limits_{\mathcal Q(\mathcal Z)} \mathcal L[\mathcal Q(\mathcal Z)] \Rightarrow \hat {\mathcal Q}(\mathcal Z) \approx P(\mathcal Z \mid \mathcal X) \\ \mathcal L[\mathcal Q(\mathcal Z)] = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right] d \mathcal ZQ^(Z)=Q(Z)argmaxL[Q(Z)]⇒Q^(Z)≈P(Z∣X)L[Q(Z)]=∫ZQ(Z)⋅log[Q(Z)P(X,Z)]dZ
既然是 通过调整Q(Z)\mathcal Q(\mathcal Z)Q(Z)的最值，使得L[Q(Z)]\mathcal L[\mathcal Q(\mathcal Z)]L[Q(Z)]达到最大，因此可以尝试使用 梯度上升法(Gradient Ascent) 进行求解。

这里需要进行一些假设：
既然要求解最优的Q(Z)\mathcal Q(\mathcal Z)Q(Z)，根据梯度上升法，自然要求解Q(Z)\mathcal Q(\mathcal Z)Q(Z)的梯度。

而Q(Z)\mathcal Q(\mathcal Z)Q(Z)本身是一个分布，也可以看作成一个概率模型。而概率模型本身可以看作是关于该模型参数的一个函数。因此：定义概率模型Q(Z)\mathcal Q(\mathcal Z)Q(Z)的模型参数为ϕ\phiϕ，最终将求解Q(Z)\mathcal Q(\mathcal Z)Q(Z)的梯度转化为求解模型参数ϕ\phiϕ的梯度：
Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)写法是保留之前对概率模型的表达。例如P(X∣θ)P(\mathcal X \mid \theta)P(X∣θ)，对应的L[Q(Z)]\mathcal L[\mathcal Q(\mathcal Z)]L[Q(Z)]公式也需要进行修改。
Q(Z)→Q(Z∣ϕ)L[Q(Z)]=∫Z∣ϕQ(Z∣ϕ)⋅log⁡[P(X,Z)Q(Z∣ϕ)]dZ=EQ(Z∣ϕ)[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]=L(ϕ)\mathcal Q(\mathcal Z) \to \mathcal Q(\mathcal Z \mid \phi) \\ \begin{aligned} \mathcal L[\mathcal Q(\mathcal Z)] & = \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z \mid \phi)}\right] d\mathcal Z \\ & = \mathbb E_{\mathcal Q(\mathcal Z \mid \phi)} \left[\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \\ & = \mathcal L(\phi) \end{aligned} Q(Z)→Q(Z∣ϕ)L[Q(Z)]=∫Z∣ϕQ(Z∣ϕ)⋅log[Q(Z∣ϕ)P(X,Z)]dZ=EQ(Z∣ϕ)[logP(X,Z)−logQ(Z∣ϕ)]=L(ϕ)
与此同时，L[Q(Z)]\mathcal L[\mathcal Q(\mathcal Z)]L[Q(Z)]中的变量由Q(Z)\mathcal Q(\mathcal Z)Q(Z)变为ϕ\phiϕ，即L(ϕ)\mathcal L(\phi)L(ϕ)。从而将求解最优Q^(Z)\hat {\mathcal Q}(\mathcal Z)Q^(Z)转化为求解最优参数ϕ^\hat \phiϕ^：
ϕ^=arg⁡max⁡ϕL(ϕ)\hat \phi = \mathop{\arg\max}\limits_{\phi} \mathcal L(\phi)ϕ^=ϕargmaxL(ϕ)
对梯度∇ϕL(ϕ)\nabla_{\phi}\mathcal L(\phi)∇ϕL(ϕ)进行表示：
∇ϕL(ϕ)=∇ϕ∫Z∣ϕQ(Z∣ϕ)⋅log⁡[P(X,Z)Q(Z∣ϕ)]dZ=∇ϕ∫Z∣ϕQ(Z∣ϕ)⋅[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ\begin{aligned} \nabla_{\phi}\mathcal L(\phi) & = \nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z \mid \phi)}\right] d\mathcal Z \\ & = \nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z \end{aligned}∇ϕL(ϕ)=∇ϕ∫Z∣ϕQ(Z∣ϕ)⋅log[Q(Z∣ϕ)P(X,Z)]dZ=∇ϕ∫Z∣ϕQ(Z∣ϕ)⋅[logP(X,Z)−logQ(Z∣ϕ)]dZ
根据牛顿-莱布尼兹公式，将积分号∫\int∫与梯度∇\nabla∇进行交换：
乘法求导~
∫Z∣ϕ∇ϕQ(Z∣ϕ)⋅[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ+∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ\int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right]d\mathcal Z + \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z∫Z∣ϕ∇ϕQ(Z∣ϕ)⋅[logP(X,Z)−logQ(Z∣ϕ)]dZ+∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[logP(X,Z)−logQ(Z∣ϕ)]dZ

观察第二项：∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[logP(X,Z)−logQ(Z∣ϕ)]dZ：

由于ϕ\phiϕ是概率模型Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)的模型参数，而P(X,Z)P(\mathcal X,\mathcal Z)P(X,Z)是X,Z\mathcal X,\mathcal ZX,Z的联合概率分布，因此与ϕ\phiϕ无关。因此第二项可变化为：
−∫Z∣ϕQ(Z∣ϕ)⋅∇ϕlog⁡Q(Z∣ϕ)dZ=−∫Z∣ϕ1Q(Z∣ϕ)⋅Q(Z∣ϕ)⋅∇ϕQ(Z∣ϕ)dZ=−∫Z∣ϕ∇ϕQ(Z∣ϕ)dZ\begin{aligned} & - \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z \\ & = -\int_{\mathcal Z \mid \phi} \frac{1}{\mathcal Q(\mathcal Z \mid \phi)} \cdot \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi)d\mathcal Z \\ & = - \int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi)d\mathcal Z \end{aligned}−∫Z∣ϕQ(Z∣ϕ)⋅∇ϕlogQ(Z∣ϕ)dZ=−∫Z∣ϕQ(Z∣ϕ)1⋅Q(Z∣ϕ)⋅∇ϕQ(Z∣ϕ)dZ=−∫Z∣ϕ∇ϕQ(Z∣ϕ)dZ
再次使用牛顿-莱布尼兹公式，将梯度符号∇\nabla∇还原位置：
−∇ϕ∫Z∣ϕQ(Z∣ϕ)dZ- \nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z−∇ϕ∫Z∣ϕQ(Z∣ϕ)dZ
根据概率密度积分，∫Z∣ϕQ(Z∣ϕ)dZ=1\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z = 1∫Z∣ϕQ(Z∣ϕ)dZ=1，第二项相当于对常数1求偏导，最后结果为0。即：
第二项被完整地消掉了~
∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ=−∇ϕ1=0\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z = -\nabla_{\phi} 1 = 0∫Z∣ϕQ(Z∣ϕ)⋅∇ϕ[logP(X,Z)−logQ(Z∣ϕ)]dZ=−∇ϕ1=0

至此，∇ϕL(ϕ)\nabla_{\phi} \mathcal L(\phi)∇ϕL(ϕ)可表示为：
只剩下了第一项～
∇ϕL(ϕ)=∫Z∣ϕ∇ϕQ(Z∣ϕ)⋅[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ\nabla_{\phi} \mathcal L(\phi) = \int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right]d\mathcal Z∇ϕL(ϕ)=∫Z∣ϕ∇ϕQ(Z∣ϕ)⋅[logP(X,Z)−logQ(Z∣ϕ)]dZ
观察：∇ϕQ(Z∣ϕ)\nabla_{\phi}\mathcal Q(\mathcal Z \mid \phi)∇ϕQ(Z∣ϕ)它并不是概率分布，而是概率分布的梯度。因此没有办法将上式写成期望形式。
但是这里通过技巧 将Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)还原出来：
可以自己反过来推一下~
∇ϕQ(Z∣ϕ)=Q(Z∣ϕ)⋅∇ϕlog⁡Q(Z∣ϕ)\nabla_{\phi}\mathcal Q(\mathcal Z \mid \phi) = \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi)∇ϕQ(Z∣ϕ)=Q(Z∣ϕ)⋅∇ϕlogQ(Z∣ϕ)
将上式带入，∇ϕL(ϕ)\nabla_{\phi} \mathcal L(\phi)∇ϕL(ϕ)可以表示为：
∫Z∣ϕQ(Z∣ϕ)⋅∇ϕlog⁡Q(Z∣ϕ)⋅[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]dZ\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z∫Z∣ϕQ(Z∣ϕ)⋅∇ϕlogQ(Z∣ϕ)⋅[logP(X,Z)−logQ(Z∣ϕ)]dZ
可以将上述积分看作 Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)分布的期望形式：
∇ϕL(ϕ)=EQ(Z∣ϕ){∇ϕlog⁡Q(Z∣ϕ)⋅[log⁡P(X,Z)−log⁡Q(Z∣ϕ)]}\nabla_{\phi} \mathcal L(\phi) =\mathbb E_{\mathcal Q(\mathcal Z \mid \phi)}\left\{\nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot [\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)]\right\}∇ϕL(ϕ)=EQ(Z∣ϕ){∇ϕlogQ(Z∣ϕ)⋅[logP(X,Z)−logQ(Z∣ϕ)]}
至此，将梯度∇ϕL(ϕ)\nabla_{\phi}\mathcal L(\phi)∇ϕL(ϕ)使用期望形式表示出来。后续可以使用蒙特卡洛采样方法对该期望进行近似求解。

至此，每求解一个∇ϕL(ϕ)\nabla_{\phi} \mathcal L(\phi)∇ϕL(ϕ)，都可以对Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)概率分布的模型参数ϕ\phiϕ 更新一次，以此类推。
最终可以近似得到概率模型Q(Z∣ϕ)\mathcal Q(\mathcal Z \mid \phi)Q(Z∣ϕ)的最优模型参数ϕ^\hat \phiϕ^，从而求解概率模型Q(Z∣ϕ^)\mathcal Q(\mathcal Z \mid \hat \phi)Q(Z∣ϕ^)。

下一节将介绍 随机梯度变分推断的问题及其他衍生方法。

相关参考：
机器学习-变分推断4（随机梯度变分推断-SGVI-1）

机器学习笔记之变分推断(四)随机梯度变分推断(SGVI)相关推荐

李弘毅机器学习笔记：第十四章—Why deep?
李弘毅机器学习笔记:第十四章-Why deep? 问题1:越深越好? 问题2:矮胖结构 v.s. 高瘦结构引入模块化深度学习使用语音识别举例语音辨识: 传统的实现方法:HMM-GMM 深度学习 ...
机器学习笔记之受限玻尔兹曼机(四)推断任务——边缘概率
机器学习笔记之受限玻尔兹曼机--推断任务[边缘概率] 引言回顾:场景构建推断任务--边缘概率求解边缘概率与Softplus函数引言上一节介绍了受限玻尔兹曼机中随机变量节点的后验概率,本节将介 ...
机器学习笔记之配分函数(一)对数似然梯度
机器学习笔记之配分函数--对数似然梯度引言回顾:过去介绍配分函数的相关结点配分函数介绍配分函数在哪些情况下会"直面"到? 场景构建包含配分函数的极大似然估计引言从本节 ...
机器学习笔记之狄利克雷过程(四)从概率图角度认识狄利克雷过程
机器学习笔记之狄利克雷过程--从概率图角度认识狄利克雷过程引言关于迪利克雷混合模型关于后验概率的求解过程引言上一节从随机测度 G ( i ) \mathcal G^{(i)} G(i)生成过 ...
机器学习笔记之集成学习(四)Gradient Boosting
机器学习笔记之集成学习--Gradient Boosting 引言回顾: Boosting \text{Boosting} Boosting算法思想与 AdaBoost \text{AdaBoost ...
《机器学习实战》第5章随机梯度上升算法
#!/usr/bin/env python # _*_coding:utf-8 _*_ #@Time :2018/4/9 7:56 #@Author :niutianzhuang #@FileName ...
机器学习：从感知机模型体会随机梯度下降
文章目录感知机模型: 感知机模型的随机梯度下降: 感知机模型的算法描述: 感知机的代码实现: 感知机模型: 寻找一个超平面使数据集线性可分,寻找超平面的过程可以转化为最小化一个损失函数的过程: 如何 ...
机器学习笔记之概率图模型(四)基于贝叶斯网络的模型概述
机器学习笔记之概率图模型--基于贝叶斯网络的模型概述引言基于贝叶斯网络的模型场景构建朴素贝叶斯分类器混合模型基于时间变化的模型特征是连续型随机变量的贝叶斯网络动态概率图模型总结引言 ...
python 决策树和随机森林_【python机器学习笔记】使用决策树和随机森林预测糖尿病...
决策树:一种有监督的机器学习分类算法,可以训练已知数据,做出对未知数据的预测. 机器学习中的分类任务殊途同归,都是要根据已知的数据特征获得最佳的分类方法.对于一个有多个特征的数据,我们需要知道根据哪些 ...

机器学习笔记之变分推断(四)随机梯度变分推断(SGVI)

机器学习笔记之变分推断——随机梯度变分推断

引言

回顾：基于平均场假设的变分推断

经典变分推断的问题

随机梯度变分推断的求解过程

机器学习笔记之变分推断(四)随机梯度变分推断(SGVI)相关推荐

最新文章

热门文章