机器学习——变分推断

基于平均场假设的变分推断
SGVI

我们已经知道概率模型可以分为，频率派的优化问题和贝叶斯派的积分问题。从贝叶斯角度来看推断，对于 x^\hat{x}x^这样的新样本，需要得到：
p(x^∣X)=∫θp(x^,θ∣X)dθ=∫θp(θ∣X)p(x^∣θ,X)dθp(\hat{x}|X)=\int_\theta p(\hat{x},\theta|X)d\theta=\int_\theta p(\theta|X)p(\hat{x}|\theta,X)d\thetap(x^∣X)=∫θp(x^,θ∣X)dθ=∫θp(θ∣X)p(x^∣θ,X)dθ
如果新样本和数据集独立，那么推断就是概率分布依参数后验分布的期望。
我们看到，推断问题的中心是参数后验分布的求解，推断分为：

精确推断
近似推断-参数空间无法精确求解
- 确定性近似-如变分推断
- 随机近似-如MCMC，MH，Gibbs

基于平均场假设的变分推断

我们记Z\mathcal{Z}Z为隐变量和参数的集合，Zi\mathcal{Z}_iZi为第iii维的参数，于是，回顾一下EM中的推导：
logp(X)=logp(X,Z)−logp(Z∣X)=logp(X,Z)q(Z)−logp(Z∣X)q(Z)logp(X)=logp(X,Z)-logp(Z|X)=log{\frac{p(X,Z)}{q(Z)}}-log{\frac{p(Z|X)}{q(Z)}}logp(X)=logp(X,Z)−logp(Z∣X)=logq(Z)p(X,Z)−logq(Z)p(Z∣X)
左右两边分别积分：
Left:∫Zq(Z)log⁡p(X)dZ=log⁡p(X)Right:∫Z[log⁡p(X,Z)q(Z)−log⁡p(Z∣X)q(Z)]q(Z)dZ=ELBO+KL(q,p)Left:\int_Zq(Z)\log p(X)dZ=\log p(X)\\ Right:\int_Z[\log \frac{p(X,Z)}{q(Z)}-\log \frac{p(Z|X)}{q(Z)}]q(Z)dZ=ELBO+KL(q,p) Left:∫Zq(Z)logp(X)dZ=logp(X)Right:∫Z[logq(Z)p(X,Z)−logq(Z)p(Z∣X)]q(Z)dZ=ELBO+KL(q,p)
第二个式子可以写为变分和KL散度的和：
L(q)+KL(q,p)L(q)+KL(q,p)L(q)+KL(q,p)
由于这个式子是常数，于是寻找q≃pq\simeq pq≃p就相当于对L(q)L(q)L(q)最大值
q^(Z)=argmaxq(Z)L(q)\hat{q}(Z)=\mathop{argmax}_{q(Z)}L(q)q^(Z)=argmaxq(Z)L(q)
假设q(Z)q(Z)q(Z)可以划分为M个组（平均场近似）：
q(Z)=∏i=1Mqi(Zi)q(Z)=\prod\limits_{i=1}^Mq_i(Z_i)q(Z)=i=1∏Mqi(Zi)
因此，在L(q)=∫Zq(Z)log⁡p(X,Z)dZ−∫Zq(Z)log⁡q(Z)L(q)=\int_Zq(Z)\log p(X,Z)dZ-\int_Zq(Z)\log{q(Z)}L(q)=∫Zq(Z)logp(X,Z)dZ−∫Zq(Z)logq(Z)中，看p(Zj)p(Z_j)p(Zj)，第一项：
∫Zq(Z)log⁡p(X,Z)dZ=∫Z∏i=1Mqi(Zi)log⁡p(X,Z)dZ=∫Zjqj(Zj)∫Z−Zj∏i≠jqi(Zi)log⁡p(X,Z)dZ=∫Zjqj(Zj)E∏i≠jqi(Zi)[log⁡p(X,Z)]dZj\int_Zq(Z)\log p(X,Z)dZ=\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\log p(X,Z)dZ\\ =\int_{Z_j}q_j(Z_j)\int_{Z-Z_{j}}\prod\limits_{i\ne j}q_i(Z_i)\log p(X,Z)dZ\\ =\int_{Z_j}q_j(Z_j)\mathbb{E}_{\prod\limits_{i\ne j}q_i(Z_i)}[\log p(X,Z)]dZ_j ∫Zq(Z)logp(X,Z)dZ=∫Zi=1∏Mqi(Zi)logp(X,Z)dZ=∫Zjqj(Zj)∫Z−Zji=j∏qi(Zi)logp(X,Z)dZ=∫Zjqj(Zj)Ei=j∏qi(Zi)[logp(X,Z)]dZj
第二项：
∫Zq(Z)log⁡q(Z)dZ=∫Z∏i=1Mqi(Zi)∑i=1Mlog⁡qi(Zi)dZ\int_Zq(Z)\log q(Z)dZ=\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\sum\limits_{i=1}^M\log q_i(Z_i)dZ∫Zq(Z)logq(Z)dZ=∫Zi=1∏Mqi(Zi)i=1∑Mlogqi(Zi)dZ
展开求和项第一项为：
∫Z∏i=1Mqi(Zi)log⁡q1(Z1)dZ=∫Z1q1(Z1)log⁡q1(Z1)dZ1\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\log q_1(Z_1)dZ=\int_{Z_1}q_1(Z_1)\log q_1(Z_1)dZ_1∫Zi=1∏Mqi(Zi)logq1(Z1)dZ=∫Z1q1(Z1)logq1(Z1)dZ1
所以：
∫Zq(Z)log⁡q(Z)dZ=∑i=1M∫Ziqi(Zi)log⁡qi(Zi)dZi=∫Zjqj(Zj)log⁡qj(Zj)dZj+Const\int_Zq(Z)\log q(Z)dZ=\sum\limits_{i=1}^M\int_{Z_i}q_i(Z_i)\log q_i(Z_i)dZ_i=\int_{Z_j}q_j(Z_j)\log q_j(Z_j)dZ_j+Const∫Zq(Z)logq(Z)dZ=i=1∑M∫Ziqi(Zi)logqi(Zi)dZi=∫Zjqj(Zj)logqj(Zj)dZj+Const
两项相减，令E∏i≠jqi(Zi)[log⁡p(X,Z)]=log⁡p^(X,Zj)\mathbb{E}_{\prod\limits_{i\ne j}q_i(Z_i)}[\log p(X,Z)]=\log \hat{p}(X,Z_j)Ei=j∏qi(Zi)[logp(X,Z)]=logp^(X,Zj)可以得到：
−∫Zjqj(Zj)log⁡qj(Zj)p^(X,Zj)dZj≤0-\int_{Z_j}q_j(Z_j)\log\frac{q_j(Z_j)}{\hat{p}(X,Z_j)}dZ_j\le 0−∫Zjqj(Zj)logp^(X,Zj)qj(Zj)dZj≤0
于是最大的qj(Zj)=p^(X,Zj)q_j(Z_j)=\hat{p}(X,Z_j)qj(Zj)=p^(X,Zj)才能得到最大值。我们看到，对每一个qjq_jqj，都是固定其余的qiq_iqi，求这个值，于是可以使用坐标上升的方法进行迭代求解，上面的推导针对单个样本，但是对数据集也是适用的。
基于平均场假设的变分推断存在一些问题：

假设太强，Z非常复杂的情况下，假设不适用
期望中的积分，可能无法计算

SGVI

从Z到X的过程叫做生成过程或译码，反过来的过程叫推断过程或编码过程，基于平均场的变分推断可以导出坐标上升的算法，但是这个假设在一些情况下假设太强，同时积分也不一定能算。我们知道，优化方法除了坐标上升，还有梯度上升的方式，我们希望通过梯度上升来得到变分推断的另一种算法。
我们的目标函数：
q^(Z)=argmaxq(Z)L(q)\hat{q}(Z)=\mathop{argmax}_{q(Z)}L(q)q^(Z)=argmaxq(Z)L(q)
假定q(Z)=qϕ(Z)q(Z)=q_\phi(Z)q(Z)=qϕ(Z)，是和ϕ\phiϕ这个参数相连的概率分布。于是argmaxq(Z)L(q)=argmaxϕL(ϕ)\mathop{argmax}_{q(Z)}L(q)=\mathop{argmax}_{\phi}L(\phi)argmaxq(Z)L(q)=argmaxϕL(ϕ)，其中L(ϕ)=Eqϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]L(\phi)=\mathbb{E}_{q_\phi}[\log p_\theta(x^i,z)-\log q_\phi(z)]L(ϕ)=Eqϕ[logpθ(xi,z)−logqϕ(z)]，这里xix^ixi表示第i个样本。
∇ϕL(ϕ)=∇ϕEqϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]=∇ϕ∫qϕ(z)[log⁡pθ(xi,z)−log⁡qϕ(z)]dz=∫∇ϕqϕ(z)[log⁡pθ(xi,z)−log⁡qϕ(z)]dz+∫qϕ(z)∇ϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]dz=∫∇ϕqϕ(z)[log⁡pθ(xi,z)−log⁡qϕ(z)]dz−∫qϕ(z)∇ϕlog⁡qϕ(z)dz=∫∇ϕqϕ(z)[log⁡pθ(xi,z)−log⁡qϕ(z)]dz−∫∇ϕqϕ(z)dz=∫∇ϕqϕ(z)[log⁡pθ(xi,z)−log⁡qϕ(z)]dz=∫qϕ(∇ϕlog⁡qϕ)(log⁡pθ(xi,z)−log⁡qϕ(z))dz=Eqϕ[(∇ϕlog⁡qϕ)(log⁡pθ(xi,z)−log⁡qϕ(z))]\nabla_\phi L(\phi)=\nabla_\phi\mathbb{E}_{q_\phi}[\log p_\theta(x^i,z)-\log q_\phi(z)]\\ =\nabla_\phi\int q_\phi(z)[\log p_\theta(x^i,z)-\log q_\phi(z)]dz\\ =\int\nabla_\phi q_\phi(z)[\log p_\theta(x^i,z)-\log q_\phi(z)]dz+\int q_\phi(z)\nabla_\phi [\log p_\theta(x^i,z)-\log q_\phi(z)]dz\\ =\int\nabla_\phi q_\phi(z)[\log p_\theta(x^i,z)-\log q_\phi(z)]dz-\int q_\phi(z)\nabla_\phi \log q_\phi(z)dz\\ =\int\nabla_\phi q_\phi(z)[\log p_\theta(x^i,z)-\log q_\phi(z)]dz-\int \nabla_\phi q_\phi(z)dz\\ =\int\nabla_\phi q_\phi(z)[\log p_\theta(x^i,z)-\log q_\phi(z)]dz\\ =\int q_\phi(\nabla_\phi\log q_\phi)(\log p_\theta(x^i,z)-\log q_\phi(z))dz\\ =\mathbb{E}_{q_\phi}[(\nabla_\phi\log q_\phi)(\log p_\theta(x^i,z)-\log q_\phi(z))] ∇ϕL(ϕ)=∇ϕEqϕ[logpθ(xi,z)−logqϕ(z)]=∇ϕ∫qϕ(z)[logpθ(xi,z)−logqϕ(z)]dz=∫∇ϕqϕ(z)[logpθ(xi,z)−logqϕ(z)]dz+∫qϕ(z)∇ϕ[logpθ(xi,z)−logqϕ(z)]dz=∫∇ϕqϕ(z)[logpθ(xi,z)−logqϕ(z)]dz−∫qϕ(z)∇ϕlogqϕ(z)dz=∫∇ϕqϕ(z)[logpθ(xi,z)−logqϕ(z)]dz−∫∇ϕqϕ(z)dz=∫∇ϕqϕ(z)[logpθ(xi,z)−logqϕ(z)]dz=∫qϕ(∇ϕlogqϕ)(logpθ(xi,z)−logqϕ(z))dz=Eqϕ[(∇ϕlogqϕ)(logpθ(xi,z)−logqϕ(z))]
这个期望可以通过蒙特卡洛采样来近似，从而得到梯度，然后利用梯度上升的方法来得到参数：
zl∼qϕ(z)Eqϕ[(∇ϕlog⁡qϕ)(log⁡pθ(xi,z)−log⁡qϕ(z))]∼1L∑l=1L(∇ϕlog⁡qϕ)(log⁡pθ(xi,z)−log⁡qϕ(z))z^l\sim q_\phi(z)\\ \mathbb{E}_{q_\phi}[(\nabla_\phi\log q_\phi)(\log p_\theta(x^i,z)-\log q_\phi(z))]\sim \frac{1}{L}\sum\limits_{l=1}^L(\nabla_\phi\log q_\phi)(\log p_\theta(x^i,z)-\log q_\phi(z))zl∼qϕ(z)Eqϕ[(∇ϕlogqϕ)(logpθ(xi,z)−logqϕ(z))]∼L1l=1∑L(∇ϕlogqϕ)(logpθ(xi,z)−logqϕ(z))
但是由于求和符号中存在一个对数项，于是直接采样的方差很大，需要采样的样本非常多。为了解决方差太大的问题，我们采用Reparameterization的技巧。
考虑：
∇ϕL(ϕ)=∇ϕEqϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]\nabla_\phi L(\phi)=\nabla_\phi\mathbb{E}_{q_\phi}[\log p_\theta(x^i,z)-\log q_\phi(z)]∇ϕL(ϕ)=∇ϕEqϕ[logpθ(xi,z)−logqϕ(z)]
我们取：z=gϕ(ε,xi),ε∼p(ε)z=g_\phi(\varepsilon,x^i),\varepsilon\sim p(\varepsilon)z=gϕ(ε,xi),ε∼p(ε)，于是对后验：z∼qϕ(z∣xi)z\sim q_\phi(z|x^i)z∼qϕ(z∣xi),有∣qϕ(z∣xi)dz∣=∣p(ε)dε∣|q_\phi(z|x^i)dz|=|p(\varepsilon)d\varepsilon|∣qϕ(z∣xi)dz∣=∣p(ε)dε∣。代入上面的梯度中：
∇ϕL(ϕ)=∇ϕEqϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]=∇ϕL(ϕ)=∇ϕ∫[log⁡pθ(xi,z)−log⁡qϕ(z)]qϕdz=∇ϕ∫[log⁡pθ(xi,z)−log⁡qϕ(z)]pεdε=Ep(ε)[∇ϕ[log⁡pθ(xi,z)−log⁡qϕ(z)]]=Ep(ε)[∇z[log⁡pθ(xi,z)−log⁡qϕ(z)]∇ϕz]=Ep(ε)[∇z[log⁡pθ(xi,z)−log⁡qϕ(z)]∇ϕgϕ(ε,xi)]\nabla_\phi L(\phi)=\nabla_\phi\mathbb{E}_{q_\phi}[\log p_\theta(x^i,z)-\log q_\phi(z)]\\ =\nabla_\phi L(\phi)=\nabla_\phi\int[\log p_\theta(x^i,z)-\log q_\phi(z)]q_\phi dz\\ =\nabla_\phi\int[\log p_\theta(x^i,z)-\log q_\phi(z)]p_\varepsilon d\varepsilon\\ =\mathbb{E}_{p(\varepsilon)}[\nabla_\phi[\log p_\theta(x^i,z)-\log q_\phi(z)]]\\ =\mathbb{E}_{p(\varepsilon)}[\nabla_z[\log p_\theta(x^i,z)-\log q_\phi(z)]\nabla_\phi z]\\ =\mathbb{E}_{p(\varepsilon)}[\nabla_z[\log p_\theta(x^i,z)-\log q_\phi(z)]\nabla_\phi g_\phi(\varepsilon,x^i)]∇ϕL(ϕ)=∇ϕEqϕ[logpθ(xi,z)−logqϕ(z)]=∇ϕL(ϕ)=∇ϕ∫[logpθ(xi,z)−logqϕ(z)]qϕdz=∇ϕ∫[logpθ(xi,z)−logqϕ(z)]pεdε=Ep(ε)[∇ϕ[logpθ(xi,z)−logqϕ(z)]]=Ep(ε)[∇z[logpθ(xi,z)−logqϕ(z)]∇ϕz]=Ep(ε)[∇z[logpθ(xi,z)−logqϕ(z)]∇ϕgϕ(ε,xi)]
对这个式子进行蒙特卡洛采样，然后计算期望，得到梯度。