文章目录

0. 前言
1. 将推断视为优化问题
- 1.1 期望最大化 EM
- 1.2 最大后验推断 MAP
- 1.3 稀疏编码
2. 变分推断
- 2.1 离散型潜变量
- 2.2 连续性潜变量

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~

花书+吴恩达深度学习（二三）结构化概率模型（贝叶斯网络、马尔可夫网络）
花书+吴恩达深度学习（二四）蒙特卡罗方法（重要采样，MCMC）
花书+吴恩达深度学习（二五）直面配分函数（CD, SML, SM, RM, NCE）
花书+吴恩达深度学习（二六）近似推断（EM, 变分推断）

0. 前言

通常我们有一系列可见变量vvv和一系列潜变量hhh。

推断困难通常是指难以计算p(h∣v)p(h\mid v)p(h∣v)或其期望。

1. 将推断视为优化问题

假设一个包含可见变量vvv和潜变量hhh的概率模型，我们希望观察log⁡p(v;θ)\log p(v;\theta)logp(v;θ)，作为替代，我们可以计算一个log⁡p(v;θ)\log p(v;\theta)logp(v;θ)的下界L(v,θ,q)L(v,\theta,q)L(v,θ,q)，称为证据下界（evidence lower bound, ELBO）：
L(v,θ,q)=log⁡p(v;θ)−DKL(q(h∣v)∣∣p(h∣v;θ))L(v,\theta,q)=\log p(v;\theta)-D_{KL}(q(h\mid v)\mid \mid p(h\mid v;\theta)) L(v,θ,q)=logp(v;θ)−DKL(q(h∣v)∣∣p(h∣v;θ))
证据下界的标准定义为：
L(v,θ,q)=Eh∼q[log⁡p(h,v)]+H(q)L(v,\theta,q)=\mathbb{E}_{h\sim q}[\log p(h,v)]+H(q) L(v,θ,q)=Eh∼q[logp(h,v)]+H(q)

越好的近似p(h∣v)p(h\mid v)p(h∣v)的分布q(h∣v)q(h\mid v)q(h∣v)，得到的下界就越紧，与log⁡p(v)\log p(v)logp(v)更接近。当q(h∣v)=p(h∣v)q(h\mid v)=p(h\mid v)q(h∣v)=p(h∣v)时，这个近似完美的，也就是L(v,θ,q)=log⁡p(v;θ)L(v,\theta,q)=\log p(v;\theta)L(v,θ,q)=logp(v;θ)。

因此我们可以将推断问题看作找一个分布qqq使得LLL最大的过程。

1.1 期望最大化 EM

期望最大化（expectation maximization）由交替迭代，直到收敛的两步运算组成：

E步（expectation step）：令θ(0)\theta^{(0)}θ(0)表示在这一部开始时的参数值，对任何我们想要训练索引为iii的训练样本v(i)v^{(i)}v(i)，令q(h(i)∣v)=p(h(i)∣v(i);θ(0))q(h^{(i)}\mid v)=p(h^{(i)}\mid v^{(i)};\theta^{(0)})q(h(i)∣v)=p(h(i)∣v(i);θ(0))。如果改变θ\thetaθ，那么ppp会改变，但是qqq不变
M步（maximization step）：使用选择的优化算法完全的或部分的关于θ\thetaθ最大化∑iL(v(i),θ,q)\sum_iL(v^{(i)},\theta,q)∑iL(v(i),θ,q)

这可以被看作通过坐标上升算法来最大化LLL，第一步更新分布qqq，另一部更新θ\thetaθ。

1.2 最大后验推断 MAP

最大后验推断（Maximum A Posteriori），简称MAP推断，意味着计算：
h∗=arg⁡max⁡hp(h∣v)h^*=\arg \max_h p(h\mid v) h∗=arghmaxp(h∣v)

具体，我们令分布qqq满足Dirac分布：
q(h∣v)=δ(h−μ)q(h\mid v)=\delta(h-\mu) q(h∣v)=δ(h−μ)
意味着我们可以通过μ\muμ完全控制分布qqq，我们只需要优化：
μ∗=arg⁡max⁡μlog⁡p(h=μ,v)\mu^*=\arg \max_\mu \log p(h=\mu,v) μ∗=argμmaxlogp(h=μ,v)

1.3 稀疏编码

稀疏编码是一种在隐藏单元上加上了诱导稀疏性的先验知识的线性因子模型：
p(hi)=λ2exp⁡(−λ∣hi∣)p(v∣h)=N(v;Wh+b,β−1I)p(h_i)=\frac{\lambda}{2}\exp(-\lambda \left|h_i\right|)\\ p(v\mid h)=N(v;Wh+b,\beta^{-1}I) p(hi)=2λexp(−λ∣hi∣)p(v∣h)=N(v;Wh+b,β−1I)
将所有hhh拼成矩阵HHH，所有vvv拼成矩阵VVV，则最小化下式：
J(H,W)=∑i,j∣Hi,j∣+∑i,j(V−HWT)i,j2J(H,W)=\sum_{i,j}\left|H_{i,j}\right|+\sum_{i,j}(V-HW^T)^2_{i,j} J(H,W)=i,j∑∣Hi,j∣+i,j∑(V−HWT)i,j2
我们可以交替迭代，分别关于HWH\ WH W最小化JJJ的方式最小化JJJ。

2. 变分推断

变分学习的核心思想就是在一个关于qqq的有约束的分布族上最大化LLL，选择这个分布族时应该考虑到计算Eqlog⁡p(h,v)\mathbb{E}_q \log p(h,v)Eqlogp(h,v)。

一种常用的变分学习的方法是加入一些限制使得qqq是一个因子分布，这被称为均值场方法：
q(h∣v)=∏iq(hi∣v)q(h\mid v)=\prod_i q(h_i\mid v) q(h∣v)=i∏q(hi∣v)

变分方法的优点是，我们不需要为分布qqq设定特定的参数化形式。

在学习算法中使用近似推断会影响学习的过程，反过来学习过程也会影响推断算法的准确性。

训练算法倾向于朝使得近似推断算法中的近似假设变得更加真实的方向来适应模型。

2.1 离散型潜变量

我们可以用一个向量h^\hat{h}h^来参数化分布qqq，q(hi=1∣v)=h^iq(h_i=1\mid v)=\hat{h}_iq(hi=1∣v)=h^i。

解关于h^i\hat{h}_ih^i的方程：
∂∂h^iL=0\frac{\partial}{\partial \hat{h}_i}L=0 ∂h^i∂L=0
我们反复更新h^\hat{h}h^不同的元素直到满足收敛准则。

2.2 连续性潜变量

我们对均值场近似，对任何j≠ij\neq ij̸=i固定q(hj∣v)q(h_j\mid v)q(hj∣v)，可以归一化下面分布来得到最优的q(hi∣v)q(h_i\mid v)q(hi∣v)：
q~(hi∣v)=exp⁡(Eh−i∼q(h−i∣v)log⁡p~(v,h))\tilde{q}(h_i\mid v)=\exp(\mathbb{E}_{h_{-i}\sim q(h_{-i}\mid v)}\log \tilde{p}(v,h)) q~(hi∣v)=exp(Eh−i∼q(h−i∣v)logp~(v,h))
这是一个不动点方程，对每一个iii它都被迭代的反复使用直到收敛。