简介

近年来，用于理解和分析数据的概率模型的复杂度和规模逐渐增加，执行推理的难度也相应增加。因此，通过学习后验分布的变分近似的随机梯度下降算法得到了发展。此外，许多研究者还考虑使用概率推断来解决最优化控制问题[5, 6, 12, 17, 25]。通过将控制问题转化为推理问题，研究者发现他们能够借用推理文献中的算法（例如，置信传播）并将它们转化为控制算法。本文恰好相反，我们将变分推断中学习近似后验分布的问题转化为强化学习中的策略优化问题，并从两个层面解释这种联系。

首先，本文给出了二者较高层次的关联，变分推断的近似后验与强化学习的数据轨迹样本之间的关联、变分推断的自由能和强化学习的预期回报的关联，其中计算期望的梯度为所涉及的核心计算问题。紧接着，我们给出了更多细节，给出了一系列映射关系，其中马尔可夫决策（状态，动作，奖励和转移函数）在推理中都具有明确的定义。然后，我们将说明如何利用强化学习的思想对推理网络进行学习，例如，通过在序列化的变分推断中引入价值函数的概念。为了具体和简单，在正文中，我们关注于对特定模型类的推理，并在附录中给出对于一般情况的推导过程。

本文在第二章和第三章中提供了变分推理和强化学习的背景知识。然后，我们将在第4节中重点讨论这两个框架之间的联系，并在第5节中给出两个框架关联关系的总结。

变分推断

推理问题： 给定模型p(z)p(x∣z)p(z)p(x|z)p(z)p(x∣z)，其中zzz为潜在变量，为xxx观测变量，这里我们需要求解先验概率p(z∣x)p(z|x)p(z∣x)。对于许多问题来说，准确的先验概率难以得到。因此，通常会尝试计算一个与先验概率相近的近似分布q(z∣x)q(z|x)q(z∣x)。

模型和近似后验： 该问题的目标是将模型ppp和近似后验qqq进行分解，转化成局部条件分布的乘积形式。为了明确和简介，本文考虑一个特殊情况的模型，即模型具有马尔科夫性。（例如，一个隐马尔可夫过程，或者是一个多层随机神经网络）；完整的一般性说明请见附录B。
p(x,z)=p(z1)p(z2∣z1)...p(zK∣zK−1)p(x∣zK)p(x,z)=p(z_1)p(z_2|z_1)...p(z_K|z_{K-1})p(x|z_K) p(x,z)=p(z1)p(z2∣z1)...p(zK∣zK−1)p(x∣zK)
我们选择一个近似的后验，它可以用类似的方法进行分解：
q(x∣z)=q(z1∣x)q(z2∣z1,x)...q(zK∣zK−1,x)q(x|z)=q(z_1|x)q(z_2|z_1,x)...q(z_K|z_{K-1},x) q(x∣z)=q(z1∣x)q(z2∣z1,x)...q(zK∣zK−1,x)
目标函数： 在变分推理的目标是使下列函数最大化：
L(q)=∫q(z∣x)log⁡p(x∣z)p(z)q(z∣x)dz\mathcal{L}(q)=\int q(z|x) \log \frac{p(x|z)p(z)}{q(z|x)}dz L(q)=∫q(z∣x)logq(z∣x)p(x∣z)p(z)dz
这个被称为负自由能的目标函数构造受两个概念启发：（a）最大化L(q)\mathcal{L}(q)L(q)等价于最小化近似后验分布和真实后验分布的KL散度。（b）L(q)\mathcal{L}(q)L(q)是数据对数似然log⁡p(x)\log p(x)logp(x)的下界，因此最大化L(q)\mathcal{L}(q)L(q)是最优化数据对数似然的算法。

目标函数的随机优化： 近似后验qqq函数通常从一些带参数θ\thetaθ的参数族中选取（L\mathcal{L}L是一个关于θ\thetaθ的方程而不是关于qqq）。对于L\mathcal{L}L的梯度的关于θ\thetaθ蒙特卡洛估计可以通过似然函数方法来获得（附录A中给出了细节），对于z(i)∼qθ(⋅∣x)z^{(i)} \sim q_{\theta}(\cdot|x)z(i)∼qθ(⋅∣x)，我们有：
∂L∂θ=Ez∼qθ[∂∂θlog⁡qθ(z∣x)(log⁡p(x∣z)p(z)qθ(z∣x))]≈1N∑i=1N∂∂θlog⁡qθ(z(i)∣x)(log⁡p(x∣z(i))p(z(i))qθ(z(i)∣x))\frac{\partial \mathcal{L}}{\partial \theta} = \mathbb{E}_{z \sim q_{\theta}}\left[ \frac{\partial}{\partial \theta} \log q_{\theta}(z|x) \left( \log \frac{p(x|z)p(z)}{q_{\theta}(z|x)} \right) \right] \\ \approx \frac{1}{N} \sum_{i=1}^{N} \frac{\partial}{\partial \theta} \log q_{\theta} \left(z^{(i)} | x \right) \left( \log \frac{p(x|z^{(i)})p(z^{(i)})}{q_{\theta}(z^{(i)}|x)} \right) ∂θ∂L=Ez∼qθ[∂θ∂logqθ(z∣x)(logqθ(z∣x)p(x∣z)p(z))]≈N1i=1∑N∂θ∂logqθ(z(i)∣x)(logqθ(z(i)∣x)p(x∣z(i))p(z(i)))

强化学习

在强化学习中，智能体以时间序列化的方式与环境进行交互。在每个步骤中，智能体会观察环境的状态，采取一个动作，并获得即时的奖励。智能体的目标是最大化所有时间序列上奖励的期望总数。

目标函数： 形式上，优化目标是最大化以下函数：
J(θ)=Eτ∼pθ[∑t=1Tr(st,at)]=∫pθ(τ)R(τ)dτ\mathcal{J}(\theta) = \mathbb{E}_{\tau\sim p_{\theta}} \left[ \sum_{t=1}^{T} r(s_t,a_t) \right] = \int p_{\theta} (\tau) R(\tau) d\tau J(θ)=Eτ∼pθ[t=1∑Tr(st,at)]=∫pθ(τ)R(τ)dτ
其中，s,a,rs,a,rs,a,r分别为状态、动作和奖励；τ=(s1,a1,s2,a2,...,sT,aT)\tau = (s_1,a_1,s_2,a_2,...,s_T,a_T)τ=(s1,a1,s2,a2,...,sT,aT)为轨迹；R(τ)=∑t=1TrtR(\tau) = \sum_{t=1}^{T} r_tR(τ)=∑t=1Trt为整个轨迹的回归。

策略和轨迹分布： pθp_{\theta}pθ 为轨迹分布：
pθ(τ)=P(s1)πθ(a1∣s1)∏t=2TP(st∣st−1,at−1)πθ(at∣st)p_{\theta}(\tau) = P(s_1)\pi_{\theta}(a_1|s_1) \prod_{t=2}^{T} P(s_t|s_{t-1},a_{t-1})\pi_{\theta}(a_t|s_t) pθ(τ)=P(s1)πθ(a1∣s1)t=2∏TP(st∣st−1,at−1)πθ(at∣st)
上述分布是策略πθ\pi_{\theta}πθ的组合，主要包括状态条件的动作分布（带参数 θ\thetaθ）这是智能体行为的特征，P(st∣st−1,at−1)P(s_t|s_{t-1},a_{t-1})P(st∣st−1,at−1)是马尔科夫决策过程的转移概率函数，通过该函数可以模拟环境。

下面我们将使用Rt(τ)=∑t′=tTr(st′,at′)R_{t}(\tau)=\sum_{t'=t}^{T} r(s_{t'},a_{t'})Rt(τ)=∑t′=tTr(st′,at′)作为服从行动（序列）ata_tat带来的奖励总和。

目标函数的随机优化： 对于目标函数J\mathcal{J}J梯度的蒙特卡洛估计可通过以下等式得到（详见附录A）：
∂J(θ)∂θ=Eτ∼pθ[∂∂θlog⁡pθ(τ)R(τ)]≈1N∑i=1N∂∂θlog⁡pθ(τ(i))R(τ(i))=1N∑i=1N∑t=1T∂∂θlog⁡πθ(at(i)∣st(i))R(τt(i))\frac{\partial \mathcal{J}(\theta)}{\partial \theta} = \mathbb{E}_{\tau \sim p_{\theta}} \left[ \frac{\partial}{\partial \theta} \log p_{\theta}(\tau) R(\tau) \right] \\ \approx \frac{1}{N} \sum_{i=1}^{N} \frac{\partial}{\partial \theta} \log p_{\theta} (\tau^{(i)}) R(\tau^{(i)}) = \frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \frac{\partial}{\partial \theta} \log \pi_{\theta} (a_t^{(i)}|s_t^{(i)})R(\tau_t^{(i)}) ∂θ∂J(θ)=Eτ∼pθ[∂θ∂logpθ(τ)R(τ)]≈N1i=1∑N∂θ∂logpθ(τ(i))R(τ(i))=N1i=1∑Nt=1∑T∂θ∂logπθ(at(i)∣st(i))R(τt(i))
其中τ∼pθ\tau \sim p_{\theta}τ∼pθ。上述梯度的估计也被称为增强算法 [26]。该估计过程的直观解释为：行动过程通过不断“尝试”，调整每个动作所采取的概率，从而让具有更高回报的轨迹出现的概率更高。基本强化的一个重要概念是，它没有利用强化学习序列化属性的优势：因为它只考虑整个轨迹的总回报期望，而忽略了单个动作执行过程中更细粒度的奖励分配问题。

作为强化学习的变分推断

高层视角：整体推理问题

最大化函数L\mathcal{L}L关于qqq和参数θ\thetaθ的下界可以看成是强化学习中的一个示例。其中qqq表示强化学习中的策略；潜在变量zzz表示动作；log⁡pθ(x,zi)qθ(zi∣x)\log \frac{p_{\theta}(x,z_i)}{q_{\theta}(z_i|x)}logqθ(zi∣x)pθ(x,zi)表示回报。等式L\mathcal{L}L和J\mathcal{J}J具有相同的形式，同样它们的梯度也具有类似的形式：这两种情况都是最大化一种∫pθ(y)f(y)dy\int p_{\theta}(y)f(y)dy∫pθ(y)f(y)dy形式的期望，该形式依赖于参数θ\thetaθ和分布pθ(y)p_{\theta}(y)pθ(y)。这种关联在文献[14]中曾被给出。

一般形式	强化学习	变分推断
最优化变量：θ\thetaθ	策略参数：θ\thetaθ	变分参数：θ\thetaθ
集合变量：yyy	轨迹：τ\tauτ	潜在变量：zzz
分布：pθ(y)p_{\theta}(y)pθ(y)	轨迹分布：pθ(τ)p_{\theta}(\tau)pθ(τ)	先验分布：qθ(z∣x)q_{\theta}(z \lvert x)qθ(z∣x)
被积函数：θ\thetaθ	整体回报：R(τ)R( \tau )R(τ)	自由能：log⁡(p(x,z)qθ(z∣x))\log \left( \frac{ p(x,z) }{ q_{\theta} (z \lvert x) } \right)log(qθ(z∣x)p(x,z))

表1：变分推断和强化学习的高层次关联关系。上述关联是针对特殊情况下一般性问题的优化∫pθ(y)f(y)dy\int p_{\theta}(y)f(y)dy∫pθ(y)f(y)dy关于参数θ\thetaθ和分布pθ(y)p_{\theta}(y)pθ(y)期望。

不同于大多数强化学习的设置，这里的回报依赖于策略的参数，而不是仅仅依赖于状态动作分布（请看文献[2,3,7,13]中的讨论）；在实际情况中，在大多数情况下对于强化学习算法在推理问题的适用性中没有影响，特别对于使用策略网络的情况。

分解：引入推理结构

强化学习的关键点是利用一种优化结构（通常根据问题的序列化属性得到马尔科夫性）来创造更加巧妙的算法。类似地，可以利用先验概率ppp和后验概率qqq来探索一种接口从而创造一种结构化序列化的变分推断算法。强化学习中的概念和想法能够转化为推理问题中的新想法。重新考虑先验和后验概率的马尔科夫模型。变分下界可以分别为如下等式：
L(q)=Ez[log⁡p(z1)q(z1∣x)+p(z2∣z1)q(z2∣x,z1)+...+p(zK∣zK−1)q(zK∣x,zK−1)+log⁡p(x∣zK)]=Ez[∑k=1Kr(zk,zk−1,x)+rf(zK,x)]\mathcal{L}(q)=\mathbb{E}_{z} \left[ \log \frac{p(z_1)}{q(z_1\lvert x)} + \frac{p(z_2\lvert z_1)}{q(z_2\lvert x, z_1)} +...+ \frac{p(z_K \lvert z_{K-1})}{ q(z_{K} \lvert x, z_{K-1} )} + \log p(x\lvert z_{K}) \right] \\ = \mathbb{E}_{z} \left[ \sum_{k=1}^{K} r(z_k,z_{k-1},x)+r_f(z_K,x) \right] L(q)=Ez[logq(z1∣x)p(z1)+q(z2∣x,z1)p(z2∣z1)+...+q(zK∣x,zK−1)p(zK∣zK−1)+logp(x∣zK)]=Ez[k=1∑Kr(zk,zk−1,x)+rf(zK,x)]
其中r(zk,zk−1,x)=log⁡(p(zk∣zk−1))/q(zk∣zk−1,x)r(z_k,z_{k-1},x) = \log(p(z_k \lvert z_{k-1}))/q(z_k \lvert z_{k-1}, x)r(zk,zk−1,x)=log(p(zk∣zk−1))/q(zk∣zk−1,x)可以看作是步骤kkk的瞬时状态依赖的奖励，且rf(zK,x)=log⁡p(x∣zK)r_f(z_K,x) = \log p(x\lvert z_{K})rf(zK,x)=logp(x∣zK)为最终奖励。回顾Rk=∑k′=kKrk+rfR_k=\sum_{k'=k}^{K} r_{k} + r_fRk=∑k′=kKrk+rf为从步骤kkk开始的回报。表2给出了变分推断和强化学习对于该问题的准确映射关系。值得注意的是，由变分推理问题得到了马尔可夫决策的一些特性：

变分推理的马尔可夫决策过程结构取决于后验分布的结构（例如，变量在概率分布q(z∣x)q(z\lvert x)q(z∣x)被采样的顺序）。
当执行分段推理时（计算从数据点xxx到后验概率q(z∣x)q(z\lvert x)q(z∣x)的参数映射），数据点在变分马尔可夫决策过程中表现为环境xxx。拥有环境（状态的一部分，对每个决策周期是随机的，但在单个决策周期中保持不变）在强化学习中并不常见（对于算法的适用性并没有影响）。
状态由常量环境xxx和动态状态zkz_kzk组成。对于一个更复杂模型和后验分布，状态将环境和所采取的所有动作历史（即潜在变量）等函数组成（见附录B）。
变分推理的状态转换是当前状态与动作之间的确定性函数；该问题的随机性源于对动作的选择。在强化学习中，环境本身通常也是随机的。然而这对于该问题同样没有实际影响。

内容	强化学习	变分推断
环境	—	xxx
动态状态	sts_tst	zk−1z_{k-1}zk−1
状态	sts_tst	(zk−1,x)(z_{k-1},x)(zk−1,x)
动作	ata_tat	zk∼qθ(zk∣zk−1,x)z_k \sim q_{\theta} (z_k\lvert z_{k-1},x)zk∼qθ(zk∣zk−1,x)
转移函数	(st,at)→st+1∼P(s∣(s∣st,at)(s_t,a_t)\to s_{t+1} \sim P(s\lvert (s\lvert s_t,a_t)(st,at)→st+1∼P(s∣(s∣st,at)	((zk−1,x),zk)→(zk,x)((z_{k-1},x),z_k) \to (z_{k},x)((zk−1,x),zk)→(zk,x)
即时回报	rtr_trt	log⁡(p(zk∣zk−1,x)qθ(zk∣zk−1,x))\log \left( \frac{p(z_k\lvert z_{k-1},x)}{q_{\theta}(z_k\lvert z_{k-1},x)} \right)log(qθ(zk∣zk−1,x)p(zk∣zk−1,x))
最终回报	000	log⁡p(x∣zK)\log p(x\lvert z_K)logp(x∣zK)

表2:变分推理和强化学习之间的细粒度关联。

利用强化学习技术探索推理问题的结构

这种表示方法是的推理与强化学习的联系更加紧密，并且让我们能够使用强化学习中的方法来降低强化评估器方差较高的问题。

降低与基准的方差：两个简单的见解可以减少强化学习随机优化目标函数的方差：(a)只有成功行动的奖励（由动作引起的）才是该动作的信息性奖励；（b）可以将采样的返回值与参考值（基准）进行比较。结果可以得到对梯度的估计为：
∂L(qθ)∂θ=Ez[∑k=1K∂∂θlog⁡qθ(zk∣zk−1,x)(Rk−bk(zk−1))]\frac{\partial \mathcal{L}(q_{\theta})}{\partial \theta} = \mathbb{E}_{z} \left[ \sum_{k=1}^{K} \frac{\partial}{\partial \theta} \log q_{\theta}(z_k\lvert z_{k-1},x)(R_{k}-b_k(z_{k-1})) \right] ∂θ∂L(qθ)=Ez[k=1∑K∂θ∂logqθ(zk∣zk−1,x)(Rk−bk(zk−1))]
其中bkb_kbk是关于潜在变量zk−1z_{k-1}zk−1的任意函数（可知它不依赖于任何z≥kz_{\geq k}z≥k）。它通常是一个学习函数。这两种修改都使梯度估计在期望中保持不变（这是因为梯度对数-概率密度函数的积分总是为0，具体证明见附录A）但会影响其方差。对于bkb_kbk来说，一个直观而方便的选择是对价值函数（见文献[22]）的近似，它被定义为状态zzz中从kkk起的未来预期收益Vk(x,z)=Eqθ(zk:K∣zk=z,x)[Rk+1(zk,...,zK,x)]V_{k}(x,z) = \mathbb{E}_{q_{\theta}(z_{k:K}\lvert z_k=z,x)}\left[ R_{k+1}(z_k,...,z_{K},x) \right]Vk(x,z)=Eqθ(zk:K∣zk=z,x)[Rk+1(zk,...,zK,x)]。

利用值函数减少方差：状态值函数旨在表示在服从策略qθq_{\theta}qθ条件下，当前处于kkk步骤状态为zkz_kzk的平均未来回报总和。对于等式L(q)\mathcal{L}(q)L(q)，可以通过递归的方式得到如下的值函数：
Vkθ(x,zk)=Ezk+1∼q(zk+1∣x,zk)[r(zk+1,zk,x)+Vk+1θ(zk+1)]VKθ(x,zK)=log⁡p(x∣zK)V_{k}^{\theta}(x,z_k) = \mathbb{E}_{z_{k+1}\sim q(z_{k+1}\lvert x,z_k)}\left[ r(z_{k+1},z_k,x) + V_{k+1}^{\theta}(z_{k+1}) \right] \\ V_{K}^{\theta}(x,z_K) =\log p(x\lvert z_K) Vkθ(x,zk)=Ezk+1∼q(zk+1∣x,zk)[r(zk+1,zk,x)+Vk+1θ(zk+1)]VKθ(x,zK)=logp(x∣zK)
目标函数L(qθ)\mathcal{L}(q_\theta)L(qθ)的梯度可以重写为：
∂L(qθ)∂θ=∑k=1K∂∂θlog⁡q(zk∣x,zk−1)E[rk(zk,zk−1,x)+Vkθ(x,zk)⏟"actionvalue"−Vk−1θ(x,zk−1)⏟"baseline"]\frac{\partial \mathcal{L}(q_{\theta})}{\partial \theta} = \\ \sum_{k=1}^{K} \frac{\partial}{\partial \theta} \log q(z_k \lvert x, z_{k-1}) \mathbb{E}\left[ \underbrace{r_k(z_k,z_{k-1},x) + V_k^{\theta}(x,z_k)}_{"action value"} - \underbrace{V_{k-1}^{\theta}(x,z_{k-1})}_{"baseline"} \right] ∂θ∂L(qθ)=k=1∑K∂θ∂logq(zk∣x,zk−1)E⎣⎡"actionvalue"rk(zk,zk−1,x)+Vkθ(x,zk)−"baseline"Vk−1θ(x,zk−1)⎦⎤
实际上我们不知道VθV^{\theta}Vθ，但是我们可以学习到关于参数ψ\psiψ的近似函数VϕV^{\phi}Vϕ。在最简单的情况下，这是通过“回报回归”实现的，即我们最小化Eq(z∣x)[(Rk+1−Vϕ(x,zk))2]\mathbb{E}_{q(z|x)}\left[ \left( R_{k+1} - V^{\phi}(x,z_k) \right)^2 \right]Eq(z∣x)[(Rk+1−Vϕ(x,zk))2]。但它也可以通过引导回归实现，类似于强化学习中的时间差异（TD）学习（如文献[22]）。

总结

文本提供对于推理问题给出了一个全新的观点。我们希望这将能够为变分推理的研究者提供灵感，让他们通过强化学习来创建新的推理方案。我们使用两个特定的策略（基线和价值函数）来举例说明这一点。强化学习中的许多其它概念原则上都可以用于变分推理领域，如时间差异（TD）方法或探索策略，我们希望在未来的工作中展示它们在这方面的相关性。在这篇摘要文章中，我们着重讨论了似然函数估计量，它没有关于可微性的假设，而是一种类似的映射，适用于可微模型，并可以与可微模型和相关技术相结合[9,21,24]。

参考文献

[1] Jimmy Ba, Volodymyr Mnih, and Koray Kavukcuoglu. Multiple Object Recognition with Visual Attention. In ICLR’15. 2015.
[2] Leemon Baird and Andrew W Moore. Gradient descent for general reinforcement learning. Advances in Neural Information Processing Systems, pages 968–974, 1999.
[3] Jonathan Baxter and Peter L. Bartlett. Infinite-horizon policy-gradient estimation. J. Artif. Intell. Res. (JAIR), 15:319–350, 2001.
[4] David M Blei, Michael I Jordan, and John W Paisley. Variational bayesian inference with stochastic search. In Proceedings of the 29th International Conference on Machine Learning (ICML-12), pages 1367–1374, 2012.
[5] Peter Dayan and Geoffrey E Hinton. Using expectation-maximization for reinforcement learning. Neural Computation, 9(2):271–278, 1997.
[6] Marc Peter Deisenroth, Gerhard Neumann, Jan Peters, et al. A Survey on Policy Search for Robotics. Foundations and Trends in Robotics, 2(1-2):1–142, 2013.
[7] Peter W Glynn. Likelihood ratio gradient estimation for stochastic systems. Communications of the ACM, 33(10):75–84, 1990.
[8] Karol Gregor, Ivo Danihelka, Andriy Mnih, Charles Blundell, and DaanWierstra. Deep autoregressive networks. In Proceedings of the 31st International Conference on Machine Learning, pages 1242–1250, 2014.
[9] Nicolas Heess, Greg Wayne, David Silver, Timothy Lillicrap, Tom Erez, and Yuval Tassa. Gradient Learning Continuous Control Policies by Stochastic Value Gradients. Proceedings of the 2015 conference on Neural Information Processing Systems, 2015.
[10] Geoffrey E. Hinton, Brian Sallans, and Zoubin Ghahramani. A Hierarchical Community of Experts. In Michael I. Jordan, editor, Learning in Graphical Models. Kluwer Academic, 1997.
[11] Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley. Stochastic variational inference. The Journal of Machine Learning Research, 14(1):1303–1347, 2013.
[12] Hilbert J Kappen, Vicenc¸ G´omez, and Manfred Opper. Optimal control as a graphical model inference problem. Machine learning, 87(2):159–182, 2012.
[13] Peter Marbach and John N Tsitsiklis. Simulation-based optimization of Markov reward processes. Automatic Control, IEEE Transactions on, 46(2):191–209, 2001.
[14] Andriy Mnih and Karol Gregor. Neural variational inference and learning in belief networks. In Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014, pages 1791–1799, 2014.
[15] Gerhard Neumann. Variational inference for policy search in changing situations. In Proceedings of the 28th International Conference on Machine Learning, ICML 2011, pages 817–824, 2011.
[16] Rajesh Ranganath, Sean Gerrish, and David Blei. Black box variational inference. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics, pages 814–822, 2014.
[17] Konrad Rawlik, Marc Toussaint, and Sethu Vijayakumar. On stochastic optimal control and reinforcement learning by approximate inference. In Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, pages 3052–3056. AAAI Press, 2013.
[18] Danilo J Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the 31st International Conference on Machine Learning (ICML-14), pages 1278–1286, 2014.
[19] Danilo Jimenez Rezende and Shakir Mohamed. Variational Inference with Normalizing Flows. Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015.
[20] Tim Salimans. Markov chain Monte Carlo and variational inference: Bridging the gap. NIPS 2014 Workshop on Advances in Variational Inference, 2014.
[21] John Schulman, Nicolas Heess, Theophane Weber, and Pieter Abbeel. Gradient Estimation Using Stochastic Computation Graphs. Proceedings of the 2015 conference on Neural Information Processing Systems, 2015.
[22] Richard S. Sutton and Andrew G. Barto. Reinforcement learning: An introduction. MIT Press, Cambridge, MA, 1998.
[23] Emanuel Todorov. General duality between optimal control and estimation. In Decision and Control, 2008. CDC 2008. 47th IEEE Conference on, pages 4286–4292. IEEE, 2008.
[24] Emanuel Todorov and Weiwei Li. A generalized iterative LQG method for locally-optimal feedback control of constrained nonlinear stochastic systems. In American Control Conference, 2005. Proceedings of the 2005, pages 300–306. IEEE, 2005.
[25] Marc Toussaint and Amos Storkey. Probabilistic inference for solving discrete and continuous state Markov Decision Processes. In Proceedings of the 23rd international conference on Machine learning, pages 945–952. ACM, 2006.
[26] Ronald J . Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3-4):229–256, 1992.
[27] David Wingate and Theophane Weber. Automated variational inference in probabilistic programming. NIPS 2012 Workshop on Probabilistic Programming, 2013.
[28] Brian D Ziebart. Modeling purposeful adaptive behavior with the principle of maximum causal entropy. 2010.

附录A 似然函数估计器

【文章翻译】Reinforced Variational Inference相关推荐

变分推断（variational inference）/variational EM
诸神缄默不语-个人CSDN博文目录由于我真的,啥都不会,所以本文基本上就是,从0开始. 我看不懂的博客就是写得不行的博客.所以我只写我看得懂的部分. 持续更新. 文章目录 1. 琴生不等式 2. 香 ...
变分推断（Variational Inference）最新进展简述
动机变分推断(Variational Inference, VI)是贝叶斯近似推断方法中的一大类方法,将后验推断问题巧妙地转化为优化问题进行求解,相比另一大类方法马尔可夫链蒙特卡洛方法(Markov ...
Collapsed Variational Inference(Collapsed变分推断)算法以LDA推导为例
本文作者:合肥工业大学管理学院钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录简介 LDA变分推断 LDA的Collapse ...
计算机专业英语文章翻译,计算机专业英语英汉双语文章翻译
计算机专业英语英汉双语文章翻译五项将改变世界的技术 It's a tall order: Over the next few decades, the world will need to wean ...
GAUSSIAN MIXTURE VAE: LESSONS IN VARIATIONAL INFERENCE, GENERATIVE MODELS, AND DEEP NETS
Not too long ago, I came across this paper on unsupervised clustering with Gaussian Mixture VAEs. I ...
学术不端网查重靠谱吗_毕业论文查重把知网上的英文文章翻译成中文可以吗
据说CNKI中国知网5.0就已经添加了中英文互译检测.简单百度一下发现学术不端网有关于:知网查重能否查英文论文呢?英语论文翻译过来查重能过吗?等等这样关于知网查重系统和英文文献的问题有很多.我现在用的 ...
Android官方文章翻译之管理设备苏醒状态(Managing Device Awake State)（二）
这是Managing Device Awake State的下半篇,上半篇请看:Android官方文章翻译之管理设备苏醒状态(Managing Device Awake State)(一) 在了解接下 ...
Buildroot文章翻译
OpenWRT文章翻译之(一)----OpenWRT Buildroot简介原文地址:http://wiki.openwrt.org/about/toolchain Buildroot简介话说Op ...
模型汇总-9 Variational AutoEncoder_VAE基础：LVM、MAP、EM、MCMC、Variational Inference（VI）
Kingma et al和Rezende et al在2013年提出了变分自动编码器(Variational AutoEncoders,VAEs)模型,仅仅三年的时间,VAEs就成为一种最流行的生成模 ...
谈技术文章翻译的信雅达－上
谈技术文章翻译的信雅达-上 Horin|贺勤 Email: horin153@msn.com Blog: http://blog.csdn.net/horin153/ ...

【文章翻译】Reinforced Variational Inference

文章目录

简介