Jensen不等式、数值积分的变分界、KL散度

Jensen不等式： Jensen’s inequality
变分界：Variational bounding
KL散度：KL-divergence

Jesen不等式
如果fff是凸函数，则对于随机变量X，下列不等式成立
E[f(X)]≥f(E[X])(1)\mathbb E[f(X)] \geq f \left ( \mathbb E [X]\right) \tag{1}E[f(X)]≥f(E[X])(1)

当f=C时取等号，C是一个常数。

变分界

（1）基于Jensen不等式的变分界

我们考虑数值积分I=∫xf(x)dxI=\int_x f(x) dxI=∫xf(x)dx的变分界。引入一个随机函数q(x)q(x)q(x)：
I=∫xq(x)f(x)q(x)dx(2)I = \int_x q(x) \frac{ f(x) }{ q(x) } dx \tag{2} I=∫xq(x)q(x)f(x)dx(2)

利用log凹函数的性质，代入Jensen不等式：
log⁡∫xq(x)g(x)dx≥∫xq(x)log⁡g(x)dxif∫xq(x)dx=1(3)\begin{aligned} \log \int_x q(x) g(x) dx &\geq \int_x q(x) \log g(x) dx \\ \text{if} \int_x q(x) dx &= 1 \end{aligned} \tag{3} log∫xq(x)g(x)dxif∫xq(x)dx≥∫xq(x)logg(x)dx=1(3)

将式(3)代入到式(2)中，
I≥exp⁡(∫xq(x)log⁡f(x)q(x)dx)(4)I \geq \exp \left( \int_x q(x) \log \frac{f(x)}{q(x)} dx \right ) \tag{4} I≥exp(∫xq(x)logq(x)f(x)dx)(4)

注意，式(4)要求f(x)f(x)f(x)是正的。我们可以随意地选取q(x)q(x)q(x)来找到最紧的界（最大化式(4)右边的项）。恰好，这与最小化KL散度是一致的：
D(q∣∣f)=∫xq(x)log⁡q(x)f(x)dx(5)D(q||f) = \int_x q(x) \log \frac{q(x)}{f(x)} dx \tag{5} D(q∣∣f)=∫xq(x)logf(x)q(x)dx(5)

关于KL散度更多的介绍参看其他KL散度链接。

我们证明KL散度的非负性：
D(q∣∣f)=∫xq(x)log⁡q(x)f(x)dx=Eq(x)[log⁡q(x)f(x)]=−Eq(x)[log⁡f(x)q(x)]≥log⁡∫xq(x)f(x)q(x)dx=0(6)\begin{aligned} D(q||f) &= \int_x q(x) \log \frac{q(x)}{f(x)} dx \\ &= \mathbb E_{q(x)} \left [ \log \frac{q(x)}{f(x)} \right ] \\ &= - \mathbb E_{q(x)} \left [ \log \frac{f(x)}{q(x)} \right ] \\ & \geq \log \int_x q(x) \frac{f(x)}{q(x)} dx = 0 \end{aligned} \tag{6} D(q∣∣f)=∫xq(x)logf(x)q(x)dx=Eq(x)[logf(x)q(x)]=−Eq(x)[logq(x)f(x)]≥log∫xq(x)q(x)f(x)dx=0(6)

（2）通过被积函数的界来找到变分界（less accurate）

首先找到被积函数f(x)f(x)f(x)的一个界：
f(x)≥g(x)for all xI≥∫xg(x)dx(7)\begin{aligned} f(x) & \geq g(x) \text{ for all } x \\ I & \geq \int_x g(x) dx \end{aligned} \tag{7} f(x)I≥g(x) for all x≥∫xg(x)dx(7)

与(1)所述的变分界有所不同，方法（2）可以被用于高斯混合分布。另外，该方法既可以被显示地利用，也可以被隐式地利用（变分贝叶斯）。我们介绍其中隐式的方法。

隐式方法会引入隐变量(hidden variable)来定义界，我们把f(x)f(x)f(x)写为：
f(x)=∫yh(x,y)dy(8)\begin{aligned} f(x) = \int_y h(x,y) dy \end{aligned} \tag{8} f(x)=∫yh(x,y)dy(8)

利用Jensen界，我们可以得到
I=∫x,yh(x,y)dydx≥exp⁡(∫x,yq(x,y)log⁡h(x,y)q(x,y)dxdy)(9)\begin{aligned} I &= \int_{x,y} h(x,y) dy dx \\ & \geq \exp \left ( \int_{x,y} q(x,y) \log \frac{h(x,y)}{q(x,y)} dx dy \right ) \end{aligned} \tag{9} I=∫x,yh(x,y)dydx≥exp(∫x,yq(x,y)logq(x,y)h(x,y)dxdy)(9)

我们对q(x,y)q(x,y)q(x,y)加一个约束，假设它能够被分解为独立的形式：
q(x,y)=qx(x)⋅qy(y)(10)q(x,y) = q_x(x) \cdot q_y(y) \tag{10} q(x,y)=qx(x)⋅qy(y)(10)

qx(x)q_x(x)qx(x)和qy(y)q_y(y)qy(y)进一步迭代优化，来得到最大化界的解。

为了验证式(9)跟式(7)是等价的，我们这样分析，给定任意的qy(y)q_y(y)qy(y)，可以解出最优的$q_x(x)
qx(x)=g(x)∫xg(x)dxwhere g(x)=exp⁡(∫yqy(y)log⁡h(x,y)qy(y)dy)(11)\begin{aligned} q_x(x) &= \frac{g(x)}{ \int_x g(x) dx } \\ \text{where } g(x) &= \exp \left ( \int_y q_y(y) \log \frac{ h(x,y) }{ q_y(y) } dy \right) \end{aligned} \tag{11} qx(x)where g(x)=∫xg(x)dxg(x)=exp(∫yqy(y)logqy(y)h(x,y)dy)(11)

然后我们用上式替换h(x)h(x)h(x)，可以得到，
I≥∫xg(x)dx(12)I \geq \int_x g(x) dx \tag{12} I≥∫xg(x)dx(12)