VAE系列之KL散度推导和理解

储备知识

多维高斯公式的表达和推导

一维正态分布都为大家所熟知：
N(x;μ,σ2)=12πσ2exp(−(x−μ)22σ2)N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})N(x;μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
对于多维高斯分布，x⃗=(x1,x2,...,xn)\vec x = (x_1,x_2,...,x_n)x=(x1,x2,...,xn)各个随机变量相互独立，可以表示为
f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n)f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)
f(x⃗)=12πσ12exp(−(x−μ1)22σ12)∗12πσ22exp(−(x−μ2)22σ22)∗...∗12πσn2exp(−(x−μn)22σn2)=1(2π)nΠi=1i=nσi2exp(∑i=1i=n−(xi−μi)22σi2)(1)f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1)f(x)=2πσ121exp(−2σ12(x−μ1)2)∗2πσ221exp(−2σ22(x−μ2)2)∗...∗2πσn21exp(−2σn2(x−μn)2)=(2π)nΠi=1i=nσi21exp(∑i=1i=n−2σi2(xi−μi)2)(1)
当然，深度学习这本书中给出的公式如下：
N(x;μ,Σ)=1(2π)2det(Σ)exp⟮(−12(x−μ)TΣ−1(x−μ)⟯(2)N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2)N(x;μ,Σ)=(2π)2det(Σ)1exp⟮(−21(x−μ)TΣ−1(x−μ)⟯(2)
其中Σ\SigmaΣ和det⁡(Σ)\det(\Sigma)det(Σ)分别表示的是x⃗\vec xx的协方差矩阵和协方差矩阵的行列式。对于相互独立的变量来说，任意两个变量的cov(xi,xj)=0cov(x_i,x_j) = 0cov(xi,xj)=0，其中i≠ji \ne ji=j。
Σ=[σ1120⋯00σ222⋯0⋮⋮⋱⋮00⋯σnn2]\Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix}Σ=⎣⎢⎢⎢⎡σ1120⋮00σ222⋮0⋯⋯⋱⋯ 00⋮σnn2⎦⎥⎥⎥⎤
所以方程式1和方程式2是等价的，前者用元素表达，后者用矩阵表达。

信息论之KL散度来源

信息论的一个基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息[1]。
首先定义一个事件X=xX=xX=x的自信息(self-information)
I(x)=−log⁡P(x)I(x) = -\log P(x)I(x)=−logP(x)
其中I(x)的单位为奈特(net)，以e为底。一奈特表示以1e\frac{1}{e}e1的概率观测到一个事件的信息量。以2为底成为比特(bit)，或者香农(shannons)。
我们可以用香农熵来对整个概率分布中的不确定性总量进行量化：
H(x)=−Ex∼P[log⁡P(x)]H(x) = -E_{x\sim P}[\log P(x)]H(x)=−Ex∼P[logP(x)]

Jensen不等式

待续

The evidence lower bound

待续

[1] 深度学习