浅谈EM算法的两个理解角度

EM算法即“期望极大算法”。
EM算法分两步：E步求期望，M步求极大。
但是期望是求谁的期望，极大是求谁的极大呢？这里面其实有两种解读角度。

“通俗”角度

通俗角度的话，求极大肯定是求似然函数的极大了，而且一般都是对数似然。我们一般解决模型参数求解问题，都是在给定数据的情况下，求解使得似然函数最大的参数的取值。用公式表示就是：
θ^=argmax⁡θlogP(X∣θ)\hat{\theta}= arg\ \max_\theta\ log\ P(X|\theta)θ^=arg θmax log P(X∣θ)
通常的做法是对似然函数求偏导，然后令偏导等于零，参数取得的数值就是近似最优值。但是，有些含有隐变量的模型没办法直接进行似然函数的偏导，但是如果假设已经知道隐变量的值，就可以将似然函数简化进行下一步的求偏导。
因此，我们需要引入一个隐变量，求这个隐变量的期望就成了这种理解角度下E步骤。然后将隐变量的期望代入到经过隐变量改写的对数似然函数中，就可以按照通常的极大似然估计求解参数了。不过需要不断迭代才能达到近似最优。

总结起来，这种角度的EM算法框架如下：

循环体
{E-step：求在观测数据的前提下隐变量的期望；
M-step：求经过隐变量改写的似然函数的极大；
}
end

这种角度的好处是由一般的极大似然估计自然地引入到EM方法，比较容易理解；但是缺点是一般很难写出引入隐变量的似然函数的改写。实际上，这种改写很多情况下是依据EM算法的另一个理解角度而直接写出来的。

“正式”角度

看过EM算法推导过程的朋友应该都知道，有一个概念叫做“Q函数”；还有EM算法是通过不断求解下界的极大化逼近求解对数似然函数的极大化。那么，这个Q函数是怎么来的呢？EM算法是怎么不断求解下界的极大化呢？

EM算法通过迭代逐步近似极大化L(θ)L(\theta)L(θ)。假设在第i次迭代后θ\thetaθ的估计值是θ(i)\theta^{(i)}θ(i)。我们希望新估计值θ\thetaθ能使L(θ)L(\theta)L(θ)增加，即L(θ)>L(θ(i))L(\theta)>L(\theta^{(i)})L(θ)>L(θ(i))，并逐步达到极大值。为此，考虑两者的差：

L(θ)−L(θ(i))L(\theta)-L(\theta^{(i)})L(θ)−L(θ(i))
然后，利用Jensen不等式得到其下界：B(θ,θ(i))B(\theta,\theta^{(i)})B(θ,θ(i))具体怎么得到的可以参考《统计学习方法》。
因此，任何可以使B(θ,θ(i))B(\theta,\theta^{(i)})B(θ,θ(i))增大的θ\thetaθ，也可以使L(θ)L(\theta)L(θ)增大。为了使L(θ)L(\theta)L(θ)有尽可能的增长，选择θ(i)\theta^{(i)}θ(i)使B(θ,θ(i))B(\theta,\theta^{(i)})B(θ,θ(i))达到极大。在使B(θ,θ(i))B(\theta,\theta^{(i)})B(θ,θ(i))达到极大的过程中，省去对θθ的极大化而言是常数的项，剩下的部分，我们给它起了一个名字，就叫做：Q函数。

从形式上看，Q函数是完全数据的对数似然函数关于在给定观测数据和当前参数下对未观测数据的条件概率分布的期望。

总结起来，这种角度的EM算法框架如下：

循环体
{E-step：求Q函数；
M-step：求使Q函数极大的当前参数的取值；
}
end

这里面有几个细节需要说明一下;

细节一：

在使用Jensen不等式的时候，需要假设隐变量服从某种形式的概率分布，才可以将推导过程的一部分看成是期望的表达形式从而应用Jensen不等式。然而这个分布不是随便指定的。我们令Jensen不等式取等号的时候，可以计算出这个分布其实就是：已知观测数据的隐变量的后验概率分布。由于求Q函数需要先求出隐变量的后验概率的期望，因此，这就可以解释为什么EM算法的“通俗”理解角度的E步骤是求隐变量的期望了。

细节二：Q函数与完全数据的对数似然函数的关系

有时候在用EM算法解决某个具体问题的时候，会发现M步骤极大化的居然是完全数据的对数似然函数。这是因为，Q函数虽然是完全数据的对数似然函数的某种期望，但是求这个期望的过程有时其实就是将隐变量的后验概率的期望代入就可以了。因此，本质上我们其实还是在求Q函数的极大。