EM算法原理及其在NLP中的应用

EM算法是一种迭代算法，全称为期望极大算法（expectation maximization algorithm），用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。

一、EM算法的原理

EM算法
输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z|θ)，条件分布P(Z|Y,θ)；
输出：模型参数θ
（1）选择参数的初值θ⁰，开始迭代；
（2）E步：记θⁱ为第i次迭代参数θ的估计值，在第i+1次迭代的E步，计算

这里，P(Z|Y,θⁱ)是在给定观测数据Y和当前的参数估计θⁱ下隐变量数据Z的条件概率分布；
（3）M步：求使Q(θ,θⁱ)极大化的θ，确定第i+1次迭代的参数的估计值θⁱ⁺¹

（4）重复第（2）步和第（3）步，直到收敛。
其中，函数Q(θ,θⁱ)是EM算法的核心，称为Q函数（Q function），是完全数据的对数似然函数logP(Y,Z|θ)关于在给定观测数据Y和当前参数θⁱ下对未知观测数据Z的条件概率分布P(Z|Y,θⁱ)的期望，即

EM算法与初值的选择有关，选择不同的初值可能得到不同的参数估计值。

二、EM算法在NLP自动文本分类中的应用

假设有N篇文本，对应N个向量，希望把它们分到K类中，而这K类的中心是。则利用EM算法进行分类的步骤如下：
（1）随机挑选K个点，作为起始的中心，如下图中各个点属于三个类，用黑十字代表随机指定的类的中心；

（2）计算所有点到这些聚类中心的距离，将这些点归到最近的一类中；

（3）重新计算每一类的中心。假定某一类中的v，每一个点有多个维度，即

最简单的办法就是用这些类的中心作为其中心，其中第i维的值为：

新的聚类中心和原先的相比会有一个位移，图27.2中用箭头表示了中心的移动，箭头指向处为新的聚类中心。
（4）重复上述过程，直到每次新的中心和旧的中心之间偏移非常非常小，即过程收敛。

以上便是EM算法在NLP自动文本分类中的应用。

三、EM算法的简单实例及其python实现

EM算法简单实例
（三硬币模型）假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是pro_A， pro_B，por_C。进行如下掷硬币试验：先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C；然后掷选出的硬币，掷硬币的结果，出现正面记作1，出现反面记作0；独立重复n次试验（这里n=10），观测结果如下：
1，1，0，1，0，0，1，0，1，1
假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

EM算法简单实例的python实现

import numpy as np
import math
#设A，B，C的初始值均为0.5
pro_A, pro_B, por_C = 0.5, 0.5, 0.5def pmf(i, pro_A, pro_B, por_C):pro_1 = pro_A * math.pow(pro_B, data[i]) * math.pow((1-pro_B), 1-data[i])pro_2 = pro_A * math.pow(pro_C, data[i]) * math.pow((1-pro_C), 1-data[i])return pro_1 / (pro_1 + pro_2)class EM:def __init__(self, prob):self.pro_A, self.pro_B, self.pro_C = prob# e步def pmf(self, i):pro_1 = self.pro_A * math.pow(self.pro_B, data[i]) * math.pow((1-self.pro_B), 1-data[i])pro_2 = (1 - self.pro_A) * math.pow(self.pro_C, data[i]) * math.pow((1-self.pro_C), 1-data[i])return pro_1 / (pro_1 + pro_2)# m步def fit(self, data):count = len(data)print('init prob:{}, {}, {}'.format(self.pro_A, self.pro_B, self.pro_C))for d in range(count):_ = yield_pmf = [self.pmf(k) for k in range(count)]pro_A = 1/ count * sum(_pmf)pro_B = sum([_pmf[k]*data[k] for k in range(count)]) / sum([_pmf[k] for k in range(count)])pro_C = sum([(1-_pmf[k])*data[k] for k in range(count)]) / sum([(1-_pmf[k]) for k in range(count)])print('{}/{}  pro_a:{:.3f}, pro_b:{:.3f}, pro_c:{:.3f}'.format(d+1, count, pro_A, pro_B, pro_C))self.pro_A = pro_Aself.pro_B = pro_Bself.pro_C = pro_C#输入数据1,1,0,1,0,0,1,0,1,1
data=[1,1,0,1,0,0,1,0,1,1]print('----------初始值情况1----------')
em = EM(prob=[0.5, 0.5, 0.5])
f = em.fit(data)
next(f)
# 第一次迭代
print('----------第一次迭代结果----------')
f.send(1)
# 第二次迭代
print('----------第二次迭代结果----------')
f.send(2)print('----------初始值情况2---------')
#将A，B，C的初始值改为0.4, 0.6, 0.7
em = EM(prob=[0.4, 0.6, 0.7])
f2 = em.fit(data)
next(f2)
# 第一次迭代
print('----------第一次迭代结果----------')
f2.send(1)
# 第二次迭代
print('----------第二次迭代结果----------')
f2.send(2)

运行结果：

----------初始值情况1----------
init prob:0.5, 0.5, 0.5
----------第一次迭代结果----------
1/10  pro_a:0.500, pro_b:0.600, pro_c:0.600
----------第二次迭代结果----------
2/10  pro_a:0.500, pro_b:0.600, pro_c:0.600
----------初始值情况2----------
init prob:0.4, 0.6, 0.7
----------第一次迭代结果----------
1/10  pro_a:0.406, pro_b:0.537, pro_c:0.643
----------第二次迭代结果----------
2/10  pro_a:0.406, pro_b:0.537, pro_c:0.643

参考资料：
《统计学习方法》------李航
《数学之美》------吴军