高斯-赛得尔迭代式 c++_高斯混合模型(Gaussian Mixture Model)与EM算法原理(一)

高斯混合模型(Gaussian Mixture Model)是机器学习中一种常用的聚类算法，本文介绍了其原理，并推导了其参数估计的过程。主要参考Christopher M. Bishop的《Pattern Recognition and Machine Learning》。

以粗体小写字母表示向量，粗体大写字母表示矩阵；标量不加粗，大写表示常数。

1. 高斯分布

高斯分布(Gaussian distribution)，也称为正态分布(normal distribution)，是一种常用的连续变量分布的模型。若单个随机变量

服从均值为

，方差为

的高斯分布，记为

，则其概率密度函数为：

对于一个

维的向量

，若其各元素服从均值为向量

，协方差矩阵为

的多元高斯分布，记为

，则概率密度为：

其中

为

维均值向量，

为

的协方差矩阵，

表示

的行列式。

(1)式中，指数部分的二次型

称为

到

的马哈拉诺比斯距离(马氏距离，Mahalanobis distance)；当

为单位矩阵时退化为欧几里得距离(Euclidean distance)。多元高斯分布密度函数的等高线即

为常数时

的方程，是椭球方程(Ellipsoid - Wikipedia)。

2. 高斯混合模型(Gaussian Mixture Model)

多个高斯分布的线性叠加能拟合非常复杂的密度函数；通过足够多的高斯分布叠加，并调节它们的均值，协方差矩阵，以及线性组合的系数，可以精确地逼近任意连续密度([1], Section 2.3.9, p111)。

我们考虑

个高斯分布的线性叠加，这个高斯混合分布(Gaussian mixture distiburion)的概率密度函数为：

其中，

表示参数为

的高斯分布的概率密度。

我们称(2)式为一个高斯混合(Mixture of Gaussians, Gaussian Mixture)。其中每个高斯密度函数称为混合的一个分模型(component)，有自己的均值

和协方差矩阵

。

(2)式中的参数

是模型的混合系数(mixing coefficients)。将(2)式左右两侧对

积分，得到

此外，由于

，

，所以

。即混合系数应满足

。

(更一般地，混合模型也可以是其他任意分布的叠加。)

由全概率公式，

的边缘分布(marginal distribution)的概率密度为：

上式与(2)式等价，其中

可以看作选择第

个分模型的先验概率(prior probability)，

是

对

的条件概率密度。

在观测到

后，其来自第

个分模型的后验概率(posterior probability)

称为第

个分模型的响应度(responsibility)。

下图所示为包含两个一维分模型的高斯混合：

两个一维分模型的高斯混合

3. 隐变量 & 完全数据

引入一个

维的二值型随机变量

，来表示样本

由哪一分模型产生。

满足这样的条件：

，且

，即其

个元素中，有且只有一个为1，其余为0。

表示样本

由分模型

抽样得到。可以看出，

一共有

种可能的状态。

的边缘分布由混合系数给出：

。也可写成如下形式：

考虑由以下方式产生样本

：

先以离散分布

抽样得到变量

；
设根据
的取值选择了第

个分模型，则以高斯分布

抽样得到

。

记高斯混合模型的参数为

，

，则这个过程可由如下的graphical model表示[1]：

高斯混合模型的graphical model

变量

称为隐变量(latent variable)，包含

取值的样本称为完全数据(complete data)，只含有

取值的样本称为不完全数据(incomplete data)，

给定

后

的条件概率密度为：

或者写成如下形式：

的边缘分布为联合概率分布

对

的所有可能状态求和：

也可由下面的式子得到：

这表明

的边缘分布就是高斯混合的形式。

4. 后验概率 & 响应度

根据贝叶斯定理(Bayes' theorem - Wikipedia)，观测到

后，其来自第

个分模型的后验概率(posterior responsibility)为：

上式中，

和

为概率，

和

为概率密度。

将上式定义为：

，称为第

个分模型对

的响应度(responsibility)[2]。

对于样本集

，记

对应的隐变量为

，

，则第

个分模型对

的响应度为：

5. 对数似然函数 & 最大似然估计

现在有一个样本集

，我们假设

是由一个高斯混合模型产生的，要估计这个模型的参数：

，

。

样本集

(不完全数据)的似然函数(likelihood function)为：

似然函数中的连乘求导比较麻烦，取自然对数将其转换成对数的和，得到对数似然函数(the log of the likelihood function)：

其中，

最大似然估计(maximum likelihood estimation)，即通过求似然函数的最大值来估计概率模型的参数。用最大似然估计来计算高斯混合模型的参数，形成如下的优化问题：

采用拉格朗日乘子法来求极值，拉格朗日函数为：

先将

对

求梯度。因为

所以，

注意上式中

即为响应度

，所以有：

令

，则

，

左乘

，整理得

定义

，则

可理解为被分配到第

个分模型(聚类)的“有效“的样本数。

对

中各元素求偏导：

接下来涉及矩阵求导(Matrix calculus - Wikipedia)，要复杂一些，这里不做推导，按参考文献[1]Chapter 9的公式(9.19)，给出

的结果：

对

求偏导并令其为0：

注意到上式左右两边乘以

可凑出

，所以有

上式对

求和得

又

所以

，进而

。

综上，对数似然函数

的极值点满足的条件为：

需要注意的是，上式并未给出高斯混合模型的解析解/闭式解(analytical soluiton/closed-form solution)，因为响应度

由式(4)给出，而参数

未知，故

无法计算。

不过，根据(6)式可使用迭代算法来计算模型参数。

6. EM算法计算高斯混合模型的参数见后续。

参考文献

[1] Christopher M. Bishop. Pattern Recognition and Machine Learning, Springer, 2006.

[2] 李航，统计学习方法，清华大学出版社，2012年。