高斯混合模型与EM算法求解

高斯混合模型

文章目录

高斯混合模型
EM算法
高斯混合模型参数估计
- 1、样本分类已知情况下的GMM
- 2、样本分类未知的情况下的GMM

混合模型是一个用来表示在总体分布中含有K个子分布的概率模型，也就是说，混合模型表示了观测数据在总体中的概率分布，它由K个子分布组成的混合分布。

高斯混合模型可以看作是由K个单高斯模型组合而成的模型

定义如下：

高斯混合模型的概率分布为：

对于单高斯模型，可以用最大似然法估计参数θ\thetaθ的值

取对数，连乘转换为连加

对于高斯混合模型，对数似然则为：

EM算法

例子：

EM算法详解+通俗例子理解_呆呆象呆呆的博客-CSDN博客_em算法实例

对于M个相互独立的样本 x=(x(1),x(2),...,x(m))x=(x^{(1)},x^{(2)},...,x^{(m)})x=(x(1),x(2),...,x(m))，对应的隐含数据z=(z(1),z(2),..,z(m))z=(z^{(1)},z^{(2)},..,z^{(m)})z=(z(1),z(2),..,z(m))，此时(x,z)(x,z)(x,z)为完全数据，则观测数据x(i)x^{(i)}x(i)的概率为P(x(i)∣θ)P(x^{(i)}|\theta)P(x(i)∣θ)，完全数据(x(i),z(i))(x^{(i)},z^{(i)})(x(i),z(i))的似然函数为P(x(i),z(i)∣θ)P(x^{(i)},z^{(i)}|\theta)P(x(i),z(i)∣θ)

关于隐含数据分布Qi(z(i))Q_i(z^{(i)})Qi(z(i))，∑zQi(z)=1,Qi(z)∈[0,1]\sum_zQ_i(z)=1, Q_i(z)\in [0,1]∑zQi(z)=1,Qi(z)∈[0,1]

可以把上式Qi(z)Q_i(z)Qi(z)看成概率

用到了Jensen不等式

由JensenJensenJensen不等式可知，等式成立的条件是随机变量时常数，则有

对于任意的i，我们得到

方程两边同时累加和：

E步：计算联合分布的条件概率期望：

根据参数的初始值或上一次迭代的模型参数来计算隐含变量的后验概率，其实就是隐含变量的期望值。

M步：极大化L(θ)L(\theta)L(θ)，得到θ\thetaθ

首先我们固定 θ\thetaθ，调整Q(z)Q ( z )Q(z) 使下界J(z,Q)J ( z , Q )J(z,Q) 上升至与L(θ)L ( θ )L(θ) 在此点θ\thetaθ处相等，然后固定Q(z)Q ( z )Q(z)，调整θ\thetaθ使下界J(z,Q)J ( z , Q )J(z,Q) 达到最大值θt\theta_tθt

高斯混合模型参数估计

1、样本分类已知情况下的GMM

设样本容量为N，总类别为K，属于K个分类的样本数量分别是N1,N2,...,NKN_1,N_2,...,N_KN1,N2,...,NK

属于第k个分类的样本集合为L(k)L(k)L(k)

第k个类别的概率 αk=NkN\alpha_k=\frac{N_k}{N}αk=NNk

第k类的均值 μk=1Nk∑x∈L(x)x\mu_k = \frac{1}{N_k}\displaystyle\sum_{x\in L(x)}xμk=Nk1x∈L(x)∑x

第k类的协方差： Σk=1Nk∑x∈L(x)(x−μk)(x−μk)T\Sigma_k = \frac{1}{N_k}\displaystyle\sum_{x\in L(x)}(x-\mu_k)(x-\mu_k)^TΣk=Nk1x∈L(x)∑(x−μk)(x−μk)T

2、样本分类未知的情况下的GMM

论文中：

logL(θ)=∑n=1Nlog∑k=1KπkN(Rn∣0,Σk)logL(\theta)=\displaystyle\sum^N_{n=1}log\displaystyle\sum^K_{k=1}\pi_kN(R_n|0,\Sigma_k)logL(θ)=n=1∑Nlogk=1∑KπkN(Rn∣0,Σk)

NNN为样本的个数，KKK为子高斯的个数，πk\pi_kπk为混合系数，RnR_nRn为第n个样本的雨线

E步：

假设模型参数已知的情况下求隐含变量z，E步就是求R由各个子高斯生成的概率

γnk\gamma_{nk}γnk就是样本n属于第k个高斯的概率

M步：

属于第k个高斯的总个数（概率）:<img

属于第K类的期望：

                                          $\mu_k=\frac{1}{N_k}\displaystyle\sum^N_{n=1}\gamma_{nk}R_n$

属于第K类的方差：
通过最大似然调整每个高斯的均值方差。

通过最大似然调整每个高斯的均值方差。