为什么要研究PLSA模型

PLSA模型是LDA模型先前的一个工作,理解PLSA模型有助于我们对LDA模型的理解。

每个生成过程都拥有一个固定概率。

特别感谢

本文是在上过张家俊老师的《文本数据挖掘》后有感所写,特别感谢老师的讲授。

PLSA的数学推导

一句话概括:

我们希望把文档集或单篇文章的生成概率表示出来,在分解得到对应的两个概率:主题生成文章、词生成主题。选择概率的前n个即可完成对文章的分解表示。

具体推导

由于已有很多的博客对PLSA和EM算法进行了充分介绍,因此本文主要对PLAS及其中使用的EM算法进行推导,不再做原理性上的解释。

我将根据自己的理解详细阐述每一步处理的motive

参数定义