Latent dirichlet allocation note

2 Latent Dirichlet Allocation Introduction

LDA是给文本建模的一种方法，它属于生成模型。生成模型是指该模型可以随机生成可观测的数据，LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模，我们可以对文本进行主题分类，判断相似度等。在90年代提出的LSA中，通过对向量空间进行降维，获得文本的潜在语义空间。在LDA中则是通过将文本映射到主题空间，即认为一个文章有若干主题随机组成，从而获得文本间的关系。LDA模型有一个前提：bag of word。意思就是认为文档就是一个词的集合，忽略任何语法或者出现顺序关系。

3 生成模型

LDA的建模过程是逆向通过文本集合建立生成模型，在讨论如何建模时，我们先要理解LDA的生成模型如何生成一篇文档。

假设一个语料库中有三个主题：体育，科技，电影

一篇描述电影制作过程的文档，可能同时包含主题科技和主题电影，而主题科技中有一系列的词，这些词和科技有关，并且他们有一个概率，代表的是在主题为科技的文章中该词出现的概率。同理在主题电影中也有一系列和电影有关的词，并对应一个出现概率。当生成一篇关于电影制作的文档时，首先随机选择某一主题，选择到科技和电影两主题的概率更高；然后选择单词，选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不断选择N个单词，这样就组成了一篇文档。

具体来说，生成一篇文档按照如下步骤：

1. 选择N，N服从Poisson(ξ)分布，这里N代表文档的长度。

2. 选择θ，θ服从Dirichlet(α)分布，这里θ是列向量，代表的是个主题发生的概率，α是dirichlet分布的参数

3. 对N个单词中的每一个:

a) 选择主题z_n，z_n服从Multinomial(θ)多项分布。z_n代表当前选择的主题

b) 选择w_n，根据p(w_n | z_n; β)：在z_n条件下的多项分布。

上式中β是一个K x V的矩阵，β_ij = P(w^j = 1 | zⁱ = 1)，也就是说β记录了某个主题条件下生成某个单词的概率。

观察第二步，这里是LDA和PLSA的区别所在。假设每篇文档由3个主题组成，θ就表明每个主题发生的概率，比如{1/6,2/6,3/6}，这样不同的文档对应的θ也就不同，而θ可以用来判断文档的相似度等。

变量名	Paper中对应的变量	型式
beta	β	二维数组，行代表单词，列代表主题，矩阵单元代表某主题生成某词的概率
alpha	α	数组，对应dirichlet分布的参数
nclass	k	整数，代表主题数，这个是由用户设置的值
gamma	γ	一维数组，variational inference中后验dirichlet分布的参数
gammas	充分统计量	一维数组，形式同gamma，用于在m-step估计alpha的值
q	φ	二维数组，行代表文档里的单词，列代表主题，矩阵单元代表文档中某主题生成某词的概率
betas	充分统计量	二维数组，形式同q，该变量用于在e-step统计信息，供m-step估计 β使用。

Latent dirichlet allocation note

Latent dirichlet allocation note相关推荐

最新文章

热门文章