潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）

文章目录

1. 狄利克雷分布
2. 潜在狄利克雷分配模型
3. 学习推理
4. sklearn.decomposition.LatentDirichletAllocation

潜在狄利克雷分配（latent Dirichlet allocation，LDA），作为基于 贝叶斯学习的话题模型，是潜在语义分析、概率潜在语义分析的扩展，于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型

假设每个文本由话题的一个多项分布表示
每个话题由单词的一个多项分布表示
特别假设文本的话题分布的先验分布是狄利克雷分布
话题的单词分布的先验分布也是狄利克雷分布
先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象

LDA的文本集合的生成过程如下：

首先随机生成一个文本的话题分布
之后在该文本的每个位置，依据该文本的话题分布随机生成一个话题
然后在该位置依据该话题的单词分布随机生成一个单词
直至文本的最后一个位置，生成整个文本。重复以上过程生成所有文本

LDA模型是含有隐变量的概率图模型

模型中，每个话题的单词分布，每个文本的话题分布，文本的每个位置的话题是隐变量
文本的每个位置的单词是观测变量
LDA模型的学习与推理无法直接求解，通常使用吉布斯抽样（Gibbs sampling）和变分EM算法（variational EM algorithm），前者是蒙特卡罗法，而后者是近似算法

1. 狄利克雷分布

狄利克雷分布（Dirichlet distribution）是一种多元连续随机变量的概率分布，是贝塔分布（beta distribution）的扩展。在贝叶斯学习中，狄利克雷分布常作为多项分布的先验分布使用。

定义：

多元连续随机变量 θ=(θ1,θ2,...,θk)\theta = (\theta_1,\theta_2,...,\theta_k)θ=(θ1,θ2,...,θk) 的概率密度函数为：
p(θ∣α)=Γ(∑i=1kαi)∏i=1kΓ(αi)∏i=1kθiαi−1∑i=1kθi=1,θi≥0,αi>0,记作θ∼Dir(α)p(\theta|\alpha) = \frac{\Gamma \bigg(\sum\limits_{i=1}^k \alpha_i\bigg)}{\prod\limits_{i=1}^k \Gamma(\alpha_i)} \prod\limits_{i=1}^k \theta_i^{\alpha_i-1}\quad \sum\limits_{i=1}^k \theta_i = 1, \theta_i\ge 0,\alpha_i >0,记作\theta \sim Dir(\alpha)p(θ∣α)=i=1∏kΓ(αi)Γ(i=1∑kαi)i=1∏kθiαi−1i=1∑kθi=1,θi≥0,αi>0,记作θ∼Dir(α)
伽马函数，Γ(s)=∫0∞xs−1e−xdx,s>0伽马函数，\Gamma(s) = \int_0^{\infty} x^{s-1}e^{-x}dx, \quad s>0伽马函数，Γ(s)=∫0∞xs−1e−xdx,s>0
伽马函数性质：
Γ(s+1)=sΓ(s)\Gamma(s+1) = s\Gamma(s)Γ(s+1)=sΓ(s)
当 sss 是自然数时，有 Γ(s+1)=s!\Gamma(s+1) = s!Γ(s+1)=s!

2. 潜在狄利克雷分配模型

LDA模型是概率图模型：

特点：以狄利克雷分布为多项分布的先验分布
学习：就是给定文本集合，通过后验概率分布的估计，推断模型的所有参数

利用LDA进行话题分析，就是对给定文本集合，学习到每个文本的话题分布，以及每个话题的单词分布。

可以认为LDA是PLSA（概率潜在语义分析）的扩展
相同点：两者都假设话题是单词的多项分布，文本是话题的多项分布
不同点：LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布（或者说假设先验分布是均匀分布），两者对文本生成过程有不同假设
学习过程：LDA基于贝叶斯学习，而PLSA基于极大似然估计
LDA的优点是：使用先验概率分布，可以防止学习过程中产生的过拟合（over-fitting）

3. 学习推理

LDA模型的学习与推理不能直接求解。

通常采用的方法是吉布斯抽样算法和变分EM算法
前者是蒙特卡罗法，而后者是近似算法

4. sklearn.decomposition.LatentDirichletAllocation

sklearn.decomposition.LatentDirichletAllocation官网介绍

class sklearn.decomposition.LatentDirichletAllocation(n_components=10,
doc_topic_prior=None, topic_word_prior=None, learning_method='batch',
learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128,
evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1,
mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0,
random_state=None)

n_components, optional (default=10)，话题数量

实践参考：https://www.cnblogs.com/pinard/p/6908150.html