我对隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）的理解

LDA应用场景

可以做文本内容提取，比如提取“穆斯林的葬礼”的主题，可能会提取出爱情主题，社会悲剧主题，比如提取“大圣归来影评”的主题，可能提取出怀旧主题，制作精良主题。而每个主题是用一些词语表示的，并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义，可以通过主题词语自己主观猜测，或者把主题词语溯源到文本，自己读读文本总结。

名词介绍

在贝叶斯概率理论中，如果后验概率p(θ│x) 和先验概率p(θ) 满足同样的分布律，那么先验分布和后验分布被叫做共轭分布，同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)
p(x|θ)： 似然分布，为啥叫似然，似然，像什么什么的样子，X这个变量像什么什么的样子时候的概率就叫似然概率呗，在这里x为词语属于某个主题的次数。
p(θ)： 在这里θ是主题概率，比如一共三个主题，文本的主题分布有可能是（0.1,0.1,0.8），也有可能是（0.2,0.2,0.6），用（θ1，θ2，1-θ1-θ2）代替，那么θ1，θ2的分布函数就是p(θ)。为啥叫先验分布，没给任何信息时候（文本里每个词属于哪个主题未知）时候，可能的主题分布就叫先验分布。
p(θ│x)： 为啥后验分布，因为这是给定x时(词语属于某个主题的次数)的主题分布。
为啥p(θ)构造成Dirichlet分布？ 不让他是喜闻乐见的正态分布？
因为简单，工程构造的；正态分布的定义域是实数域的，而θ的取值只能从0到1的。

调参时∂的含义

工程构造了主题概率θ服从狄利克雷分布，即如下，k个参数∂预测k-1个参数p(如下公式里的p就是这里的θ)，我们实际调参的时候，参数是（∂，k）,即令所有∂都相等，这时的狄利克雷分布被称为对称狄利克雷分布。
图1来自：邹博的机器学习课程
图像说明： 将dirichlet分布的概率密度函数取对数，绘制对称dirichlet分布的图像，取k=3,即底下两个坐标为θ1和θ2，∂1=∂2=∂3=∂
∂=1时，dirichlet分布变为均匀分布，所有的点被选到的概率相同
∂>1时，更容易取到中间的点，因为概率最大，此时θ1=θ2=θ3的那些点更容易被取到
∂<1时，更容易取到是边上那三个高的点，此时θ (i)=1，其他的概率为0
即若输出的主题不鲜明时，可以把∂调成小于1的值

LDA是如何由文本得到主题词及每篇文档的主题分布呢

令这批文本一共有3个主题，每个主题用6个词表示，即每个主题都是6个主题词.

优缺点

优点：能解决一次多义和多词一义的问题。
缺点：文本颠倒顺序后不影响最后的结果。

实际工程经验

我曾经做过一个30w条样本，每条内容在100字左右的文本内容提取，发现调不调参无所谓，主题都很鲜明，提取出来的主题也的确是真实的主题。
之前写过的案例

我对隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）的理解相关推荐

隐含狄利克雷分布(Latent Dirichlet Allocation）
隐含狄利克雷分布(Latent Dirichlet Allocation, 注意机器学习还有一个LDA,即线性判别分析(线性判别分析https://blog.csdn.net/qq_3529078 ...
Dirichlet Distribution狄利克雷分布 / Latent Dirichlet Allocation （LDA）隐藏狄利克雷概念的理解
目录: Dirichlet Distribution 狄利克雷分布 Bayesian Generative Models 贝叶斯生成模型 Mixture Models and the EM algor ...
Latent Dirichlet Allocation (LDA)
文章目录 LDA可以用来干什么? LDA模型简单引入与贝叶斯估计二项分布与多项分布共轭分布 MCMC采样 MCMC = Markov Chain(马尔科夫链)+ Monte Carlo(蒙特卡洛) ...
【LDA学习系列】Latent Dirichlet Allocation主题模型理解
LDA关键理解两点:1)Dirichret分布(理解共轭性):2)Gibbs采样. 个人觉得博客:https://blog.csdn.net/aws3217150/article/details/53 ...
“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation
功能输出影评主题: 输出每份评论在各个主题上的权重分布. 工具 python2 spark2.0.2 引言在机器学习中,LDA是两个常用模型的简称:线性判别分析(Linear Discrimina ...
简单易学的机器学习算法——Latent Dirichlet Allocation（理论篇）
引言 LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的 ...
Latent dirichlet allocation note
2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型.生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由 ...
狄利克雷分布公式_一文详解隐含狄利克雷分布（LDA）
一.简介隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是由DavidM.Blei.AndrewY.Ng.MichaelI.Jordan在2003年提出的,是一种词 ...
R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）
文本分析:主题建模 library(tidyverse) theme_set( theme_bw()) 目标定义主题建模解释Latent Dirichlet以及此过程的工作原理演示如何使用LDA ...
潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）
文章目录 1. 狄利克雷分布 2. 潜在狄利克雷分配模型 3. 学习推理 4. sklearn.decomposition.LatentDirichletAllocation 潜在狄利克雷分配(lat ...

我对隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）的理解

LDA应用场景

名词介绍

调参时∂的含义

LDA是如何由文本得到主题词及每篇文档的主题分布呢

优缺点

实际工程经验

我对隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）的理解相关推荐

最新文章

热门文章