LDA应用场景

  • 可以做文本内容提取,比如提取“穆斯林的葬礼”的主题,可能会提取出爱情主题,社会悲剧主题,比如提取“大圣归来影评”的主题,可能提取出怀旧主题,制作精良主题。而每个主题是用一些词语表示的,并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义,可以通过主题词语自己主观猜测,或者把主题词语溯源到文本,自己读读文本总结。

名词介绍

  • 在贝叶斯概率理论中,如果后验概率p(θ│x) 和先验概率p(θ) 满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)
  • p(x|θ): 似然分布,为啥叫似然,似然,像什么什么的样子,X这个变量像什么什么的样子时候的概率就叫似然概率呗,在这里x为词语属于某个主题的次数。
  • p(θ): 在这里θ是主题概率,比如一共三个主题,文本的主题分布有可能是(0.1,0.1,0.8),也有可能是(0.2,0.2,0.6),用(θ1,θ2,1-θ1-θ2)代替,那么θ1,θ2的分布函数就是p(θ)。为啥叫先验分布,没给任何信息时候(文本里每个词属于哪个主题未知)时候,可能的主题分布就叫先验分布。
  • p(θ│x): 为啥后验分布,因为这是给定x时(词语属于某个主题的次数)的主题分布。
  • 为啥p(θ)构造成Dirichlet分布? 不让他是喜闻乐见的正态分布?
    因为简单,工程构造的;正态分布的定义域是实数域的,而θ的取值只能从0到1的。

调参时∂的含义

  • 工程构造了主题概率θ服从狄利克雷分布,即如下,k个参数∂预测k-1个参数p(如下公式里的p就是这里的θ),我们实际调参的时候,参数是(∂,k),即令所有∂都相等,这时的狄利克雷分布被称为对称狄利克雷分布
  • 图1来自:邹博的机器学习课程
    图像说明: 将dirichlet分布的概率密度函数取对数,绘制对称dirichlet分布的图像,取k=3,即底下两个坐标为θ1和θ2,∂1=∂2=∂3=∂
    ∂=1时,dirichlet分布变为均匀分布,所有的点被选到的概率相同
    ∂>1时,更容易取到中间的点,因为概率最大,此时θ1=θ2=θ3的那些点更容易被取到
    ∂<1时,更容易取到是边上那三个高的点,此时θ (i)=1,其他的概率为0
    即若输出的主题不鲜明时,可以把∂调成小于1的值

LDA是如何由文本得到主题词及每篇文档的主题分布呢

令这批文本一共有3个主题,每个主题用6个词表示,即每个主题都是6个主题词.

优缺点

  • 优点:能解决一次多义和多词一义的问题。
  • 缺点:文本颠倒顺序后不影响最后的结果。

实际工程经验

我曾经做过一个30w条样本,每条内容在100字左右的文本内容提取,发现调不调参无所谓,主题都很鲜明,提取出来的主题也的确是真实的主题。
之前写过的案例

我对隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的理解相关推荐

  1. 隐含狄利克雷分布(Latent Dirichlet Allocation)

    隐含狄利克雷分布(Latent Dirichlet Allocation,   注意机器学习还有一个LDA,即线性判别分析(线性判别分析https://blog.csdn.net/qq_3529078 ...

  2. Dirichlet Distribution狄利克雷分布 / Latent Dirichlet Allocation (LDA)隐藏狄利克雷概念的理解

    目录: Dirichlet Distribution 狄利克雷分布 Bayesian Generative Models 贝叶斯生成模型 Mixture Models and the EM algor ...

  3. Latent Dirichlet Allocation (LDA)

    文章目录 LDA可以用来干什么? LDA模型简单引入与贝叶斯估计 二项分布与多项分布 共轭分布 MCMC采样 MCMC = Markov Chain(马尔科夫链)+ Monte Carlo(蒙特卡洛) ...

  4. 【LDA学习系列】Latent Dirichlet Allocation主题模型理解

    LDA关键理解两点:1)Dirichret分布(理解共轭性):2)Gibbs采样. 个人觉得博客:https://blog.csdn.net/aws3217150/article/details/53 ...

  5. “西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

    功能 输出影评主题: 输出每份评论在各个主题上的权重分布. 工具 python2 spark2.0.2 引言 在机器学习中,LDA是两个常用模型的简称:线性判别分析(Linear Discrimina ...

  6. 简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

    引言 LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的 ...

  7. Latent dirichlet allocation note

    2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型.生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由 ...

  8. 狄利克雷分布公式_一文详解隐含狄利克雷分布(LDA)

    一.简介 隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是由DavidM.Blei.AndrewY.Ng.MichaelI.Jordan在2003年提出的,是一种词 ...

  9. R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

    文本分析:主题建模 library(tidyverse) theme_set( theme_bw()) 目标 定义主题建模 解释Latent Dirichlet以及此过程的工作原理 演示如何使用LDA ...

  10. 潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

    文章目录 1. 狄利克雷分布 2. 潜在狄利克雷分配模型 3. 学习推理 4. sklearn.decomposition.LatentDirichletAllocation 潜在狄利克雷分配(lat ...

最新文章

  1. 谷歌又一部门震荡:半年2名副总出走,开发团队只剩一半
  2. 第五章 业务架构,5.3 千亿访问量下的开放平台技术揭秘(作者:风胜)
  3. Kinesis、Streams and Firehose
  4. grunt使用watch和livereload的Gruntfile.js的配置
  5. 【图像处理opencv】_Jupyter基本操作
  6. 小米4刷centos_给大家推荐两款小米的产品
  7. ssh sftp 免密码 公钥登录
  8. 将一个十进制转换为二进制,八进制,十六进制
  9. Git(12)-- Git 分支 - 分支简介
  10. 如何在在线直播网站源码中,实现视频连麦直播?
  11. 使用 Kotlin 读取本地视频并使用Vitamio框架编写万能播放器进行播放(二)
  12. 【Visual C++】游戏开发笔记三十五 站在巨人的肩膀上:游戏引擎导论
  13. vs2013连接access2016
  14. Bandit算法学习[网站优化]02——epsilon-Greedy 算法
  15. a different object with the same identifier value was already associated whith
  16. RSA中的中国剩余定理(CRT)和多素数(multi-prime)
  17. app inventor学习平台和AI伴侣
  18. 山东春考计算机专业本科学校排名,山东春考大学本科排名及名单
  19. MySQL 简洁速查手册
  20. ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构

热门文章

  1. 使用lifecycle时,1.0.0和1.0.3问题解决方法
  2. Kafka学习之监控
  3. 笔记本电脑怎么查看是不是激活了屏幕
  4. java 超时重试机制_Java之Retry重试机制详解
  5. 如何用免费版EssentialPIM Pro Business管理你的个人信息V11.1
  6. 日常小结-关于模拟登陆的小结-抓包、cookie、session和token
  7. 混淆包含SlidingMenu、gson等Android代码的proguard写法
  8. 在加入ALL函数后,CALCULATE函数内外筛选器的交互过程
  9. Neighbor2Neighbor:从单个噪声图像进行自监督去噪
  10. docker2048游戏