定义

对于一个文档集合来说,假如一篇文章是讲猫科动物的,那么可能会一部分讲猫, 一部分讲老虎, 一部分讲猎豹。那么讲猫的那一部分与猫有关的词语出现的频率应该高一些,比如“鱼”,“老鼠”等,讲老虎的那一部分与老虎有关的词语出现的频率应该高些,比如“森林之王”,“一山不容二虎”等,讲猎豹那一部分与猎豹有关的词语出现的频率应该高些,比如"速度",“豹纹”等等。所以一篇文档应该有多个主题,每个主题的比例不同,每一个主题下面也应该有很多词语,每个词语的比例也不同。

主题模型就是用数学框架来体现出文档的这种特点,主题模型自动分析每篇文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

从上面的定义可以看出,主题模型其实主要在学习两个分布,文档-主题分布(doc-topic)和主题-词分布(topic-word)。既然是分布就要满足两个条件,第一是非负性,第二是积分或者求和为1。也就是doc-topic矩阵或topic-word矩阵中,任意一行元素均为非负数且元素和为1。

研究模型

对于主题模型的研究其实很早就开始了,传统的代表性研究方法主要包括3个:潜在语义索引(LSA或LSI),概率性潜在语义索引(PLSA或PLSI)和隐含狄利克雷分配(LDA)。
上面三个模型分别与1998年,1999年和2003年提出,查资料发现,LDA的提出者里还有吴恩达。

后面的很多模型其实都是在LDA的基础上做的改进,主要有下面两个。

LDA也有一些缺点,比如LDA无法建模主题之间的相关性,所以有人针对这个问题于2007年提出了correlated topic model。LDA是无监督模型,但是有一些文本是有标签的,比如论文有关键词,那么关键词应该对主题有一定的约束,有人针对这个问题于2009年提出了Labeled LDA。

15年之后深度学习就开始大火了,所以有人将LDA和变分自编码器结合起来,使用神经网络来求解变分参数。主流的模型有NVDM,prodLDA和NTMR,分别于16年,17年,18年发表在ICML,ICLR和EMNLP上面。

下面我会分别更新LSA,PLSA和LDA等主题模型的讲解。

主题模型简介(topic model)相关推荐

  1. 双稀疏主题模型(Dual-Sparse Topic Model)编程实现中的细节 Java

    本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com . 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 相关介绍 单稀疏模型 双稀 ...

  2. 主题模型简介(Topic Models)

    主题模型简介(Topic Models) 要想更好地管理当今爆炸式的电子文档档案,需要使用新的技术或工具来处理自动组织.搜索.索引和浏览大型电子文档集合.在当今机器学习和统计学研究的基础上,利用层次概 ...

  3. LDA主题模型简介及Python实现

    一.LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类. LDA主题模型不关心文档中单词的顺序,通常使用词袋特 ...

  4. 作者主题模型(Author-Topic Model)的Python Gensim实现

    Gensim中的主题模型包括三种,分别是LDA (Latent Dirichlet Allocation) 主题模型.加入了作者因素的作者主题模型 (Author-Topic Model, ATM) ...

  5. 主题模型(topic models)总结

    主题模型(topic models)总结 相关主题模型(CTM)是一种用于自然语言处理和机器学习的统计模型.相关主题模型(CTM)用于发现一组文档中显示的主题. CTM的关键是logistic正态分布 ...

  6. 主题模型(topic models)解释及评估

    主题模型(topic models)解释及评估 目录 主题模型(topic models)解释及评估 主题解释及评估 展示主题 标记主题<

  7. 概率主题模型简介 Introduction to Probabilistic Topic Models

    摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法.本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向.从最简单的主题模型--潜在狄立克雷分配(L ...

  8. stata最大值最小值命令_Stata: 双栏模型简介 (Doublehurdle model)

    编译:李琼琼 (山东大学) Stata 连享会:  知乎 | 简书 | 码云 | CSDN 点击查看完整推文列表 2020寒假Stata现场班 北京, 1月8-17日,连玉君-江艇主讲 2020寒假S ...

  9. Stata: 双栏模型简介 (Double-hurdle model)

    编译:李琼琼 (山东大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN Stata连享会   计量专题 || 简书推文   文章目录 背景介绍 1. 双栏模型 (Double-hur ...

最新文章

  1. javascript 中 console 的用法
  2. 205页PPT,看5G+AI引领的下一个时代!
  3. 虚拟服务器安装TCP加速脚本
  4. another app is currently hold yum lock问题
  5. python知识:如何多窗口切换
  6. 4.1.2 私有成员与公有成员
  7. 通过反射获取带参构造方法并使用
  8. 1-2-05:填空:类型转换2
  9. 使用TypeScript正确键入Vuex
  10. hdu 1712 ACboy needs your help
  11. BayaiM__MySQL错误对照表
  12. PCA人脸识别详解——初学者必看
  13. 基于ARM+FPGA低成本高实时Ethercat运动控制器解决方案
  14. JAVA如何封装省市区_基于element ui封装的省市区三级联动
  15. ElasticJob
  16. ReviewBoard代码评审实践总结
  17. Visual Studio Code配置Salesforce Apex开发环境
  18. netcfg 进程分析
  19. 观后感 --《当幸福来敲门》和《赢在中国》
  20. openpyxl:写入Excel工作表

热门文章

  1. 解决方案:java.lang.IllegalArgumentException: 为此cookie指定的域[localhost:xxxx]无效
  2. fastadmin实现导出Excel和导入Excel数据
  3. 世界各国领土面积排行(第二个版本)
  4. 2010 Esri中国区域用户大会9月14日开幕
  5. Hybrid App 和 React Native 开发那点事
  6. 【pytest】2.pytest的前置、后置
  7. 庞皓计量经济学第四版_庞皓计量经济学第4版配套题库
  8. Python 中的Numpy函数
  9. [bzoj5314][Jsoi2018]潜入行动_树形背包dp
  10. 智慧校园管理系统全套源码 智慧学校源码(小程序端、电子班牌、人脸识别系统)