• PTM认为大量的短文本是从数量少得多但大小正常的潜在文档中产生的,这些潜在文档被称为伪文档。
  • 通过学习伪文档而不是短文本的主题分布,PTM具有固定数量的参数,并在训练语料相对不足时获得避免过拟合的能力。

2.1Basic Model

  • 现在我们给出PTM的形式化描述。我们假设有K个主题 φzz=1K{φ_z }^K_{z=1}φz​z=1K​,每一个都是规模为V的词汇表上的多项分布。有D个短文本 dss=1D{ds}^D_{s=1}dss=1D​ 和P伪文档dl′l=1P{{d}^{'}_{l}}^P_{l=1}dl′​l=1P​。**短文本是观察文档,伪文档是潜伏文档。提出了多项式分布ψψψ来对伪文档上的短文本分布进行建模。我们进一步假设每个短文本属于且仅属于一个伪文档。**短文本中的每个单词都是先从其伪文档的主题分布θ采样一个主题z,然后采样一个单词w ~ φ 生成的z 。

  • Remark1 (PTM从P个伪文档而不是D个短文本中寻找主题,P≪DP\ll DP≪D。)

    • PTM中引入伪文档是对抗数据稀疏性负面的关键因素。为了更好地理解这一点、假设有D个短文本,每个文本平均有N个tokens。已经证明,**当N太小时,即使D是非常大的,LDA也无法准确地学习主题。**这是因为在这种情况下,分散在不同短文本中用于主题学习的同现词的短缺并没有得到改善。然而,**PTM从P个伪文档而不是D个短文本中寻找主题,P≪DP\ll DP≪D。**因此,我们可以粗略估算出每个伪文档平均有N′{N}^{'}N′个tokens, N′=DN/P≫N{N}^{'} = DN / P \gg NN′=DN/P≫N,这意味着单词共现的潜在改进。
  • Remark2 (给定短文本所属的唯一伪文档,PTM根据LDA的过程生成短文本。)

    • 除了自聚合话题模型(self - aggregate Topic Model, SATM),像PTM这样的自聚合方法在文献中仍然很少见到。虽然PTM和SATM都将短文本聚合成伪文档,但它们的生成过程有本质上的不同。SATM假定短文本的生成过程是两阶段的。第一阶段遵循标准LDA生成常规大小的伪文档,第二阶段将通过unigram的混合过程从其伪文档生成每个短文本。第一阶段意味着采样一个单词将花费O(PK)O(PK)O(PK)时间,这是非常密集的。第二阶段意味着推理过程必须独立估计伪文档在短文本上的概率分布,因此参数的数量会随着语料库的大小线性增长,在训练样本不足的情况下可能会导致严重的过拟合问题。与之形成鲜明对比的是,给定短文本所属的唯一伪文档,PTM根据LDA的过程生成短文本。这意味着采样一个单词只需要O(K)的时间,并且参数的数量是固定的,以避免过拟合。
  • Remark3

    • 讨论PTM和so-called Pachinko Allocation Model (PAM)的异同也是很有趣的。PAM被提出使用一个有向无环图来捕获主题之间的任意相关性,因此被认为是LDA的一个更一般的版本。因此,尽管四层层次PAM(Figure 2b)显示了与PTM(Figure 2a)相似的模型结构,但它们在本质上是不同的。在Figure 2b中,PAM的第二层由捕获第三层子主题(全部用蓝色表示)之间共性的超级主题组成。从这个意义上说,我们可以从第三层到第二层获得数量减少的话题。相比之下,PTM的第二层中的节点表示伪文档(绿色),因此比第三层中的主题节点(蓝色)在数量上更多,并且应该更好地被视为可以生成短文本的特定主题的组合主题。

2.2 Sparsification

  • 如上所述,PTM中的伪文档本质上是由各种简短文本的特定主题组合而成的混合主题。沿着这条线,人们很自然地猜测,当伪文档的数量越来越少时,它们的主题表示往往是模棱两可的。为了解决这个问题,我们在这里提出了SPTM,这是PTM的一种稀疏化版本,应用Spike和Slab先验对伪文档的主题分布进行处理。

  • “Spike and Slab”先验是数学中一个非常成熟的方法。它可以解耦分布的稀疏性和平滑性。在细节上,辅助伯努利变量被引入先验,用来表示特定变量的“开”或“关”状态。因此**,一个模型可以确定相应的变量是否出现**。在我们的例子中,这表示是否选择了一个主题出现在特定的伪文档中

  • 请注意,Spike和Slab先验可能有空选择,这将导致概率分布定义不清。Wang和Blei在主题分布中引入了从未出现过的术语,这可能会给推理过程带来更大的困难。因此,我们应用了Lin等人提出的弱平滑先验和平滑先验,通过直接应用Spike和Slab先验,可以避免分布定义不清。此外,它导致了一个更简单的推理过程,这确保了我们的模型的可扩展性。为了更好地描述我们的稀疏增强模型,我们首先给出了主题选择器(topic selectors)、平滑先验(smoothing prior)和弱平滑先验(weak smoothing prior)的定义。

    • 定义1:对于伪文档dl′{d}^{'}_ldl′​,主题选择器bl,k,k∈1,⋅⋅⋅,kb_{l,k}, k∈{1,···,k}bl,k​,k∈1,⋅⋅⋅,k,是一个二元变量,表示主题k是否与dl′{d}^{'}_ldl′​相关。bl,kb_{l,k}bl,k​ 是从Bernoulli(πl)Bernoulli(π_l)Bernoulli(πl​)中采样,其中πlπ_lπl​ 是dl′{d}^{'}_ldl′​的伯努利参数。

      • 伯努利分布指的是对于随机变量X有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。
    • 定义2:平滑先验是DirichletDirichletDirichlet超参数α,用于平滑由主题选择器选择的主题。弱平滑先验是另一个DirichletDirichletDirichlet超参数α‾\overline{\alpha}α,用于平滑未选择的主题。由于α‾≪α\overline{\alpha}\ll \alphaα≪α,超参数α‾\overline{\alpha}α被称为弱平滑先验。
      • 主题选择器被称为“Spikes”,而平滑先验和弱平滑先验对应的是“slab”。
  • 这样,就实现了伪文档主题比例的稀疏性和平滑性的解耦。给定主题选择器bl⃗\vec{b_l}bl​​ = {bl,kb_{l,k}bl,k​}k=0K^K_{k=0}k=0K​,伪文档dl′{d}^{'}_ldl′​的选题比例从Dir(αbl⃗+α‾1⃗)Dir(α\vec{b_l} +\overline{\alpha}\vec{1})Dir(αbl​​+α1)中采样。α‾\overline{\alpha}α的引入修复了分布的病态定义,同时保持了稀疏性的效果。

  • Fig. 1b说明了SPTM的板块表示法。伪文档的完整生成过程如下:

2.3 Inference

  • 精确的后验推断在我们的模型中是难以处理的,所以我们求助于用于近似后验推断的collapsed Gibbs采样算法,该算法推导简单,在速度上与其他estimators相当,并且可以近似全局最大值。由于空间的限制,我们省略了推导的细节,只给出了采样公式。
  • 我们在下面给出关于SPTM推断的细节,并在本节的最后描述PTM的推断。对θ、φ、ψ和π进行解析积分,采样算法所需的潜变量是伪文档赋值l、主题赋值z和主题选择器b,我们还对DirichletDirichletDirichlet超参数α\alphaα和Beta超参数γ1\gamma_1γ1​进行了采样,并使α‾\overline{\alpha}α等于10−710^{-7}10−7 和γ0\gamma_0γ0​等于1。
  • 采样伪文档赋值l,给定剩余变量,采样l类似于DirichletDirichletDirichlet多项式混合物的采样方法。也就是说
    • 其中MlM_lMl​是分配给第l个伪文档dl′{d}^{'}_ldl′​的短文本的数量。NdsN_{ds}Nds​是第s个短文本dsd_sds​的长度,NdszN_{ds}^zNdsz​是dsd_sds​中分配给话题z的tokens。NdszN_{ds}^zNdsz​是dl′{d}^{'}_ldl′​中分配给主题z的tokens数,NlN_lNl​是dl′{d}^{'}_ldl′​中的tokens总数。所有带¬ds\lnot d_s¬ds​的计数表示不包括来自dsd_sds​的计数。bl,zb_{l,z}bl,z​是主题z的伪文档dl′{d}^{'}_ldl′​的主题选择器。Al={z:bl,z=1,z∈{1,⋅⋅⋅,K}}A_l = \left\{z: b_{l,z} = 1, z∈\left\{1,···,K\right\}\right\}Al​={z:bl,z​=1,z∈{1,⋅⋅⋅,K}}是bl⃗\vec{b_l}bl​​ 的“on”索引集,,∣Al∣|A_l|∣Al​∣是AlA_lAl​的大小。

  • 采样主题赋值z。抽样主题赋值z的方法类似于潜在的DirichletDirichletDirichlet分配。不同之处在于θ不再属于原始短文本,而是属于伪文档。而θ的采样来自Spike和Slab先验,而不是 symmetricDirichletpriorsymmetric Dirichlet priorsymmetricDirichletprior。也就是说,
    • 其中NzwN^w_zNzw​是w被分配给主题z的次数,并且Nz=∑w=0VNzwN_z = \sum^V_{w = 0} N^w_zNz​=∑w=0V​Nzw​

  • 采样主题选择器b。为了采样bl⃗\vec{b_l}bl​​,我们跟随Wang等人来使用πlπ_lπl​ 作为辅助变量。让
    是伪文档dl′{d}^{'}_ldl′​中有赋值的主题集合。给出了πlπ_lπl​ 和bl⃗\vec{b_l}bl​​的联合条件分布

    • 其中I[·]是一个指标函数。有了这个联合条件分布,我们在πlπ_lπl​上迭代采样bl⃗\vec{b_l}bl​​并在bl⃗\vec{b_l}bl​​上迭代采样πlπ_lπl​,以最终获得bl⃗\vec{b_l}bl​​的样本。注意,Wang等人在主题收敛缓慢的情况下对b进行积分,并对π进行采样。由于V很大,搜索最优组合主题的代价非常高。然而,在我们的例子中,K相对于V来说是相对较小的,并且根据π对z进行采样是非常耗时的。基于上述考虑,我们采取了相反的方法,通过积分π\piπ对b进行采样。

    • 对于超参数α,我们使用具有对称高斯分布的Metropolis-Hastings作为proposal distribution。对于concentration parameter γ1,我们使用以前开发的方法用于Gamma先验。

    • 到目前为止,我们已经说明了SPTM的collapsed Gibbs采样算法。现在我们简单描述一下PTM的推断。在对θ、φ和ψ进行解析积分后,抽样算法所需的潜变量为伪文档赋值l和主题赋值z。用α代替bl,zα+α‾用\alpha 代替 b_{l,z}\alpha+\overline{\alpha}用α代替bl,z​α+α和用Kα代替∣Al∣α+Kα‾用K\alpha 代替|A_l|\alpha+K\overline{\alpha}用Kα代替∣Al​∣α+Kα在Equation 1中,我们得到l的抽样方程。同样,用b代替l,z 方程2中的α+ α¯和α,我们得到z的抽样方程。

Topic Modeling of Short Texts: A Pseudo-Document View相关推荐

  1. Targeted Topic Modeling for Focused Analysis(TTM的理解)

    问题描述 问题定义 最简单的实现方法 作者提出的模型 代码 本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载 ...

  2. Collaborative topic modeling(推荐)算法实现中的大数组问题

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 问题背景 最近,在使用 ...

  3. 用GibbsLDA做Topic Modeling

    http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/ 用Gib ...

  4. WinSDK学习--Document/View结构

    MFC中的Document/View结构至关重要.Document负责存储数据,View负责显示数据.一个Document可以对应几个View,而一个View只能同时显示一个Document.Docu ...

  5. 如何在Python中活学活用主题词模型(Topic Modeling)和隐狄利克雷分布(LDA)

    主题词模型是一种统计模型,用于发现文档集合中出现的抽象"主题". Latent Dirichlet Allocation(LDA)是主题模型的一个例子,用于将文档中的文本分类为特定 ...

  6. A topic modeling framework for spatio-temporal information management(2020)

    摘要 在诸如Twitter这样的动态环境中,实时处理和学习相互冲突的数据,特别是来自不同想法.地点和时间的消息,是一项具有挑战性的任务,最近受到了广泛的关注.本文介绍了一个管理.处理.分析.检测和跟踪 ...

  7. Understand Short Texts by Harvesting and Analyzing Semantic Knowledge(阅读笔记)

    CSDN话题挑战赛第2期 参赛话题:学习笔记 通过语义知识的获取和分析来理解短文本 理解短文本对于很多应用来说是至关重要的,但是也面临者很多挑战.首先,短文本并不总是遵循书面语言的语法规则.因此,从词 ...

  8. Topic model相关文章总结

    基础类主题模型 Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual interna ...

  9. 2018 A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews 稀疏主题模型学习笔记

    论文来源 文章介绍 模型及推理 关于源码 论文来源 Rakesh V, Ding W, Ahuja A, et al. A Sparse Topic Model for Extracting Aspe ...

最新文章

  1. AndroidStudio 3.4 自定义注解处理器不起作用
  2. mac下java配置填坑
  3. java 在线电影_java电影在线影评管理系统
  4. EasyExcel读写Excel的基本使用
  5. 电脑科学性计算机怎么用,怎么使用科学计算器59 000×(1+r)-2
  6. mysql 3种报错_MySQL读取Binlog日志常见的3种错误-阿里云开发者社区
  7. 关于python中自己写的模块之前相互调用函数
  8. 11.05T2 线段树+卡特兰数
  9. python3.7版本简介_python3.7.2各平台安装简介
  10. 822C Hacker, pack your bags!
  11. DevExpress控件TExtLookupComboBox实现多列模糊匹配输入的方法
  12. 利用jieba进行中文分词并进行词频统计
  13. WPS2000的目录提取(转)
  14. IDEA 2017 破解教程(2018也可以)
  15. PhotoShop中蒙版介绍
  16. 世界上最权威的68句创业名言
  17. 代号Pie!Android 9.0那些开发者必须知道的事
  18. 调用短信、电话、邮件、Safari浏览器的系统API
  19. 使用GoogleTranslateIpCheck查找适用谷歌翻译服务器ip,解决谷歌浏览器无法翻译问题
  20. Python 命名管道

热门文章

  1. (转)Android开发常用工具类
  2. 互联网信息服务(仅限互联网信息服务)
  3. NOI-1.2(02) 浮点型数据类型存储空间大小
  4. 数组如何定义和初始化?
  5. 国内汽车融资租赁ABN市场破冰 首单总注册额度20亿元花落易鑫
  6. 事务、提交、回滚、脏读、幻读等名词解释以及事务隔离级别详解
  7. 2020年末知识大总结:Java程序员转Android开发必读经验一份,嵌入式开发入门教程
  8. android横向瀑布流布局,GitHub - wikison/android_waterfall: Android版的瀑布流布局
  9. 计算机网络第9章 无线网络和移动网络
  10. 计算机视觉——SIFT描述子