Introduction to Latent Dirichlet Allocation

一,LDA最基本的思想:Bayes Chain

LDA要做的事情就是将document投射到topic空间中

即做doc~topics的转换

而这种topic model,涉及到两种分布:

第一种就是topic~word的分布,就是p(w|z)。
第二种是p(z|d),这个是doc~topic分布

有了这两种分布后,这个文档集合就有了一种立体化的感觉,闭上眼睛,仔细地想:

doc
|
----------------------------------------
|                       | ...                     |
topic_1            topic_2              topic_m


topic_i
|
----------------------------------------
|                       | ...                     |
word_1            word_2              word_n

一个三层的文档表示空间跃然纸上。

二,LDA的特别之处

上面所说的这个Bayes Chain,就可以涵盖LDA的一个最基本的思想。
而PLSA其实也是这个链,那它和LDA有什么区别呢?
最大的区别就在于,doc~topic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超参数,对doc~topic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的对于[doc~topic]就只有一个超参数。

三,LDA的

附录:

1. 参考:

2. 关于LDA的资料

LDA和HLDA:

(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.

(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, vol. 101, pp. 5228-5235, 2004.

(3)D. M. Blei, et al., "Hierarchical Topic Models and the Nested Chinese Restaurant Process," NIPS, 2003.

(4)Blei的LDA视频教程:http://videolectures.net/mlss09uk_blei_tm/

(5)Teh的关于Dirichlet Processes的视频教程:http://videolectures.net/mlss07_teh_dp/

(6)Blei的毕业论文:http://www.cs.princeton.edu/~blei/papers/Blei2004.pdf

(7)Jordan的报告:http://www.icms.org.uk/downloads/mixtures/jordan_talk.pdf

(8)G. Heinrich, "Parameter Estimation for Text Analysis," http://www.arbylon.net/publications/text-est.pdf

基础知识:

(1)P. Johnson and M. Beverlin, “Beta Distribution,” http://pj.freefaculty.org/ps707/Distributions/Beta.pdf

(2)M. Beverlin and P. Johnson, “The Dirichlet Family,” http://pj.freefaculty.org/stat/Distributions/Dirichlet.pdf

(3)P. Johnson, “Conjugate Prior and Mixture Distributions”, http://pj.freefaculty.org/stat/TimeSeries/ConjugateDistributions.pdf

(4)P.J. Green, “Colouring and Breaking Sticks:Random Distributions and Heterogeneous Clustering”, http://www.maths.bris.ac.uk/~mapjg/papers/GreenCDP.pdf

(5)Y. W. Teh, "Dirichlet Process", http://www.gatsby.ucl.ac.uk/~ywteh/research/npbayes/dp.pdf

(6)Y. W. Teh and M. I. Jordan, "Hierarchical Bayesian Nonparametric Models with Applications,”

http://www.stat.berkeley.edu/tech-reports/770.pdf

(7)T. P. Minka, "Estimating a Dirichlet Distribution", http://research.microsoft.com/en-us/um/people/minka/papers/dirichlet/minka-dirichlet.pdf

(8)北邮论坛的LDA导读:[导读]文本处理、图像标注中的一篇重要论文Latent Dirichlet Allocation,http://bbs.byr.edu.cn/article/PR_AI/2530?p=1

(9)Zhou Li的LDA Note:http://lsa-lda.googlecode.com/files/Latent%20Dirichlet%20Allocation%20note.pdf

(10)C. M. Bishop, “Pattern Recognition And Machine Learning,” Springer, 2006.

代码:

(1)Blei的LDA代码(C):http://www.cs.princeton.edu/~blei/lda-c/index.html

(2)BLei的HLDA代码(C):http://www.cs.princeton.edu/~blei/downloads/hlda-c.tgz

(3)Gibbs LDA(C++):http://gibbslda.sourceforge.net/

(4)Delta LDA(Python):http://pages.cs.wisc.edu/~andrzeje/research/deltaLDA.tgz

(5)Griffiths和Steyvers的Topic Modeling工具箱:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm

(6)LDA(Java):http://www.arbylon.net/projects/

(7)Mochihashi的LDA(C,Matlab):http://chasen.org/~daiti-m/dist/lda/

(8)Chua的LDA(C#):http://www.mysmu.edu/phdis2009/freddy.chua.2009/programs/lda.zip

(9)Chua的HLDA(C#):http://www.mysmu.edu/phdis2009/freddy.chua.2009/programs/hlda.zip

其他:

(1)S. Geman and D. Geman, "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. PAMI-6, pp. 721-741, 1984.

(2)B. C. Russell, et al., "Using Multiple Segmentations to Discover Objects and their Extent in Image Collections," in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006, pp. 1605-1614.

(3)J. Sivic, et al., "Discovering objects and their location in images," in Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, 2005, pp. 370-377 Vol. 1.

(4)F. C. T. Chua, "Summarizing Amazon Reviews using Hierarchical Clustering," http://www.mysmu.edu/phdis2009/freddy.chua.2009/papers/amazon.pdf

(5)F. C. T. Chua, "Dimensionality Reduction and Clustering of Text Documents,” http://www.mysmu.edu/phdis2009/freddy.chua.2009/papers/probabilisticIR.pdf

(6)D Bacciu, "Probabilistic Generative Models for Machine Vision," http://www.math.unipd.it/~sperduti/AI09/bacciu_unipd_handouts.pdf

posted on 2012-04-09 16:01 wentingtu 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/wentingtu/archive/2012/04/09/2439092.html

Introduction to Latent Dirichlet Allocation相关推荐

  1. Latent dirichlet allocation note

    2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型.生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由 ...

  2. 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(三)

    潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(三) 目录 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(三) 主题演 ...

  3. 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(二)

    潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(二) 目录 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(二) LDA ...

  4. 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(一)

    潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(一) 目录 潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型(一) LDA ...

  5. 潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

    文章目录 1. 狄利克雷分布 2. 潜在狄利克雷分配模型 3. 学习推理 4. sklearn.decomposition.LatentDirichletAllocation 潜在狄利克雷分配(lat ...

  6. “西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

    功能 输出影评主题: 输出每份评论在各个主题上的权重分布. 工具 python2 spark2.0.2 引言 在机器学习中,LDA是两个常用模型的简称:线性判别分析(Linear Discrimina ...

  7. 隐含狄利克雷分布(Latent Dirichlet Allocation)

    隐含狄利克雷分布(Latent Dirichlet Allocation,   注意机器学习还有一个LDA,即线性判别分析(线性判别分析https://blog.csdn.net/qq_3529078 ...

  8. 简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

    引言 LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的 ...

  9. gensim实现LDA(Latent Dirichlet Allocation)算法提取主题词(topic)

     Latent Dirichlet Allocation(LDA) 隐含分布作为目前最受欢迎的主题模型算法被广泛使用.LDA能够将文本集合转化为不同概率的主题集合.需要注意的是LDA是利用统计手段对主 ...

最新文章

  1. 我常用的那些linux命令
  2. 基于Vue, Vuex 和 ElementUI 构建轻量单页Hexo主题Lite
  3. 《梦断代码》读后笔记_2
  4. 用sk-learn的pipline的时候,现:TypeError: ‘Pipeline‘ object is not subscriptable
  5. mysql 创建外键实例_mysql 外键创建实例
  6. All men are brothers【并查集+数学】
  7. 7.PHP核心技术与最佳实践 --- PHP 扩展开发
  8. CocoaPods管理第三方
  9. kafka面试题整理
  10. Postman下载安装
  11. ipad wifi信号测试软件,iPad3的wifi信号弱 二种方法修复WiFi信号
  12. 用html做一个分类目录网站,分类目录网站做外链
  13. 街景地图工作是如何工作的
  14. XDRender_LightModeFeature_CauseLight 焦散1-DropRain
  15. Animated之基础篇-概述
  16. [转载]搜索引擎技术介绍
  17. npm 启动项目报错 Cannot find module ‘\@babel\compat-data\data\corejs3-shipped-proposals‘
  18. Linux TTY基本概念之ttys*、tty*、ttyS*、console理解
  19. mysql dba系统学习-数据库事务详解
  20. 克服“讨好型人格”,你需要《被讨厌的勇气》

热门文章

  1. linux实现开机自启动脚本
  2. checkbox大小缩放
  3. 2021年度训练联盟热身训练赛第四场,签到题CDF
  4. UVa1584 - Circular Sequence
  5. tbopen链接生成工具_筛选了100个配色工具后,我挑出了这25个
  6. 三种动态创建元素区别
  7. java多线程上传文件_Java大文件分片上传/多线程上传
  8. Counting 4-Cliques
  9. access 此程序未正确安装_一款让“微软爸爸杀不死”的数据库软件——生于1992的Access...
  10. 双联通分量求简单环(Educational Codeforces Round 42: F. Simple Cycles Edges)