•LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。

•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。

•LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

简述LDA生成过程

(1)对每一篇文档,从主题分布中抽取一个主题;
  (2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
  (3)重复上述过程直至遍历文档中的每一个单词。

LDA整体流程

•文档集合D,主题集合T:D中每个文档d看作一个单词序列<w1, w2, …… ,wn>,wi表示第i个单词,设d有n个单词。文档集合D中的所有单词组成一个大集合VOCABULARY(简称VOC)。

•对每个D中的文档d,对应到不同Topic的概率θd<pt1,…,ptk>,其中,pti表示d对应T中第i个topic的概率。计算方法:pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。

•对每个T中的topic,生成不同单词的概率φt<pw1,…,pwm>,其中,pwi表示t生成VOC中第i个单词的概率。计算方法:pwi=Nwi/N,其中Nwi表示对应到topict的VOC中第i个单词的数目,N表示所有对应到topict的单词总数。

LDA的核心公式

P(词 | 文档)=P(词 | 主题)P(主题 | 文档)

p(w|d)=p(w|t)*p(t|d)

•以Topic作为中间层,可以通过当前的θd和φt给出了文档d中出现单词w的概率。p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。

•实际上,利用当前的θd和φt,我们可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。如果这个更新改变了这个单词所对应的Topic,就会反过来影响θd和φt。

应用

LDA主题模型可以对文本数据进行建模,挖掘其中的隐主题信息实现特征降维,并对向量化的结果进行过滤去噪。

LDA模型原理学习及应用相关推荐

  1. LDA主题模型原理解析与python实现

    本文转自:LDA主题模型原理解析与python实现_wind_blast的博客-CSDN博客   python实现: #-*- coding:utf-8 -*- import logging impo ...

  2. 知识图谱论文阅读(八)【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

    学习的博客: 推荐系统遇上深度学习(二十六)–知识图谱与推荐系统结合之DKN模型原理及实现 知识图谱特征学习的模型分类汇总 知识图谱嵌入(KGE):方法和应用的综述 论文: Knowledge Gra ...

  3. 自控原理学习笔记-反馈控制系统的动态模型(1)

    自控原理学习笔记 1.导论 2.反馈控制系统的动态模型(1) 3.反馈控制系统的动态模型(2) 3.反馈控制系统的动态模型(3) 4.反馈控制系统的动态模型(4) 5.反馈控制系统的动态模型(5) 文 ...

  4. 推荐系统与深度学习(二)——FFM模型原理​

    作者:livan 来源:数据python与算法 前言 上一篇我们讲解了FM模型: 推荐系统与深度学习(一)--FM模型原理 从FM的公式我们可以看出: FM中每个特征所对应的向量是唯一的: Vi是Xi ...

  5. 推荐系统与深度学习(十四)——GBDT+LR模型原理

    公众号后台回复"图书",了解更多号主新书内容 作者:livan 来源:数据python与算法 模型原理 与GBDT+LR模型结缘是刚开始学习推荐系统的过程中,FaceBook一推出 ...

  6. 自控原理学习笔记-反馈控制系统的动态模型(4)-频率特性函数Nyquist图及Bode图

    自控原理学习笔记 自控原理学习笔记专栏 文章目录 1.频率特性函数 1.1 图形表示方法: 1.2 零极点位置和暂态增益图 1.2.1 复轨迹曲线 1.2.3 例子 1.3 计算系统响应 2.开环频率 ...

  7. 信息传播学习笔记(1)——SIS模型原理与公式推导

    本文是SIS模型的原理与公式推导,不涉及代码(后续补充). 对了宝贝儿们,卑微小李的公众号[野指针小李]已开通,期待与你一起探讨学术哟~摸摸大! 目录 1 背景 2 SIS模型原理 3 求解微分方程 ...

  8. LDA文本主题模型的学习笔记

    引言 我们经常会听到LDA文本主题模型,经常用于文本分类.LDA由Blei, David M..Ng, Andrew Y..Jordan于2003年提出,用来推测文档的主题分布.它可以将文档集中每篇文 ...

  9. 【NLP基础】NLP关键字提取技术之LDA算法原理与实践

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要11分钟 跟随小博主,每天进步一丢丢 引文 人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字.仔细想想,我们人类是怎么提 ...

  10. 机器学习算法(九): 基于线性判别LDA模型的分类(基于LDA手写数字分类实践)

    机器学习算法(九): 基于线性判别模型的分类 1.前言:LDA算法简介和应用 1.1.算法简介 线性判别模型(LDA)在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用.LDA是一种监 ...

最新文章

  1. flask学习笔记之blueprint
  2. 华为鸿蒙系统可以用在哪里,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可 !【手机吧】_百度贴吧...
  3. TCP/UDP网络性能测试工具 - Netperf (zz) ..网络测试工具
  4. [BZOJ1799][Ahoi2009]self 同类分布(数位dp)
  5. 通过Spring Social推特StackExchange –第1部分
  6. 蓝桥杯 历届试题 危险系数
  7. 卢伟冰晒红米Note 7Pro拍月亮样张 有无外设差别巨大
  8. win7的centos虚拟机上搭建mysql5.6服务
  9. c语言输出七个换行6,多样例输出,如何去掉最后一个回车
  10. html未找到音频文件夹,【已解决】html5中MediaRecorder的dataavailable没有执行获取不到录音数据...
  11. 油猴管理程序复制百度文库网页内容
  12. 本人的月末结账步骤备忘
  13. 产品活跃度做好很难?提高用户活跃度用对方法一点也不难
  14. Vue海报编辑器(自由拖拽海报生成)
  15. 彩蛋-管理员root@‘locahost‘ 密码丢失,处理方案。
  16. python py如何变成exe_python如何将py变成exe文件
  17. Time::HiRes, sleep(), time()
  18. html自动轮播计时器不准,自己做的jQuery轮播图,大家帮忙看一下,能自动轮播,定时器,点击按钮不起用...
  19. 狂飙高启兰好飒,你看狂飙了吗?
  20. vue父传子值 数组

热门文章

  1. 银行登录页面html代码,银行管理系统(带界面)
  2. 基于 MQL5 源代码创建文档
  3. arcgis中 shift数据重新定义投影_【更新85篇】地理数据科学技术文章合集,欢迎大家点赞、在看、转发三连!...
  4. BugKu web题目(bp)弱密码top1000
  5. 刘强东宣布:京东减员50%,每天工作3小时!这样的未来是你想要的吗?
  6. C语言 求素数、排序算法
  7. 【原创】STM32低功耗模式及中断唤醒(基于BMI160及RTC)的研究
  8. 【Linux 操作系统】vim编辑器配置及常用命令
  9. IDEA实用插件推荐
  10. 119、交换机基本配置命令