机器学习之LDA主题模型算法
文章目录
- 1、知道LDA的特点和应用方向
- 1.1、特点
- 1.2、应用方向
- 2、知道Beta分布和Dirichlet分布数学含义
- 3、了解共轭先验分布
- 4、知道先验概率和后验概率
- 5、知道参数α值的大小对应的含义
- 6、掌握LDA主题模型的生成过程
- 7、知道超参数α等值的参考值
- 8、LDA总结
1、知道LDA的特点和应用方向
1.1、特点
知道LDA说的降维代表什么含义:将一篇分词后的文章降维为一个主题分布(即如20个特征向量主题)。
根据对应的特征向量中的相关主题概率(20个主题的概率相加为1即为主题分布)得到对应的文档主题,属于无监督学习(你没有给每个数据打标签)
1.2、应用方向
信息提取与搜索(语义分析),文档的分、聚类,文章摘要,计算机视觉,生物信息等方向(只要包含隐变量都可考虑使用)
PS:知道朴素贝叶斯在文本分析的劣势:无法识别一词多义和多词一意。
2、知道Beta分布和Dirichlet分布数学含义
Beta分布概率密度表达式是一条曲线,系数B的表达式是曲线下的面积。
知道二项分布的共轭先验分布是Beta分布,多项分布的共轭先验分布是Dirichlet分布。
知道Dirichlet分布的概率密度函数的数学含义:当K=3时,密度函数数学含义也就是一个曲面
3、了解共轭先验分布
含义:找个一个先验分布和后验分布都满足于同一种分布的概率分布。这样你知道其中的一个分布就代表知道了另外一个分布。
4、知道先验概率和后验概率
**先验概率:**是指根据以往经验和分析得到的概率.
**后验概率:**事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小
5、知道参数α值的大小对应的含义
当α小于1的时候代表取某一个值的概率很高(即某一主题的概率很高即主题鲜明),=1的时候代表概率为均匀分布,大于1的时候代表k个p相同的概率增大。
对应的z轴就代表这个点对应的概率
6、掌握LDA主题模型的生成过程
总结一句话:主题概率模型生成一个主题分布再生成一个主题,词概率模型生成主题的词分布再生成一个词;最终得到一个主题对应这个词。(连接的条件主题的标号)
掌握整个过程:
θ代表的一个主题分布,即K维的主题向量。
- 从α控制的Dirichlet分布的概率密度函数中采取一个对应的K维的主题分布即θm(第m篇文档的主题)
- 从β控制的Dirichlet分布的概率密度函数中生成K个对应的V维的词分布即φk
- Zm,n即代表第m个文档的第n个主题。当n=2时即代表采到第m篇文档的第二个主题,就到对应的β生成的第二个主题的词分布即φk(对应的第几个主题的词分布)
- 从φk中随机挑选一个词作为Wm,n的值(即第m篇文档第n个主题对应的词)
- 循环执行上述步骤得到每个主题对应的词
PS:各个参数的含义
θm代表第m篇文档的主题分布(m为文档总数)
φk表示第k个主题的词分布(k为主题的个数)
Zm,n代表第m篇文档中的第n个主题
Wm,n代表第m篇文档中的第n个单词
7、知道超参数α等值的参考值
8、LDA总结
- 由于在词和文档之间加入的主题的概念,可以较好的解决一词多义和多词一义的问题。
- 在实践中发现,LDA用于短文档往往效果不明显一这是可以解释的:因为一个词被分配给某个主题的次数和一个主题包括的词数目尚未敛。往往需要通过其他方亲“连接”成长文档。
- 用户评论/Twitter/微博囗LDA可以和其他算法相结合。首先使用LDA将长度Ni的文档降维到K维(主题的数目),同时给出每个主题的概率(主题分布),从而可以使用if-idf继续分析或者直接作为文档的特征进入聚类或者标签传播算法用于社区发现等问题。
- 知道LDA是一个生成模型,由y得到对应的x(y代表的是主题,x代表的词)
机器学习之LDA主题模型算法相关推荐
- 【机器学习之LDA主题模型】
文章目录 前言 一.LDA主题模型是什么? 1.LDA主题模型原理 2.LDA主题模型推演过程 三.问题总结 1.怎么确定LDA的标题个数? 四.拔高亮点 1. 如何用主题模型解决推荐系统中的冷启动问 ...
- Spark机器学习(8):LDA主题模型算法
1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型.LDA一个三层贝叶斯概率模型,包含词.主题和文档三层结构. LDA是一个生成模型,可以用来生成一篇 ...
- 文本聚类(一)—— LDA 主题模型
目录 文本聚类 一.LDA 主题模型 1.1 加载数据集 1.2 数据清洗.分词 1.3 构建词典.语料向量化表示 1.4 构建 LDA 模型 1.5 模型的保存.加载以及预测 1.6 小结 Upda ...
- LDA主题模型(算法详解)
LDA主题模型(算法详解) http://blog.csdn.net/weixin_41090915/article/details/79058768?%3E 一.LDA主题模型简介 LDA(Late ...
- 【机器学习】基于LDA主题模型的人脸识别专利分析
作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...
- lda主题模型困惑度_机器学习-LDA主题模型笔记
LDA常见的应用方向: 信息提取和搜索(语义分析):文档分类/聚类.文章摘要.社区挖掘:基于内容的图像聚类.目标识别(以及其他计算机视觉应用):生物信息数据的应用; 对于朴素贝叶斯模型来说,可以胜任许 ...
- 自然语言处理-LDA主题模型
LDA主题模型 哈尔滨工程大学-537 一.LDA主题模型简介 LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布.LDA主题模型是一种文档生成模型,是一种非 ...
- 一文详解LDA主题模型
[本文作者]达观数据 夏琦 [作者简介]夏琦,达观数据NLP组实习生,就读于东南大学和 Monash University,自然语言处理方向二年级研究生,师从知识图谱专家漆桂林教授.曾获第五届&quo ...
- LDA通俗理解LDA主题模型
转自:http://blog.csdn.net/v_july_v/article/details/41209515#t13 通俗理解LDA主题模型 0 前言 印象中,最开始听说"LDA&qu ...
最新文章
- 解决putty中文乱码并远程访问linux界面功能
- 对require四种引入方式的认识
- 大型企业都在用的Python反爬虫手段,破了它!
- 英特尔云计算策略以Nehalem为主
- 第4章 Selenium2-java WebDriver API (三)
- 错误: -source 1.6 中不支持 diamond 运算符
- URL重写,asp.net URL重写,URLRewriter.dll下载
- Python-科比投篮预测
- z11 max android 6.0,努比亚Z11Max 安卓6.0 魅族Flyme6刷机包 最新6.7.12.29R紫火版 20180108更新...
- Python计算二项分布教程
- python小白社区_Python小白教学系列| 初识python-Go语言中文社区
- edg击败we视频_LOL2019德杯EDG vs WE第五局比赛视频回放 EDG让二追三晋级四强
- cf四大服务器位置,CF:从最初的42个服务器到现在的四大战区,穿越火线还能火多久?...
- RTL8720DN SDK 环境搭建
- Oracle(甲骨文)这个庞然大物至今未倒之谜
- 使用Qt Visual Studio Add-in 实现中文ts文件,解决中文乱码问题
- MACD红二波选股公式,选出MACD二次翻红的标的
- Upd通信之QUdpSocket的unicast单播、broadcast广播、multicast组播
- java课程设计简单计算器_JAVA课程设计--简易计算器(201521123022 黄俊麟)
- 用计算机选出彩票号码最少的号码,购买彩票时,很多人往往愿意自己选号,不愿交由电脑随机选号...