经典的LDA主题模型实现了文本的软聚类的工作,将文档转化为基于主题的数值向量,每个维度上的主题概率取值就是对特定主题的聚类中心的隶属度。由于LDA主题模型提出较早,所以作为基础模型有了很多改进和创新,技术上总结下来有以下几个方面:

1、短文本的处理和优化

2、考虑主题随时间变化的情况

3、考虑按照时间排序的文章之间在主题分布上有连贯性

4、考虑主题之间存在相关性

5、Dirichlet先验非均匀的情况

6、根据实际应用附加外部假设,优化模型

如:(1)每个句子中的主题保持一致(2)每个段落的主题保持一致(3)考虑文章标题优化LDA的结果 (4)长文本内部主题分布的连续变化

应用上也有很多创新:

1、和深度学习的结合:主题模型的分布结果能否作为输入参数接入已有的深度学习模型做预测?例如根据新闻的主题分布预测股票指数(金融应用:社交舆论-->证券市场估值的影响)

2、挖掘文本特征的潜在语义:对词汇、词组进行软聚类;例如,在情感分析任务中,对在线评论的内容构建LDA主题模型,挖掘用户评论的aspect,并找到与之对应的评价词。

该技术在管理学的口碑营销分析中有成熟的应用!也可用于舆情分析,社会热点研究!

总之,LDA的坑很多的,但是个人认为,LDA的价值不是体现在技术本身,而是应用场景,未来在应用场景的创新空间远比模型的空间要大!

找到一个场景,分析具体的问题,针对上面提到的若干点找出这个场景的特殊性,思考:需要在上面哪几个方面改善模型,然后提出模型,解决模型以及具体的问题,就是一个好的硕士论文了!推荐一篇以前学校大牛鲍杨老师的文章:

Simultaneously Discovering and Quantifying Risk Types from Textual Risk Disclosures (Management Science, June 2014) 是LDA应用方面我认为十分成功的一篇文章!

如果对LDA感兴趣,也可以参考我的其他几篇回答:主题模型(topic model)到底还有没有用,该怎么用?​www.zhihu.comLDA适合单条句子级别的短文本分类吗?​www.zhihu.comLDA训练出主题之后,怎么再通过主题计算出一篇文档对于所有主题的分布呢?​www.zhihu.comLDA话题模型训练后,该如何进行文本分类?​www.zhihu.com

希望大家点赞支持!~ 关于LDA的问题多多交流!~^^~

lda主题模型的可视化_把LDA主题模型作为自己的硕士课题,有什么可以做的?相关推荐

  1. lda主题模型困惑度_机器学习-LDA主题模型笔记

    LDA常见的应用方向: 信息提取和搜索(语义分析):文档分类/聚类.文章摘要.社区挖掘:基于内容的图像聚类.目标识别(以及其他计算机视觉应用):生物信息数据的应用; 对于朴素贝叶斯模型来说,可以胜任许 ...

  2. 机器学习 模型性能评估_如何评估机器学习模型的性能

    机器学习 模型性能评估 Table of contents: 目录: Why evaluation is necessary?为什么需要评估? Confusion Matrix混淆矩阵 Accurac ...

  3. 机器学习模型管理平台_如何管理机器学习模型

    机器学习模型管理平台 Michael Berthold是KNIME的创始人兼首席执行官. 在当今快节奏的分析开发环境中,数据科学家通常承担的任务远不只是建立机器学习模型并将其部署到生产中. 现在,他们 ...

  4. 注意力机制可视化_最强NLP模型BERT可视化学习

    摘要: 最强NLP模型谷歌BERT狂破11项纪录,全面超越人类,本文通过可视化带你直观了解它. 2018年是自然语言处理(Natural Language Processing, NLP)领域的转折点 ...

  5. 决策树模型回归可视化分析_Excel进行线性回归模型分析的操作——「杏花开生物医药统计」...

    ​ 通常我们在搜集和整理数据时候会用到Excel这个软件,而分析数据会用到一些专门的工具比如SPSS.R.SAS等. 但其实有时候我们的数据量并不是非常的大,对于一些分析可能只需要一些简单的定性或简单 ...

  6. 机器学习模型 知乎_机器学习中有哪些模型?

    AI主要的作用就是利用计算机模拟各种生物智能来解决问题,生物智能的多样性造就了计算机模拟智能的多样性,但是不管模拟的智能是什么,整个处理的过程都是相似的,都需要把模拟的智能通过数学建模给抽象出来,找到 ...

  7. kmeans及模型评估指标_如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数...

    我们可以通过对一系列曲目进行聚类来创建歌曲的自动播放列表,我们可以展示如何自动创建相似歌曲的子组.通过我们现有的歌曲知识,我们能够验证该聚类练习的结果. 但是,如果我们对数据没有这种先验知识怎么办?如 ...

  8. kelvin模型蠕变方程_基于改进Kelvin模型的三维蠕变损伤模型研究

    基于改进 Kelvin 模型的三维蠕变损伤模型研究 吴祝林 1 , 2 王 伟 1 , 2 朱鹏辉 1 , 2 陈 曦 1 , 2 [摘 要] 摘要:岩石在长时间的蠕变发展中,会呈现出不同的阶段性特性 ...

  9. 评估模型如何建立_建立和评估分类ML模型

    评估模型如何建立 There are different types of problems in machine learning. Some might fall under regression ...

最新文章

  1. 新时代网管的十二大主要职责(一)
  2. UVa10526 - Intellectual Property(后缀数组的应用)
  3. MyBatis Plus自定义SQL使用条件构造器QueryWrapper
  4. boost::stacktrace模块实现终止处理程序的测试程序
  5. Ubuntu 12.04 安装g++ arm交叉编译环境
  6. 《疯狂Java讲义精粹》读书笔记2 ------ 多态
  7. Luogu P3731 [HAOI2017]新型城市化
  8. .1 matlab,1 MATLAB集成环境
  9. oschina git服务, 如何生成并部署ssh key
  10. 梯度投影算法 matlab,梯度投影法及其Matlab实现
  11. #pragma预处理指令详解
  12. 2021秋季跳槽必备:软件测试面试题(附带答案)备战金九银十!
  13. 【图像分割】基于matlab视网膜图像分割【含Matlab源码 382期】
  14. 如何使用QXDM 的1477项 转化utc时间
  15. Bartender 连接MySql数据库并对模板赋值打印标签二维码
  16. java计算机毕业设计大数据在线考试系统在线阅卷系统及大数据统计分析MyBatis+系统+LW文档+源码+调试部署
  17. DPDK Release 20.02
  18. 数据通信最新技术复习
  19. 30天自制操作系统(day10)
  20. 绘制圆形 和 椭圆形:边圆形 imageellipse() 、 填充圆形imagefilledellipse()

热门文章

  1. 《黑客秘笈——渗透测试实用指南(第2版)》目录—导读
  2. 《JUnit实战(第2版)》—第2章2.1节探索JUnit核心
  3. 《C语言及程序设计》实践参考——分数的累加
  4. attachEvent 与addEventListener到底有什么区别呢?
  5. NameValueCollection详解
  6. RTX软件用友OA冲突解决
  7. BCH的去中心化理念自治
  8. 2019热门JAVA面试问题
  9. 基于双向LSTM和迁移学习的seq2seq核心实体识别
  10. PHP 给图片制作水印的方法