前言:写小论文用到lda主题模型,需要得到所有的文档-主题分布。现有的只是为文档输出前几个概率大的主题
代码

import numpy as np
from gensim.models import LdaModel#训练lda模型
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda ,minimum_probability=0)"""start:文档-主题分布矩阵,使用DocumentTopicMatrix[][]存储"""
DocumentTopicMatrix = np.zeros([len(doc), size_lda])#存储文档-主题分布,len(doc)就是文档的总个数#存储文档-主题分布矩阵
for id in range(len(corpus)):doc_top = lda.get_document_topics(corpus[id], per_word_topics=False)m = 0for x in doc_top:DocumentTopicMatrix[id][m] = x[1]m += 1#保存文档-主题分布矩阵
np.savetxt("allData\DocumentTopicMatrix.txt",DocumentTopicMatrix)
print("文档-主题分布矩阵保存成功")
"""end:文档-主题分布矩阵,使用DocumentTopicMatrix[][]存储"""

minimum_probability是概率低于此阈值的主题将被过滤掉。默认是0.01,设置为0则表示不丢弃任何主题。

LDA模型,获取所有的文档-主题分布(即得到文档对于每个主题的概率分布)并保存相关推荐

  1. NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类

    NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容-利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类 目录 输出结果 设计思路 核心代码 训练数据集 LDA模型应用 输出结果 设计思路 ...

  2. gensim LDA模型提取每篇文档所属主题(概率最大主题所在)

    gensim的LDA算法中很容易提取到每篇文章的主题分布矩阵,但是一般地还需要进一步获取每篇文章归属到哪个主题概率最大的数据,这个在检索gensim文档和网络有关文章后,发现竟然没有. 简单写了一下. ...

  3. 使用LDA模型对新的文档进行分类

    核心代码很简单: import gensim from 自己的工具类 import get_seg_content# lda_model 为已经训练好的LDA模型 # content 为一条文本内容 ...

  4. LDA模型中文文本主题提取丨可视化工具pyLDAvis的使用

    主题模型LDA的实现及其可视化pyLDAvis 1. 无监督提取文档主题--LDA模型 1.1 准备工作 1.2 调用api实现模型 2. LDA的可视化交互分析--pyLDAvis 2.1 安装py ...

  5. 困惑度、主题一致性,lda模型找出主题相关词

    困惑度perplexity:句子的概率的倒数.如果句子的概率越大,说明这句话越符合人话的规律,即p(句子),pp困惑度越小.模型对该句子就越不困惑. 通俗一点解释下就是,困惑度表示的对于一篇文章来说, ...

  6. 通过分析希拉里邮件简单熟悉使用lda模型提取语料库主题

    1.知识准备 1.1 函数解析 函数官网参考 class gensim.models.ldamodel.LdaModel(corpus=None, num_topics=100, id2word=No ...

  7. 文本挖掘:LDA模型对公号文章主题分析

    转载自:[大数据部落]文本挖掘:LDA模型对公号文章主题分析@tecdat拓端 原文链接:http://tecdat.cn/?p=2175/ 1 语义透镜 顾客满意度和关注点 我们对于评价数据进行LD ...

  8. html 文档自动获取css,前端基础中css选择器,html文档 ,与javascrip中基本的获取

    1,Vscode自动刷新插件与格式化插件 应用搜索搜索liveserver,安装后.点击右下角Golive可以进入使用. 格式化插件prettier:首选项,设置,搜索format,勾选prettie ...

  9. Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

    Requests+Etree+BeautifulSoup+Pandas+Path应用 | 获取页面指定区域数据存入html.excel文档 1 需求来源 2 需求细节 3 设计分析 4 技术栈 5 设 ...

最新文章

  1. Oracle表操作_看这一篇就够了
  2. Xamarin环境搭建
  3. Qt之excel 操作使用说明
  4. Leetcode题库 11.盛水最多的容器(双指针法 C实现)
  5. 算法训练营09-深度优先和广度优先
  6. A Web Module That Uses JavaServer Faces Technology: The hello2 Example
  7. 在matlab中输出、读取多个文件
  8. java接口废弃注释_Java注释Override、Deprecated、SuppressWarnings详解
  9. 结构模式 01-外观模式(facade)
  10. STM32应用笔记转载
  11. 团队作业2 需求分析与原型设计
  12. OC自动内存释放总结
  13. 计算机桌面工具栏,好用的4D桌面工具栏必备,整洁的桌面小众软件
  14. uniapp 发布h5后报错,连接服务器超时,点击屏幕重试
  15. 使用prometheus(普罗米修斯)监控redis容器详解
  16. 【Kata Daily 190927】Counting sheep...(数绵羊)
  17. app分发源码完整­­|免签封装
  18. Oracle 同义词总结
  19. 十年陌陌,是否能成为Hello
  20. J2EE框架设计技术分析

热门文章

  1. 关于win10图标不正常显示的一种解决方法
  2. python中的pass是什么意思_Python中pass的作用与使用教程
  3. Spark性能调优系列:Spark参数配置大全(官网资料)
  4. html假蓝屏死机源码,100秒内蓝屏死机的脚本源代码
  5. C语言:数组与指针之 p++ 操作的细节问题(p是指针)
  6. 正式成为 Apache Teaclave 子项目,百度安全 Rust TrustZone SDK 赋能多平台隐私安全计算开源生态
  7. UnicodeEncodeError: ‘ascii‘ codec can‘t encode character ‘\u5bfc‘ in position 0: ordinal not in rang
  8. 泌尿系统CT成像-常识
  9. Android权限——中英文对照表
  10. 软文营销登顶销售奇迹的4U定律你知道吗?