NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类

目录

输出结果

设计思路

核心代码

训练数据集

LDA模型应用


输出结果


设计思路

核心代码

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
print('输出第10号分类:',lda.print_topic(10, topn=5))
print('输出所有的主题分类:',lda.print_topics(num_topics=20, num_words=5))    

训练数据集

下载链接:希拉里邮件数据集

LDA模型应用

使用训练好的LDA模型,输入以下几句话,判定各自属于哪个topic

Already voted? That's great! Now help Hillary win by signing up to make calls now
It's Election Day! Millions of Americans have cast their votes for Hillary—join them and confirm where you vote
We don’t want to shrink the vision of this country. We want to keep expanding it
We have a chance to elect a 45th president who will build on our progress, who will finish the job

NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类相关推荐

  1. 一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度...

    摘  要  在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的.为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Det ...

  2. DL之GD:利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的数据集实现二分类预测(超平面可视化)

    DL之GD:利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的数据集实现二分类预测(超平面可视化) 目录 利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的 ...

  3. TF之NN:利用DNN算法(SGD+softmax+cross_entropy)对mnist手写数字图片识别训练集(TF自带函数下载)实现87.4%识别

    TF之NN:利用DNN算法(SGD+softmax+cross_entropy)对mnist手写数字图片识别训练集(TF自带函数下载)实现87.4%识别 目录 输出结果 代码设计 输出结果 代码设计 ...

  4. 一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度

    一个基于特征向量的近似网页去重算法--term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度 摘  要  在搜索引擎的检索结果页面中,用户经常会得到内容相 ...

  5. TF之pix2pix之dataset:基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集

    TF之pix2pix之dataset:基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集 目录 转换图像并合并 1.A 类图像将挖去中心像素后得到B 类图像 2.生成并列图像样本的全过 ...

  6. TF之pix2pix:基于TF利用Facades数据集训练pix2pix模型、测试并进行生成过程全记录

    TF之pix2pix:基于TF利用Facades数据集训练pix2pix模型.测试并进行生成过程全记录 目录 TB监控 1.SCALARS 2.IMAGES 3.GRAPHS 4.DISTRIBUTI ...

  7. java后台处理excel_java后台利用Apache poi 生成excel文档提供前台下载示例

    之前在项目中会用到在java在后台把数据填入Word文档的模板来提供前台下载,为了自己能随时查看当时的实现方案及方便他人学习我写了这篇博客,访问量已经是我写的博客里第一了.于是乎我在学会用Java在后 ...

  8. 利用PowerShell Empire实现Word文档DDE攻击控制(简单没啥用)

    近期,有安全人员发现了一种DynamicData Exchange (DDE)协议绕过MSWord和MSExcel宏限制,不需使用MSWord和MSExcel漏洞,就能实现在Office文档中执行恶意 ...

  9. 全部博文集锦第三期CHM文件,及十三个经典算法研究PDF文档

        最近一直忙于找工作中,所以博客未能及时更新,乱七八糟的信息在微博上倒是发了不少.再者,csdn博客这段时间之内一直在改版,本想等它彻底改好了,再发表文章.不过,现在看来,还是算了. 做点实事吧 ...

最新文章

  1. ReportViewer改变图表类型
  2. WPF实现环(圆)形进度条
  3. 分享ArcGis For Flex API 1.3 Diagram
  4. php技术计算字符个数的函数是什么,php计算字符串中的单词数的函数str_word_count()...
  5. 什么是MongoDB
  6. ExtJS 3 在Tab下加入Form 实例
  7. 使用ssh公钥密钥自动登陆linux服务器
  8. C语言 · 字符删除
  9. Java基础语法面试题汇总
  10. Mediastream2 用法介绍及简明实例分析
  11. Python+Excel法力无穷
  12. 计算机面板上英文字母的意识,电脑键盘上有英语的汉语的意识
  13. python 听歌识曲_Shazam听歌识曲算法解析+python实现-3 检索歌曲
  14. Python Pygame制作简单五子棋游戏(详细代码+解释)
  15. 用POI实现双层标题excel打印
  16. mac系统设置alias
  17. AS400 - DB2 for i的加密、解密
  18. 牛客面试系列之Redis
  19. HEAD detached from origin/...导致push失败
  20. 【数学建模入门】整数规划求最优解|分枝定界法求最优解

热门文章

  1. oracle 怎么判断是不是第一条记录_怎么判断自己是不是阳痿呢?防治阳痿的5个方法值得一试...
  2. linux kernel 中mdelay() 与msleep()的区别
  3. python_day10_并发编程
  4. C#进阶之路(一):委托
  5. jQuery对象的序列化详解
  6. Vue + VueRouter + Vuex + Axios 抓取 GitHub 上的 Issues 来搭建个人博客站点
  7. 虚拟化技术的概述及使用
  8. 在 Java 项目中打印错误日志的正确姿势,排查问题更方便,非常实用!
  9. 一个39岁程序员的应聘被拒
  10. 中台,都他妈被你们说糊涂了,文内才是正宗解释,别摸石头过河了,石头早就有了