这是一个NLP参赛项目的主题分析环节的代码,总体的工程代码已经上传至github,可以直接下载使用。

https://github.com/stay-leave/weibo-public-opinion-analysis

现在将思路分享给大家。

一、原理介绍

LDA主题模型是Blei等人于2003年提出的一种文档主题生成模型,包括文档、主题和词项3个层级结构。LDA常被用于识别语料中潜在的主题信息。
LDA认为第m篇文档的生成方式如下:
1.对每个主题k∈[1,K],生成“主题-词项”分布 φ⃗ k∼Dir(β⃗ );
2.生成文档m的“文档-主题”分布ϑ⃗ m∼Dir(α⃗ );
3.生成文档m的长度Nm∼Poiss(ξ);
4.对文档m中的每个词n∈[1,Nm],生成当前位置的所属主题 zm,n∼Mult(ϑ⃗ m);
5.根据之前生成的主题分布,生成当前位置的词的相应词项 wm,n∼Mult(φ⃗ zm,n)。
因此,我们的工作是要进行逆推导,从若干词项中找出文档的能够代表文档主题的。

二、代码实现

使用Python的开源第三方库Gensim对热搜博文进行LDA主题分析。

1.对文本进行清洗及分词

微博数据的清洗异常复杂,清洗代码如下:

def clean(line):"""对一个文件的数据进行清洗"""rep=['【】','【','】','												

LDA主题模型的原理及使用教程相关推荐

  1. LDA主题模型的原理和建模

    目录 什么是LDA主题模型 背景知识 贝叶斯理论 gamma函数 多个分布 博鲁尼分布 二项分布 多项分布 beta分布 Dirichlet 分布 开始了解LDA Python建模 什么是LDA主题模 ...

  2. LDA主题模型原理解析与python实现

    本文转自:LDA主题模型原理解析与python实现_wind_blast的博客-CSDN博客   python实现: #-*- coding:utf-8 -*- import logging impo ...

  3. 【带你玩转主题模型Topic Model】—— 之 利用sklearn 实现Latetnt Dirichlet Allocation(LDA)主题模型

    写在前面的话 9月份的第一篇blog, 正好是开学季,作为一个学生,hahahha, 我还是正正经经的贡献一篇认为比较干货的文章给大家吧. 我自己是花了很多时间去看懂LDA的算法了,当然了这篇文章不涉 ...

  4. LDA通俗理解LDA主题模型

    转自:http://blog.csdn.net/v_july_v/article/details/41209515#t13 通俗理解LDA主题模型 0 前言 印象中,最开始听说"LDA&qu ...

  5. 通俗理解LDA主题模型(转载自 v_JULY_v 大佬)

    通俗理解LDA主题模型 原文:https://blog.csdn.net/v_july_v/article/details/41209515 0 前言 印象中,最开始听说"LDA" ...

  6. 理解 LDA 主题模型

    前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...

  7. 通俗理解LDA主题模型(转)

    from :http://blog.csdn.net/v_july_v/article/details/41209515 也推荐:LDA漫步指南 通俗理解LDA主题模型 0 前言 印象中,最开始听说& ...

  8. 【机器学习】基于LDA主题模型的人脸识别专利分析

    作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...

  9. LDA主题模型1——数学基础

    相信很多人第一次看到LDA算法都会头大,不管是看论文还是看博客,都少不了各种各样的公式和理论,概率分布.共轭分布.贝叶斯公式.Gibbs采样等等,一大堆耳熟又陌生的词,经常带着一大堆问号去学习,又带着 ...

最新文章

  1. 资料分享:送你一本《数据结构(C语言版)》电子书!
  2. Windows Server 2008 和 Windows Vista 结合的功能更加强大
  3. Qt中另一种创建线程的方式
  4. gcc 删除elf_ELF文件格式解析器 原理 + 代码
  5. KMP算法——从入门到懵逼到了解
  6. English trip V2-B 5 Apartment Living 公寓生活 Teacher:Tom
  7. 今天第72个儿童节,程序猿“童”样精彩~
  8. visa虚拟卡生成器_虚拟卡有哪些功能?赶紧了解一下
  9. scrapy---下载中国大学慕课课程视频及文件
  10. 七大江河水系--珠江
  11. ADSP-21489的图形化编程详解(6:一段 EQ,24 段 EQ,31段EQ)
  12. 老男孩第58期马帅琦
  13. Codeforces ~ 1063C ~ Dwarves, Hats and Extrasensory Abilities (交互题,二分)
  14. 编写一个算法,将非负的十进制整数转换为其他进制的数输出,10及其以上的数字从‘A’开始的字母表示。
  15. python怎么安装jieba库这个模块 No module named ‘jieba‘ python3.7
  16. 概率数据分布的形状、中心和传播 Shape, Center, and Spread of a Distribution
  17. PC 客户端产品使用场景小解
  18. 计算思维-程序设计方法论-Python笔记
  19. php 两段文本对比,不同的文字显示高亮
  20. *** stack smashing detected *** 是什么意思?怎么破

热门文章

  1. 基于PHP排课系统设计与实现 开题报告
  2. 为什么要有不同的参考文献格式?
  3. wps如何在目录里面打省略号_电脑wps里省略号怎么打相关阅读-电脑wps里省略号怎么打文章阅读-123文学网...
  4. 餐饮管理系统(JavaWeb+SSH+MySQL)
  5. Android推特图片保存路径,如何将twitter的URL内容(tweet,user,comment,…)添加到我的android应用程序...
  6. acwing-Diango项目 (后半)
  7. python数据集_【Python数据分析实战】divorce数据集
  8. AutoRec模型结构详解
  9. 编译原理三大圣书——龙书、虎书、鲸书
  10. 计算机操作员初级试题及答案,计算机操作员初级试题及答案.doc