LDA主题模型的原理及使用教程
这是一个NLP参赛项目的主题分析环节的代码,总体的工程代码已经上传至github,可以直接下载使用。
https://github.com/stay-leave/weibo-public-opinion-analysis
现在将思路分享给大家。
一、原理介绍
LDA主题模型是Blei等人于2003年提出的一种文档主题生成模型,包括文档、主题和词项3个层级结构。LDA常被用于识别语料中潜在的主题信息。
LDA认为第m篇文档的生成方式如下:
1.对每个主题k∈[1,K],生成“主题-词项”分布 φ⃗ k∼Dir(β⃗ );
2.生成文档m的“文档-主题”分布ϑ⃗ m∼Dir(α⃗ );
3.生成文档m的长度Nm∼Poiss(ξ);
4.对文档m中的每个词n∈[1,Nm],生成当前位置的所属主题 zm,n∼Mult(ϑ⃗ m);
5.根据之前生成的主题分布,生成当前位置的词的相应词项 wm,n∼Mult(φ⃗ zm,n)。
因此,我们的工作是要进行逆推导,从若干词项中找出文档的能够代表文档主题的。
二、代码实现
使用Python的开源第三方库Gensim对热搜博文进行LDA主题分析。
1.对文本进行清洗及分词
微博数据的清洗异常复杂,清洗代码如下:
def clean(line):"""对一个文件的数据进行清洗"""rep=['【】','【','】','
LDA主题模型的原理及使用教程相关推荐
- LDA主题模型的原理和建模
目录 什么是LDA主题模型 背景知识 贝叶斯理论 gamma函数 多个分布 博鲁尼分布 二项分布 多项分布 beta分布 Dirichlet 分布 开始了解LDA Python建模 什么是LDA主题模 ...
- LDA主题模型原理解析与python实现
本文转自:LDA主题模型原理解析与python实现_wind_blast的博客-CSDN博客 python实现: #-*- coding:utf-8 -*- import logging impo ...
- 【带你玩转主题模型Topic Model】—— 之 利用sklearn 实现Latetnt Dirichlet Allocation(LDA)主题模型
写在前面的话 9月份的第一篇blog, 正好是开学季,作为一个学生,hahahha, 我还是正正经经的贡献一篇认为比较干货的文章给大家吧. 我自己是花了很多时间去看懂LDA的算法了,当然了这篇文章不涉 ...
- LDA通俗理解LDA主题模型
转自:http://blog.csdn.net/v_july_v/article/details/41209515#t13 通俗理解LDA主题模型 0 前言 印象中,最开始听说"LDA&qu ...
- 通俗理解LDA主题模型(转载自 v_JULY_v 大佬)
通俗理解LDA主题模型 原文:https://blog.csdn.net/v_july_v/article/details/41209515 0 前言 印象中,最开始听说"LDA" ...
- 理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...
- 通俗理解LDA主题模型(转)
from :http://blog.csdn.net/v_july_v/article/details/41209515 也推荐:LDA漫步指南 通俗理解LDA主题模型 0 前言 印象中,最开始听说& ...
- 【机器学习】基于LDA主题模型的人脸识别专利分析
作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...
- LDA主题模型1——数学基础
相信很多人第一次看到LDA算法都会头大,不管是看论文还是看博客,都少不了各种各样的公式和理论,概率分布.共轭分布.贝叶斯公式.Gibbs采样等等,一大堆耳熟又陌生的词,经常带着一大堆问号去学习,又带着 ...
最新文章
- 资料分享:送你一本《数据结构(C语言版)》电子书!
- Windows Server 2008 和 Windows Vista 结合的功能更加强大
- Qt中另一种创建线程的方式
- gcc 删除elf_ELF文件格式解析器 原理 + 代码
- KMP算法——从入门到懵逼到了解
- English trip V2-B 5 Apartment Living 公寓生活 Teacher:Tom
- 今天第72个儿童节,程序猿“童”样精彩~
- visa虚拟卡生成器_虚拟卡有哪些功能?赶紧了解一下
- scrapy---下载中国大学慕课课程视频及文件
- 七大江河水系--珠江
- ADSP-21489的图形化编程详解(6:一段 EQ,24 段 EQ,31段EQ)
- 老男孩第58期马帅琦
- Codeforces ~ 1063C ~ Dwarves, Hats and Extrasensory Abilities (交互题,二分)
- 编写一个算法,将非负的十进制整数转换为其他进制的数输出,10及其以上的数字从‘A’开始的字母表示。
- python怎么安装jieba库这个模块 No module named ‘jieba‘ python3.7
- 概率数据分布的形状、中心和传播 Shape, Center, and Spread of a Distribution
- PC 客户端产品使用场景小解
- 计算思维-程序设计方法论-Python笔记
- php 两段文本对比,不同的文字显示高亮
- *** stack smashing detected *** 是什么意思?怎么破
热门文章
- 基于PHP排课系统设计与实现 开题报告
- 为什么要有不同的参考文献格式?
- wps如何在目录里面打省略号_电脑wps里省略号怎么打相关阅读-电脑wps里省略号怎么打文章阅读-123文学网...
- 餐饮管理系统(JavaWeb+SSH+MySQL)
- Android推特图片保存路径,如何将twitter的URL内容(tweet,user,comment,…)添加到我的android应用程序...
- acwing-Diango项目 (后半)
- python数据集_【Python数据分析实战】divorce数据集
- AutoRec模型结构详解
- 编译原理三大圣书——龙书、虎书、鲸书
- 计算机操作员初级试题及答案,计算机操作员初级试题及答案.doc