前段时间做了新浪微博的主题划分,结果还可以,上传上来算是对之前的一个交代吧

数据集:

利用Gooseeker在新浪微博上爬取了2161个用户,包括这些用户间21368条相互间的关注关系,爬取了2161个新浪微博发布的微博数,粉丝数和关注数,单个用户最近发布的300条微博,包括微博文本内容、微博的评论数和转发数。

数据预处理:

1)

将单个用户发布的300条微博整合成一个文档

2)

对文档进行噪音处理,去除‘@某用户:’、‘我在这里:北京市’相类似的无用短语,再进一步去除特殊的标点符号;

3)

利用结巴分词对文档进行分词工作;

4)

利用完善的停用词表对文档去除停用词;

5)

得到的结果准备进行LDA主题划分

参数设置:

用户发布的微博内容文档进行LDA主题划分时,根据Griffiths

& Steyvers(2004)对主题模型参数设置的研究,将实验参数设置为经验值,主题设为50个,吉布斯采样迭代次数设置为100次。

划分结果:

在每个主题内部根据词语概率高低进行主题词排序,选择具有最高概率的10个词语评估话题挖掘效果。下表所示是取了LDA模型结果中前10个话题及其关键词。

话题 话题关键词

Topic1 推荐 知乎 纪录片 年 下载 阅读 文章 作者 英语 豆瓣

Topic2 手机 三星 苹果 小米 发布 元 屏幕 支持 曝光 产品

Topic3 点 股 市场 股市 股票 经济 投资 资金 交易

Topic4 孩子 岁 人 男子 年 元 老人 网友 请 女孩

Topic5 人 工作 写 老师 好 学习 看到 发现 时间 大学

Topic6 锤子 收集 科技 坚果 发布会 关注 罗永浩 新品 老罗 版

Topic7 电影 看过 春晚 真是 节目 看到 来自 电视剧 观众 演员

Topic8 深圳 万 中国 城市 房价 政策 银行 元 人 改革 钱

Topic9 成都 重庆 西安 事 身边 吃 地铁 网友 路 南昌

Topic10 公司 年 互联网 市场 技术 新 企业 创新 未来 产品这是最直观的结果,还有其他主题-词,文档-主题的概率分布就比较繁杂,不做上传了,就是结果还可以,当然因为做的方向不是这个方向,所以也就是凑合玩玩的态度~

心得体会:

GooSeeker真的是业界良心,没有话说的,个人觉得很是方便的网页数据采集器,当然效率有待提高

python的包功能也是真的强大,还有网上一些大神的代码能力以及注释都让人叹为观止,不错不错的

越是纯粹的东西越是让人印象深刻,这些东西做出来感觉还是很好的

———————————————————————————————

GitHub - a55509432/python-LDA: lda模型的python实现

我最近也要做。。参考这个吧,完了做出来效果再来沟通

楼主要是有什么心得体会可以分享沟通就更好!

lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?相关推荐

  1. 利用Python做excel文本合并(根据左侧单元格,快速合并右侧单元格内容)

    前言:昨天获得一个数据处理的小需求,比较简单,用VBA也能做,不过最近Python用的比较多,所以用Python写了,效率也很快. 需求: 有一张总表,如下图所示 需要根据左侧的工号和姓名,合并右侧获 ...

  2. 利用Python做新能源公司股票分析(可视化)

    这篇文章只有一些代码,分析的内容很多,但是没有进行必要的解释 我也是第一次做,不是很懂股票,可能有一些错误. # 导包 import numpy as np import matplotlib.pyp ...

  3. garch预测 python_【2019年度合辑】手把手教你用Python做股票量化分析

    引言 不知不觉,2019年已接近尾声,Python金融量化公众号也有一年零两个月.公众号自设立以来,专注于分享Python在金融量化领域的应用,发布了四十余篇原创文章,超过两万人关注.这一路走来,有过 ...

  4. LDA主题模型原理解析与python实现

    本文转自:LDA主题模型原理解析与python实现_wind_blast的博客-CSDN博客   python实现: #-*- coding:utf-8 -*- import logging impo ...

  5. 怎么用python编写个apk_【android】如何利用python做Android项目自动化构建,并一键实现构建结果发送到钉钉通知以及通过二维码下载apk或者其他处理等功能...

    今天我们来谈一谈用python做Android项目自动化构建的过程.我们知道在常规的Android开发过程中,开发人员打包的时候需要在Android Studio当中进行,或者通过gradle命令,但 ...

  6. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  7. python 数据分析学什么-利用Python做数据分析 需要学习哪些知识

    根据调查结果,十大最常用的数据工具中有八个来自或利用Python.Python广泛应用于所有数据科学领域,包括数据分析.机器学习.深度学习和数据可视化.不过你知道如何利用Python做数据分析吗?需要 ...

  8. python自己做个定时器_技术图文:如何利用 Python 做一个简单的定时器类?

    原标题:技术图文:如何利用 Python 做一个简单的定时器类? 背景 今天在B站上看有关 Python 最火的一个教学视频 -- "零基础入门学习 Python",这也是我们 P ...

  9. 通达信行情数据获取--python_利用 Python 获取余额宝历史收益数据

    最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据.因此考虑 ...

最新文章

  1. 干货!高容错微服务架构设计思路
  2. VTK:几何对象之EarthSource
  3. githooks_使用Githooks改善团队的开发工作流程
  4. 主机不支持php5.4,GoDaddy Linux主机不再支持PHP5.3版本 | Godaddy美国主机中文指南
  5. 计算机组成原理第06章在线测试,计算机组成原理第六章单元测试(二)(含答案)(4页)-原创力文档...
  6. POJ 1003 Hangover
  7. ajax post 与get方法 data写法
  8. 机器学习实践指南(一)—— 总论
  9. Class.forName的作用以及为什么要用它【转】
  10. oracle数据库注册服务,oracle 共享服务联接静态注册服务
  11. Trimble Sketchup Pro 2013 英文破解版
  12. GIS数据恢复(ArcMap)地理数据库误删
  13. solidworks2016安装教程及破解方法
  14. css中的盒模型box-sizing
  15. 测试网速_搭建Web SpeedTest网速测试工具
  16. 使用vi编辑器编辑一个C语言源程序hello.c,并使用编译工具GCC编译该源程序。
  17. 制作可执行的JAR文件包及jar命令详解
  18. NUC977 烧录uboot到 SPI flash
  19. java开发网易电话面试 一面总结
  20. how2j:学习笔记

热门文章

  1. 软件性能测试报告_软件测试新手请收好:测试基本流程、及如何写好测试用例全在这里!...
  2. pythonenumapi_Python调用windows API实现屏幕截图
  3. Django Forms实例
  4. 使用jconsole监控JVM内存
  5. Ubantu中安装sublime
  6. 10-线程,进程,协程,IO多路复用
  7. Linux系统(四)LVS集群负载均衡NAT模式
  8. js实现简单的图片轮播
  9. Excel中删除链接
  10. 差分约束系统总结(转)