原文链接://tecdat.cn/?p=2155

随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代需求是分不开的。

人民网《地方领导留言板》是备受百姓瞩目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景,tecdat研究人员对北京留言板里面的留言数据进行分析,探索网民们在呼吁什么。

1

数量与情感

朝阳区群众最活跃

图表

从上图可以看出不同地区留言板的情感倾向分布,总的来说,负面情感留言数目和积极情感相差不多,负面情感留言较多,占比46%,积极情感留言占比42%,中立情感的留言占比11%。

从地区来看,活跃在各大媒体的“朝阳区群众”留言数目也是最多的,其次是海淀区,昌平区。因此,从情感分布来看大部分留言还是在反应存在的问题,而不是一味赞美或者灌水。

2

主题分析

外地户口问题呼声最高

接下来,我们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。

我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的前五个高频词取出,如下表所示。

图表

然后我们将占比最高的前六个主题与它们的情感倾向进行分析。

图表

从上图可以看出大家关于6大主题的讨论:

主题1反应孩子,外地户口办理的问题是最多的,反应了外地落户北京相关的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。

主题2是反应环境改造及棚户改造(e.g.棚户房屋破旧、墙面潮湿、上下水管道老化腐烂现象严重经常造成跑冒滴漏,遇到雨雪天气,道路积水、泥泞不堪,大院居民尤其是老人小孩出行非常不便)。

主题3是反应高考和医保(e.g.外地人衷心的希望政府能关注一下孩子在北京的高考问题)。

主题4是汽车摇号政策(e.g.现行的摇号方案是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车根本摇不号;有的是不想买车就摇上了)。

主题5是反应工资和租房问题(e.g.我是外地退休教师。因为孩子在北京工作,故到北京帮助孩子料理家务,以支持孩子工作。因为北京房价昂贵,我们买不起大房,三代人只能挤着住。我想问问市长,我们是否也能住公租房)。

主题6是违法建筑(e.g.XX雅苑许多一层业主私搭乱建成风,且物业无能,造成极大的安全隐患)。

3

地区、主题与情感得分

接下来我们分析了不同主题和地区的情感倾向分布。从下图可以看出,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中积极情感占较大比例。

图表

我们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也可以发现,情感得分最高的是在主题11居民生活下的朝阳区留言内容。总的来说,根据积极情感的内容分布来看,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中表现出较好的反馈。

点击标题查阅往期内容

用R对Twitter用户的编程语言语义分析

爬取微博用户行为数据语义分析数据挖掘报告

python爬虫进行Web抓取LDA主题语义数据分析报告

基于LDA主题模型聚类的商品评论文本挖掘

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘

R语言用随机森林和文本挖掘提高航空公司客户满意度

R语言中对文本数据进行主题模型topic modeling分析

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

更多内容,请点击左下角“阅读原文”查看

关注我们

案例精选、技术干货 第一时间与您分享

长按二维码加关注

更多内容,请点击左下角“阅读原文”查看

主题模型(LDA)案例:挖掘人民网留言板文本数据相关推荐

  1. NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

    全文链接:tecdat.cn/?p=2155 随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带.领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的 ...

  2. 地方政府留言板文本数据

    一.数据简介 近年来,随着服务型政府和回应型政府建设的推进,网络问政已成为公民行使知情权.参与权.表达权和监督权的重要渠道.其中,影响力最大的当属人民网于2006年创办的<地方领导留言板> ...

  3. 主题模型(LDA)案例:分析人民网留言板数据

    随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带.领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代需求是分不开的. ▼ 人民网<地方领 ...

  4. python数据分析论文报告_Calaméo - 【原创】在PYTHON中进行主题模型LDA分析数据分析报告论文(代码+数据) ....

    [ 原 创 ] 定 制 代 写 开 发 辅 导 答 疑 r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assi ...

  5. gensim实现LDA主题模型-------实战案例(分析希拉里邮件的主题)

    数据集下载:https://download.csdn.net/download/qq_41185868/10963668 第一步: 加载一些必要的库, 我们用的是gensim中的LDA模型,所以必须 ...

  6. 主题模型 LDA 入门(附 Python 代码)

    一.主题模型 在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且 ...

  7. lda主题模型应用java_主题模型LDA及在推荐系统中的应用

    1 关于主题模型 使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版.隐含狄利克雷分布简称LDA(latent dirichlet allocation) ...

  8. 主题模型 LDA,Dirichlet分布 和朴素贝叶斯算法

    主题模型 主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型. 主题模型主要被用 ...

  9. python主题建模_在PYTHON中进行主题模型LDA分析

    原文链接:在PYTHON中进行主题模型LDA分析​tecdat.cn 主题建模是一种在大量文档中查找抽象主题的艺术方法.一种作为监督无的机器学习方法,主题模型不容易评估,因为没有标记的"基础 ...

最新文章

  1. springboot 订单重复提交_Spring Boot (一) 校验表单重复提交
  2. AM消息中间件OA、ERP消息提醒的必要工具
  3. MySQL: Root element is missing
  4. 丹麦见闻(转自王重合原创)
  5. 民企信息化建设个人经历(四)
  6. 现代软件工程 第十一章 【软件设计与实现】 练习与讨论
  7. 技术干货 | 基于MindSpore更好的理解Focal Loss
  8. ES6、7学习笔记(尚硅谷)-5-箭头函数
  9. Code-NFine:NFine权限控制
  10. 视频截取图片帧工具(可免费使用)
  11. 韩信点兵python程序_韩信点兵(C语言代码)
  12. Mac电脑快捷键盘点:QuickTime Player 键盘快捷键和手势大全
  13. FPGA控制AD7606进行数据采集
  14. 利用微软Text-To-Speech朗读文本
  15. 数组统计问题(统计各学生的优秀率及格率)C语言
  16. 宝华计算机维修,唐山市路北区宝华计算机维修服务
  17. 铜护套氧化镁矿物质绝缘电缆
  18. [系列] - go-gin-api 规划目录和参数验证(二)
  19. VS2010黑色主题Dark完美设置!
  20. Hyperledger Fabric 部署在多个主机上

热门文章

  1. gps l1带宽_EPON目前可以提供上下行对称的1.25Gps的带宽。
  2. Modern Microprocessors A 90-Minute Guide
  3. nnU-Net 如何安装--傻瓜式安装教程
  4. samtools小记
  5. 2022年一级注册建筑师考试建筑经济、施工及设计业务管理复习题及答案
  6. 机电继电器行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  7. 用 vue 写一个iPhone时钟
  8. linux rhel 6 x64,RedHat Enterprise Linux (RHEL) 6正式版发布下载(很快)
  9. AE表达式与脚本——显示文字框区域
  10. 路灯发光二极管的选择