原文链接:http://tecdat.cn/?p=1506

原文出处:拓端数据部落公众号

高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。

根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。


相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59


研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。

▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。 有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。

属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

从消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

从工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

从健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

从休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。

▍热门推文总体上以积极正向为主

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。

通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象。

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。

▍热门推文中只有四分之一表现出了明显的情感

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。 如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。

▍从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析相关推荐

  1. 文本挖掘:twitter推特LDA主题情感分析

    高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象"塑型"的"看不见"的手.最近我们被客户要求撰写关于推 ...

  2. python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)

    原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...

  3. 大数据时代的精准推送限制了我们的视野

    现在我们处于一个大数据时代,我们的喜好.习惯.每天出入的场所.我们关注的新闻甚至于我们的一切都在被这个大数据时代所监听.亚马逊知道我喜欢读IT类的书,网易云知道我喜欢日系音乐,沃尔玛知道我喜欢甜品,我 ...

  4. 2016年大数据Spark“蘑菇云”行动代码学习之AdClickedStreamingStats模块分析

    2016年大数据Spark"蘑菇云"行动代码学习之AdClickedStreamingStats模块分析     系统背景:用户使用终端设备(IPAD.手机.浏览器)等登录系统,系 ...

  5. 大数据的下一站是什么?服务/分析一体化(HSAP)

    简介: 大数据的下一站是什么?服务/分析一体化(HSAP) 作者:蒋晓伟(量仔) 阿里巴巴研究员 因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统.随着互联网的 ...

  6. 大数据下的竞彩足球胜平负分析技巧2

    上期内容: 大数据下的竞彩足球胜平负分析技巧1_sundayhost的博客-CSDN博客 上期内容分析.证明了竞彩官方终赔时,当主队让1球同时又满足:让负赔率>平负均值赔率的情况出现了6胜3平1 ...

  7. 基于大数据背景下的全国各大城市地铁客流量分析

    目录 第一章 项目介绍 第二章 项目组织与项目计划 第三章 数据采集 3.1 数据采集目标 3.2 数据采集工具与方法 3.3 数据采集流程 3.4 数据采集保存 3.5 本章小结 第四章 数据预处理 ...

  8. 网易云评论进行LDA主题模型分析

    网易云评论进行LDA主题模型分析 前言 这个项目是在学校参加竞赛下与另一个同学一起做的,我负责的是对评论进行LDA主题模型的分析.写这篇文章是想记录一下学习过程,有什么地方描述的不对还请大家多多指教, ...

  9. 【python-sklearn】中文文本处理LDA主题模型分析

    数据集和资料: 链接:LDA主题模型 提取码:rlns 数据概览 代码: import os import pandas as pd import re import jieba import jie ...

  10. 后端/Java/大数据/C++ 校招内推面经

    点击上方"小强的进阶之路",选择"星标"公众号 最高效的求职秘籍就是刷面经和内推! 预计阅读时间: 13分钟 [后端开发]后端开发面经总结 https://ww ...

最新文章

  1. java怎么安装manven_Canal——Canal-Adapter源码在IDEA部署运行
  2. 对AFNetworking的简单封装
  3. 打开u盘时提示是否要将其格式化的提示
  4. PHP solr服务器搭建,搜索方案 solr+php如何安装配置?
  5. pymysql模块操作数据库及连接报错解决方法
  6. SVN 常用操作命令 使用笔记
  7. python: 判断字符串是否为合法的json格式
  8. python计算两个点之间的距离_python实现两个经纬度点之间的距离和方位角的方法...
  9. 晓庄学院计算机科学分数,南京晓庄学院计算机单招分数
  10. Python三维绘图--Matplotlib colorbar生成
  11. Apache 紧急修复已遭利用且补丁不完整的 HTTP Server 0day
  12. Python中turtle模块画图
  13. 《MicoPython入门指南》一书即将出版
  14. Razer Synapse雷云本地提权漏洞的复现
  15. python extractor_Day 16: Goose Extractor —— 好用的文章提取工具
  16. mysql 随机函数
  17. 四、AOSP-开机报错
  18. F. Equalize the Array(思维+前缀和)
  19. 业余时间研究了下微信小程序版的街机游戏模拟器,8090后的童年回忆啊
  20. 关于Maven中pom文件标签的详解,分别对比父工程pom文件与子工程pom文件。

热门文章

  1. iFrame左树目录
  2. 计算机世界:免费的代价
  3. HanLP: Han Language Processing
  4. Mysql优化(出自官方文档) - 第七篇
  5. 数据--第24课 - 队列的特别实现
  6. 高通又失一员大将,英特尔成功挖角高通CFO
  7. You Probably Dont Need Derived State
  8. ls在系统中常用的选项与用法
  9. 一些有意思的博客收藏
  10. LINUX下多路径(multi-path)介绍及使用