原文链接:http://tecdat.cn/?p=12310

原文出处:拓端数据部落公众号

新冠肺炎的爆发让今年的春节与往常不同。与此同时,新闻记录下了这场疫情发展的时间轴。

为此我们分析了疫情相关的新闻内容、发布时期以及发布内容的主题和情感倾向这些方面的数据,希望通过这些数据,能对这场疫情有更多的了解。


相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59


新闻对疫情相关主题的情感倾向

通过对疫情相关的新闻进行主题分析和情感分析,我们可以得到每个主题的关键词以及情感分布。

图表1

症状检测主题的新闻内容表达出最多积极情感,该话题下讨论的是医院中检测患者的症状,其次是城市服务以及学校相关的新闻内容,讨论了商店关闭,社区隔离和学校延迟开学等话题,生活主题也表达出较多的积极情感(关键词:时间、家庭),疫情增加了家人相处的时间(图1)。

新闻表达的情感倾向随时间变化

考虑到新闻发布的时间、新闻相关的话题因素,图2显示了通过情感交叉分析得到的结果。

图表2

从话题排名来看,不同时间段的新闻中最热门的话题都有经济、出行和政治。从情感分布来看,1月份的经济主题新闻表达出较多的负面情绪(如股市因对冠状病毒的日益关注而下跌)。3月份随着疫情逐渐好转,城市主题新闻(如疫情期间保证商店服务和生产经营)的热度排名超过防护主题(关键词:口罩,洗手,健康等)。从1月到3月,各个主题下的积极情感比例都在不断增加。

新闻对不同主题关键词的关注度

考虑到不同话题的关注度,图3显示了高频关键词的分布。

图表3



从中我们可以看到疫情相关的新闻中最关注的方面,首先是健康,家庭和隔离和出行,其中健康出现的频率最高。然后关注的话题,包含冠状病毒、疫情期间的工作和病毒检测。其次关注的话题包含区分健康和感染的症状。其他关注的热门关键词包含学校、商业、旅行和经济等。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。


最受欢迎的见解

1.小红书用户行为数据采集洞察:婚礼种草指南

2.机器学习助推快时尚精准销售预测

3.单车上的城市:共享单车数据洞察

4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

5.数据盘点:家电线上消费新趋势

6.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

7.虎扑论坛基因探秘:社群用户行为数据洞察

8.把握出租车行驶的数据脉搏

9.智能门锁“剁手”数据攻略

拓端tecdat|自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据相关推荐

  1. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  2. NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

    全文链接:tecdat.cn/?p=2155 随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带.领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的 ...

  3. NLP应用:情感分析和自然语言推断

    0 序言 回顾: 如何在文本序列中表示词元 训练了词元的表示 这样的预训练文本可通过不同的模型架构,放入不同的下游NLP任务 之前的提到的NLP应用没有使用 预训练 本章: 重点:如何应用 DL表征学 ...

  4. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  5. 拓端tecdat荣获2022年度51CTO博主之星

    相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...

  6. 拓端tecdat|bilibili视频流量数据潜望镜

    最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...

  7. 主题模型(LDA)案例:挖掘人民网留言板文本数据

    原文链接://tecdat.cn/?p=2155 随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带.领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发 ...

  8. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  9. 一文看懂 NLP 中的情感分析任务

    目前,情感分析在中文自然语言处理(Natural Language Processing)中比较火热,很多场景下,我们都需要用到情感分析.比如,做金融产品量化交易,需要根据爬取的舆论数据来分析政策和舆 ...

  10. NLP学习笔记——情感分析一 (简介)

    目录 一.什么是情感分析 二.研究现状及存在问题 1.研究现状 (1). 传统情感分类方法 (2). 短文本情感分类方法 (3). 基于深度学习的方法 2.存在问题 (1). 文化差异 (2).情感词 ...

最新文章

  1. python可变交换性能优化
  2. raid5通常需要几块盘_raid5需要几块硬盘
  3. IP地址的简单说明---Linux学习笔记
  4. js 操作cookies 方法
  5. 简单阐述下OC中UIImage三种创建方式~~~
  6. 7年老Android一次操蛋的面试经历,系列教学
  7. Java程序员必备:异常的十个关键知识点
  8. 浅入浅出深度学习理论实践
  9. 从零开始的服务器配置
  10. FCN模型和loss实现(code)
  11. python继承的写法_python – 从框架继承或不继承Tkinter应用程序
  12. 性能测试工具 wrk 安装与使用
  13. 「代码随想录」123.买卖股票的最佳时机III【动态规划】力扣详解!
  14. Java EE实战教程 servlet (一)
  15. python走迷宫_python-走迷宫
  16. 按字节编址、按字编址、按字节寻址、按字寻址。
  17. JAVAweb JSP飞机订票系统航空机票预订销售系统(机票预订系统)网上机票预订飞机订票
  18. InTra【异常检测:Reconstruction_based】
  19. Angular Material 学习笔记 Chips
  20. HTML 标签 02

热门文章

  1. android微信支付
  2. Windows8中pid为4的system进程占用80端口的解决办法
  3. 设计模式的C++实现 2.工厂模式
  4. Adversarial examples in the physical world论文解读
  5. 领域驱动设计系列文章(2)——浅析VO、DTO、DO、PO的概念、区别和用处
  6. zencart产品页面调用WordPress最新文章
  7. spring-session(一)揭秘续篇
  8. 【C++】对象作为函数参数【原创技术】
  9. 在CentOS 5.5安装 Apache2 和 PHP5 及 MySQL
  10. centos5编译内核