针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取
文本的基本特征可以由内容以及与内容无关的一些形式诸如字符的数量、句子的数量、每个词的长度、标点符号等。在R语言中,textfeatures包提供了从字符对象中提取这些基本特征的便捷方法,而且使用起来极其便捷。以下结合实例进行说明。
所要分析的数据对象为2020年新冠疫情期间微博热搜话题数据,数据样式如下图所示:
#首先进行数据处理
library(readxl)
library(tidyverse)
library(dplyr)
orders <- read_excel("Weibo_2020Coron.xlsx") %>% #导入数据select("title") #仅保留title列
接着使用textfeatures包进行基本的特征提取:
library(textfeatures)
library(tidyverse)
orders$title %>% textfeatures(sentiment = F, #sentiment参数能够自动进行情感分析word_dims = F, #word_dims则可以使用词袋模型对文本进行向量化normalize = F, #normalize参数可以对数据按列进行归一化verbose = F) %>% #不需要显示分析过程print(width = Inf) #把结果全部显示出来生成结果:n_urls n_uq_urls n_hashtags n_uq_hashtags<int> <int> <int> <int>1 0 0 0 02 0 0 0 03 0 0 0 04 0 0 0 05 0 0 0 06 0 0 0 07 0 0 0 08 0 0 0 09 0 0 0 0
10 0 0 0 0n_mentions n_uq_mentions n_chars n_uq_chars<int> <int> <int> <int>1 0 0 15 152 0 0 13 133 0 0 17 154 0 0 16 165 0 0 18 166 0 0 14 147 0 0 12 128 0 0 14 129 0 0 14 12
10 0 0 15 14n_commas n_digits n_exclaims n_extraspaces<int> <int> <int> <int>1 0 0 0 02 0 0 0 03 0 0 0 04 0 1 0 05 0 0 0 06 0 1 0 07 0 0 0 08 0 1 0 09 0 0 0 0
10 0 0 0 0n_lowers n_lowersp n_periods n_words<int> <dbl> <int> <int>1 0 0.0625 0 12 0 0.0714 0 13 0 0.0556 0 14 0 0.0588 0 15 0 0.0526 0 16 0 0.0667 0 17 0 0.0769 0 18 0 0.0667 0 19 0 0.0667 0 1
10 0 0.0625 0 1n_uq_words n_caps n_nonasciis n_puncts n_capsp<int> <int> <int> <int> <dbl>1 1 0 45 0 0.06252 1 0 39 0 0.07143 1 4 39 0 0.278 4 1 0 45 0 0.05885 1 0 54 0 0.05266 1 0 39 0 0.06677 1 0 36 0 0.07698 1 0 39 0 0.06679 1 0 42 0 0.0667
10 1 0 45 0 0.0625n_charsperword n_first_person n_first_personp<dbl> <int> <int>1 8 0 02 7 0 03 9 0 04 8.5 0 05 9.5 0 06 7.5 0 07 6.5 0 08 7.5 0 09 7.5 0 0
10 8 0 0n_second_person n_second_personp<int> <int>1 0 02 0 03 0 04 0 05 0 06 0 07 0 08 0 09 0 0
10 0 0n_third_person n_tobe n_prepositions<int> <int> <int>1 0 0 02 0 0 03 0 0 04 0 0 05 0 0 06 0 0 07 0 0 08 0 0 09 0 0 0
10 0 0 0
# ... with 3,266 more rows
上述结果输出的数据框一共包含29列,下面节选部分属性进行简要的介绍。
● n_urls:文本中包含的URL的数量。
● n_uq_urls:文本中包含唯一URL的数量。
● n_chars:总字符数量。
● n_commas:逗号的数量。
● n_lowers:小写字符数量。
● n_lowersp:小写字符比例。
● n_words:单词总数量。
● n_uq_words:唯一单词的数量。
● n_first_person:第一人称单数单词的数量。
● n_second_personp:第二人称复数单词的数量。
● n_prepositions:介词的数量。
针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取相关推荐
- 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取
在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量.基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘.在实 ...
- 深睿医疗肺部疾病智能解决方案:针对新冠肺炎辅助诊断的专门研发 | 百万人学AI评选
2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...
- 人工智能技术在抗击新冠肺炎疫情中大显身手
作为一门高新技术,人工智能(AI)在医疗健康领域,尤其在抗击新冠肺炎(COVID-19)疫情中身手不凡,发挥着非常重要的作用.正如我国著名学者周海中教授曾经指出的那样:随着社会的发展和科技的进步,人工 ...
- 含最新数据! 使用Python检测新冠肺炎疫情拐点
注:本文案例仅供技术学习,不代表研究性观点. 本文对应代码.数据及文献资料已上传至Github仓库https://github.com/CNFeffery/DataScienceStudyNotes ...
- 基于python的微博热搜爬取及数据分析
刚学python爬虫,用爬虫爬取新浪微博热搜,看看效果如何,也是对这段时间学习python的总结. 一.目的: 抓取新浪微博2020年1月3日星期五的热搜榜,将抓取到的数据进行动态展示,并生成当天的微 ...
- 盖茨基金会宣布再追加捐赠1.5亿美元,支持全球新冠肺炎响应行动
比尔及梅琳达·盖茨基金会(简称"盖茨基金会")宣布再次追加捐赠金额,以支持全球对新冠肺炎(COVID-19)疫情的响应行动.此次盖茨基金会额外赠款1.5亿美元,并承诺将动用基金会& ...
- Python爬取微博热搜数据之炫酷可视化
可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
- 新冠肺炎最新研究进展(2022年5月)
COVID-19流行病自爆发以来,不断演变进化,不同毒株的传染性.感染后的严重程度.临床结局都是人们非常关注的问题.有关的生物学标志物研究也是层出不穷,然而这些标志物种类繁多.未知程度高.机制复杂,在 ...
- 历史微博,阅读量查看,微博热搜查看,批量监控微博刷量...盘点西瓜微数新功能!
作为专业的微博数据平台,我们在优化各项功能的同时,也在不断开发更多新的功能,希望提供给大家更多有价值的数据服务,满足更多方面的用户需求.那么最近功能上又有哪些新变化呢?小微今天就带大家盘点一下! 01 ...
最新文章
- python定义一个空数组_python – 在numpy数组中设置空值
- 浏览器页面有哪三层构成,分别是什么,作用是什么
- Python零基础学习代码实践 —— 提取字符串里面的单词数
- VC++如何判断当前操作系统是32位还是64位?
- 架构思维其实就那么回事
- 你好a+b(非入门)
- Java中ArrayList的使用
- curl_multi实现并发
- SourceTree 教程文档(进阶知识)
- 非参数检验统计量分析
- layabox使用初体验
- 复杂美科技有限公司区块链专利
- 仪用放大电路+lm324三级放大+滤波
- 计算机网络基础学习笔记
- 创造单词量测试项目(带有Ajax的爬虫)
- iOS 自建应用内测分发平台
- vivo手机如何使用非官方手机主题
- adc0832工作原理详解_单片机ADC的工作原理
- linux系统(Centos 7)部署环境记录(显卡驱动、CUDA、CuDnn和conda环境安装)
- 扇贝的python课程好吗_【扇贝Python面试】很简单的题目-看准网
热门文章
- 基于单片机的LED照明系统的设计
- python 微服务架构实战_名师讲坛——Java微服务架构实战(SpringBoot+SpringCloud+Docker+RabbitMQ)...
- 《铜豌豆 Linux》11.5.1 版本发布
- TA入门笔记·美术向(二)
- office 2010 激活信息查看
- 用word画出mysql的组织结构_如何用word画组织结构图
- Lagrangian Dual Problem
- 寻找greenbrowser的替代品
- 计算机毕业设计Java信贷管理系统(源码+系统+mysql数据库+lw文档
- matlab ode45 初值,关于ODE45初值问题和erf函数的问题