针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —

文本的基本特征可以由内容以及与内容无关的一些形式诸如字符的数量、句子的数量、每个词的长度、标点符号等。在R语言中，textfeatures包提供了从字符对象中提取这些基本特征的便捷方法，而且使用起来极其便捷。以下结合实例进行说明。

所要分析的数据对象为2020年新冠疫情期间微博热搜话题数据，数据样式如下图所示：

#首先进行数据处理
library(readxl)
library(tidyverse)
library(dplyr)
orders <- read_excel("Weibo_2020Coron.xlsx") %>%      #导入数据select("title")           #仅保留title列

接着使用textfeatures包进行基本的特征提取：

library(textfeatures)
library(tidyverse)
orders$title %>% textfeatures(sentiment = F, #sentiment参数能够自动进行情感分析word_dims = F, #word_dims则可以使用词袋模型对文本进行向量化normalize = F, #normalize参数可以对数据按列进行归一化verbose = F) %>% #不需要显示分析过程print(width = Inf)  #把结果全部显示出来生成结果：n_urls   n_uq_urls  n_hashtags   n_uq_hashtags<int>     <int>      <int>         <int>1      0         0          0             02      0         0          0             03      0         0          0             04      0         0          0             05      0         0          0             06      0         0          0             07      0         0          0             08      0         0          0             09      0         0          0             0
10      0         0          0             0n_mentions   n_uq_mentions  n_chars   n_uq_chars<int>         <int>     <int>      <int>1          0             0      15         152          0             0      13         133          0             0      17         154          0             0      16         165          0             0      18         166          0             0      14         147          0             0      12         128          0             0      14         129          0             0      14         12
10          0             0      15         14n_commas  n_digits  n_exclaims   n_extraspaces<int>    <int>      <int>         <int>1        0        0          0             02        0        0          0             03        0        0          0             04        0        1          0             05        0        0          0             06        0        1          0             07        0        0          0             08        0        1          0             09        0        0          0             0
10        0        0          0             0n_lowers n_lowersp n_periods n_words<int>     <dbl>     <int>   <int>1        0    0.0625         0       12        0    0.0714         0       13        0    0.0556         0       14        0    0.0588         0       15        0    0.0526         0       16        0    0.0667         0       17        0    0.0769         0       18        0    0.0667         0       19        0    0.0667         0       1
10        0    0.0625         0       1n_uq_words n_caps n_nonasciis n_puncts n_capsp<int>  <int>       <int>    <int>   <dbl>1          1      0          45        0  0.06252          1      0          39        0  0.07143          1      4          39        0  0.278 4          1      0          45        0  0.05885          1      0          54        0  0.05266          1      0          39        0  0.06677          1      0          36        0  0.07698          1      0          39        0  0.06679          1      0          42        0  0.0667
10          1      0          45        0  0.0625n_charsperword n_first_person n_first_personp<dbl>          <int>           <int>1            8                0               02            7                0               03            9                0               04            8.5              0               05            9.5              0               06            7.5              0               07            6.5              0               08            7.5              0               09            7.5              0               0
10            8                0               0n_second_person n_second_personp<int>            <int>1               0                02               0                03               0                04               0                05               0                06               0                07               0                08               0                09               0                0
10               0                0n_third_person n_tobe n_prepositions<int>  <int>          <int>1              0      0              02              0      0              03              0      0              04              0      0              05              0      0              06              0      0              07              0      0              08              0      0              09              0      0              0
10              0      0              0
# ... with 3,266 more rows

上述结果输出的数据框一共包含29列，下面节选部分属性进行简要的介绍。

● n_urls：文本中包含的URL的数量。

● n_uq_urls：文本中包含唯一URL的数量。

● n_chars：总字符数量。

● n_commas：逗号的数量。

● n_lowers：小写字符数量。

● n_lowersp：小写字符比例。

● n_words：单词总数量。

● n_uq_words：唯一单词的数量。

● n_first_person：第一人称单数单词的数量。

● n_second_personp：第二人称复数单词的数量。

● n_prepositions：介词的数量。

针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取相关推荐

针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取
在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量.基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘.在实 ...
深睿医疗肺部疾病智能解决方案：针对新冠肺炎辅助诊断的专门研发 | 百万人学AI评选
2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...
人工智能技术在抗击新冠肺炎疫情中大显身手
作为一门高新技术,人工智能(AI)在医疗健康领域,尤其在抗击新冠肺炎(COVID-19)疫情中身手不凡,发挥着非常重要的作用.正如我国著名学者周海中教授曾经指出的那样:随着社会的发展和科技的进步,人工 ...
含最新数据! 使用Python检测新冠肺炎疫情拐点
注:本文案例仅供技术学习,不代表研究性观点. 本文对应代码.数据及文献资料已上传至Github仓库https://github.com/CNFeffery/DataScienceStudyNotes ...
基于python的微博热搜爬取及数据分析
刚学python爬虫,用爬虫爬取新浪微博热搜,看看效果如何,也是对这段时间学习python的总结. 一.目的: 抓取新浪微博2020年1月3日星期五的热搜榜,将抓取到的数据进行动态展示,并生成当天的微 ...
盖茨基金会宣布再追加捐赠1.5亿美元，支持全球新冠肺炎响应行动
比尔及梅琳达·盖茨基金会(简称"盖茨基金会")宣布再次追加捐赠金额,以支持全球对新冠肺炎(COVID-19)疫情的响应行动.此次盖茨基金会额外赠款1.5亿美元,并承诺将动用基金会& ...
Python爬取微博热搜数据之炫酷可视化
可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了! 项目介绍背景现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
新冠肺炎最新研究进展（2022年5月）
COVID-19流行病自爆发以来,不断演变进化,不同毒株的传染性.感染后的严重程度.临床结局都是人们非常关注的问题.有关的生物学标志物研究也是层出不穷,然而这些标志物种类繁多.未知程度高.机制复杂,在 ...
历史微博，阅读量查看，微博热搜查看，批量监控微博刷量...盘点西瓜微数新功能！
作为专业的微博数据平台,我们在优化各项功能的同时,也在不断开发更多新的功能,希望提供给大家更多有价值的数据服务,满足更多方面的用户需求.那么最近功能上又有哪些新变化呢?小微今天就带大家盘点一下! 01 ...

针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取

针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取相关推荐

最新文章

热门文章