R语言|文本挖掘应用|标签云
虽然总有人对比python与R的实用性,但是作为数据分析的目标而言,工具不是重点,目标需求才是首要关注点,所以,今天尝试用R自带的一系列工具包来完成对于文本内容的挖掘,并利用标签云展示词频关系。
- 工具包
分词包jiebaR(类似于python中的jieba,但兼具标注,关键词提取以simhash等功能)
标签云包wordcloud
- 编程环境
R编译解释器
Rstudio(界面简洁,操作方便,集成大量实用功能)
- 挖掘展示过程
大体步骤分如下:
1.数据源的读入,整合并做分词
test <- readLines(“corpus.txt”, encoding = ‘UTF-8’)
mixseg = worker(stop_word = “stop_words.utf8”)
words = c()
for (i in test) {words = c(words, mixseg <= i)}
注:worker()函数建立分词环境,这里添加停用词路径,其他参数可使用?worker访问查看,将分割后的词语利用数组列表words存储;
2.数据频次统计,排序筛选,并制作数据帧data.frame
word = table(words)
word <- sort(word, decreasing = TRUE)
word = word[1:100]
d = data.frame(word = names(word), freq = word)
注:利用table函数统计列表中的词频次,然后降序排列,最后利用data.frame函数产生frame数据集,包含名称和频次两列
3.利用wordcloud绘制标签云
mycolors <- brewer.pal(8, “Dark2”)
wordcloud(d$word,d$freq, random.order = FALSE, random.color= FALSE, colors = mycolors, family = “myFont3”)
注:利用brewer.pal(n,color)函数产生颜色集,第一个参数n是颜色个数,第二个color参数表示颜色集系列;wordcloud的前两个参数即是对应的词及频次。
R语言|文本挖掘应用|标签云相关推荐
- 手把手:R语言文本挖掘和词云可视化实践
互联网时代,大量的新闻信息.网络交互.舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试.飞信群 ...
- R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
- R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...
- 【R语言文本挖掘】:n-grams和相关性计算
[R语言文本挖掘]:n-grams和相关性计算
- 【R语言文本挖掘】:情感分析与词云图绘制
[R语言文本挖掘]:情感分析与词云图绘制
- 【R语言文本挖掘】:tidy数据格式及词频计算
[R语言文本挖掘]:tidy数据格式及词频计算
- 【R语言文本挖掘】:分析单词和文档频率——TF-IDF
[R语言文本挖掘]:分析单词和文档频率--TF-IDF
- R语言︱文本挖掘——词云wordcloud2包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...
最新文章
- mongo实现消息队列
- BTrace是一个非常不错的java诊断工具
- Debian耳机声音问题
- 工作组服务器操作系统,工作组服务器操作系统
- 【bzoj3576】 Hnoi2014—江南乐
- voms下的反射大师_晓星说数学:让数学家折服的艺术大师埃舍尔
- 3.调试与配置,控制器
- 梦断代码读后感(二)
- 你觉得你非常了解Javascript?
- excel常用的数据处理方法
- C语言时间片轮转调度算法
- java 微信 图灵机器人_使用图灵api创建微信聊天机器人
- 联想笔记本怎么进入pe系统_联想笔记本电脑怎么进入PE?
- javascript 实现英文首字母大写
- alanwang[GDOU] 直接插入排序法简单演示
- 严肃讨论:如何自给自足获取自主学习磁力种子?
- FPGA开发软件详细清单
- iis php mysql wiki_如何创建自己的wiki-Dokuwiki
- 精品基于PHP实现的剧影评|剧评影评系统
- 你的计算机由组织管理,某些设置由你的组织来管理