虽然总有人对比python与R的实用性,但是作为数据分析的目标而言,工具不是重点,目标需求才是首要关注点,所以,今天尝试用R自带的一系列工具包来完成对于文本内容的挖掘,并利用标签云展示词频关系。

- 工具包
分词包jiebaR(类似于python中的jieba,但兼具标注,关键词提取以simhash等功能)
标签云包wordcloud

- 编程环境
R编译解释器
Rstudio(界面简洁,操作方便,集成大量实用功能)

- 挖掘展示过程
大体步骤分如下:
1.数据源的读入,整合并做分词

test <- readLines(“corpus.txt”, encoding = ‘UTF-8’)
mixseg = worker(stop_word = “stop_words.utf8”)
words = c()
for (i in test) {words = c(words, mixseg <= i)}

注:worker()函数建立分词环境,这里添加停用词路径,其他参数可使用?worker访问查看,将分割后的词语利用数组列表words存储;

2.数据频次统计,排序筛选,并制作数据帧data.frame

word = table(words)
word <- sort(word, decreasing = TRUE)
word = word[1:100]
d = data.frame(word = names(word), freq = word)

注:利用table函数统计列表中的词频次,然后降序排列,最后利用data.frame函数产生frame数据集,包含名称和频次两列

3.利用wordcloud绘制标签云

mycolors <- brewer.pal(8, “Dark2”)
wordcloud(d$word,d$freq, random.order = FALSE, random.color= FALSE, colors = mycolors, family = “myFont3”)

注:利用brewer.pal(n,color)函数产生颜色集,第一个参数n是颜色个数,第二个color参数表示颜色集系列;wordcloud的前两个参数即是对应的词及频次。

R语言|文本挖掘应用|标签云相关推荐

  1. 手把手:R语言文本挖掘和词云可视化实践

    互联网时代,大量的新闻信息.网络交互.舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试.飞信群 ...

  2. R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...

  3. R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...

  4. R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

    笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...

  5. 【R语言文本挖掘】:n-grams和相关性计算

    [R语言文本挖掘]:n-grams和相关性计算

  6. 【R语言文本挖掘】:情感分析与词云图绘制

    [R语言文本挖掘]:情感分析与词云图绘制

  7. 【R语言文本挖掘】:tidy数据格式及词频计算

    [R语言文本挖掘]:tidy数据格式及词频计算

  8. 【R语言文本挖掘】:分析单词和文档频率——TF-IDF

    [R语言文本挖掘]:分析单词和文档频率--TF-IDF

  9. R语言︱文本挖掘——词云wordcloud2包

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...

最新文章

  1. mongo实现消息队列
  2. BTrace是一个非常不错的java诊断工具
  3. Debian耳机声音问题
  4. 工作组服务器操作系统,工作组服务器操作系统
  5. 【bzoj3576】 Hnoi2014—江南乐
  6. voms下的反射大师_晓星说数学:让数学家折服的艺术大师埃舍尔
  7. 3.调试与配置,控制器
  8. 梦断代码读后感(二)
  9. 你觉得你非常了解Javascript?
  10. excel常用的数据处理方法
  11. C语言时间片轮转调度算法
  12. java 微信 图灵机器人_使用图灵api创建微信聊天机器人
  13. 联想笔记本怎么进入pe系统_联想笔记本电脑怎么进入PE?
  14. javascript 实现英文首字母大写
  15. alanwang[GDOU] 直接插入排序法简单演示
  16. 严肃讨论:如何自给自足获取自主学习磁力种子?
  17. FPGA开发软件详细清单
  18. iis php mysql wiki_如何创建自己的wiki-Dokuwiki
  19. 精品基于PHP实现的剧影评|剧评影评系统
  20. 你的计算机由组织管理,某些设置由你的组织来管理

热门文章

  1. 以目标为导向,实现高质量的项目复盘
  2. 前端面试知识点--5
  3. 2019年Python入门书籍推荐
  4. ITK学习笔记(八) ITK高斯混合模型 GMM EM
  5. c语言返回值作用,c语言的返回值是什么意思啊?
  6. STM32F103PWM+重映射 小程序
  7. 使用RANK函数按计算机基础的降序求名次,使用Excel中Rank函数对学生成绩名次进行排列...
  8. python 实现漂亮的烟花,樱花,玫瑰花
  9. 基于Spring Cloud的微服务架构脚手架实践
  10. Linux菜鸟笔记【基本命令汇总】