全文链接:http://tecdat.cn/?p=31048

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"点击文末“阅读原文”获取完整代码数据)。

微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据,数据样式如下图所示:

查看数据

文本预处理

res=pinglun1[pinglun1!=" "];

相关视频

剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);
res=gsub(pattern="http://t.cn/"," ",res);
res=gsub(pattern="com"," ",res);
res=gsub(pattern="耐克"," ",res);
res=gsub(pattern="官网"," ",res);
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系:
wordcloud(d$word,d$freq


点击标题查阅往期内容

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

左右滑动查看更多

01

02

03

04

d2=data.frame(word=class2$word, freq=class2$freq);  # 过滤掉1个字和词频小于100的记录

K均值聚类K-means

#创建聚类矩阵格式for(i in  1:nrow(cldata)){for(j in  unique(d$word) ){if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1}}cl=kmeans(cldata,3)

聚类数据可视化

#cluster 1y1=cldata[cldata$cluster==1,]#cluster 2y2=cldata[cldata$cluster==2,]#cluster 3y3=cldata[cldata$cluster==3,]

1类词频云图

words=unlist(keyword[cl$cluster==1]);

2类词频云图

words=unlist(keyword[cl$cluster==2]);

3类词频云图


点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化》。

点击标题查阅往期内容

【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化相关推荐

  1. R语言使用mean函数计算向量数据的均值

    R语言使用mean函数计算向量数据的均值 目录 R语言使用mean函数计算向量数据的均值 R语言是解决什么问题的? R语言使用mean函数计算向量数据的均值 安利一个R语言的优秀博主及其CSDN专栏: ...

  2. 手把手:R语言文本挖掘和词云可视化实践

    互联网时代,大量的新闻信息.网络交互.舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试.飞信群 ...

  3. R语言实现文本挖掘和tagxedo词云可视化技术

    本文将通过KNIME.R语言和tagxedo三个工具来实现文本挖掘和词云可视化技术,体验一下舆情分析的魅力. 一.数据导入 数据源:2014年10月-2015年7月的飞信群全部聊天记录: 图一 原数据 ...

  4. R语言为dataframe添加新的数据列(add new columns):使用R原生方法、data.table、dplyr等方案

    R语言为dataframe添加新的数据列(add new columns):使用R原生方法.data.table.dplyr等方案 目录 R语言为dataframe

  5. R语言为dataframe添加新的数据列(横向拼接、Appending columns,Unioning columns):使用R原生方法、data.table、dplyr等方案

    R语言为dataframe添加新的数据列(横向拼接.Appending columns,Unioning columns):使用R原生方法.data.table.dplyr等方案 目录 R语言为dat

  6. R语言导入、读取网络CSV数据(Read a CSV from a URL)实战:R原生read_csv、readr包、data.table

    R语言导入.读取网络CSV数据(Read a CSV from a URL)实战:R原生read_csv.readr包.data.table 目录 R语言导入.读取网络CSV数据(Read a CSV ...

  7. R语言merge函数全连接dataframe数据(Full (outer) join)、merge函数进行全连接必须将参数all设置为true(all=TRUE)、默认merge函数通过公共列名合并数

    R语言merge函数全连接dataframe数据(Full (outer) join).merge函数进行全连接必须将参数all设置为true(all=TRUE).默认merge函数通过公共列名合并数 ...

  8. R语言merge函数左连接dataframe数据(Left (outer) join in R)、左连接必须将参数all设置(all.x = TRUE)、默认merge函数通过公共列名合并数据集

    R语言merge函数左连接dataframe数据(Left (outer) join in R).merge函数进行左连接必须将参数all设置为(all.x = TRUE).默认merge函数通过公共 ...

  9. R语言螺旋线型线性不可分数据xgboost分类:使用xgboost模型来解决螺旋数据的分类问题、可视化模型预测的结果、添加超平面区域渲染并与原始数据标签进行对比分析

    R语言螺旋线型线性不可分数据xgboost分类:使用xgboost模型来解决螺旋数据的分类问题.可视化模型预测的结果.添加超平面区域渲染并与原始数据标签进行对比分析 目录

最新文章

  1. Codeforces 755B. PolandBall and Game 贪心
  2. mac怎么合并两个容器_PDF怎样合并?在Mac上合并PDF文件的最佳方法
  3. SpringBoot中使用thymeleaf模板时select下拉框怎样查询数据库赋值
  4. linux中挂载系统光盘,在Linux系统下挂载光盘
  5. Cocos2d-x 3.0 简捷的物理引擎
  6. Unity/UE读取OPC UA和OPC DA数据(UE4)
  7. Docker 存储 网络
  8. C#中面向对象编程中的函数式编程
  9. 软件测试需注意的事项
  10. hdu 5901 Count primes 素数计数模板
  11. 计算机硬件中板卡目前设备有哪几种,呼叫中心所需的硬件设备都有哪些?
  12. ubuntu系统无法连接识别到adb设备和fastboot设备解决方法
  13. 卢卡奇总体性原则_重识青年卢卡奇的“历史”概念问题
  14. 一个简单的三层架构之仓库管理系统的入库出库
  15. ECMAScript基础
  16. VMware虚拟机没有网络
  17. 主板usb接口全部失灵_主板usb接口全部失灵
  18. 【观察】加速IPFS基础设施落地,西部数据的三重独特优势
  19. 大厂面试真题解读:Tomcat的连接器是如何设计的?
  20. 周志明架构课--03.SOA时代:成功理论与失败实践

热门文章

  1. 加密艺术市场与艺术家 | 区块链x艺术交叉学科
  2. IOS获取当前App的信息
  3. Python自制滑雪小游戏
  4. git + Jenkins + gitlab
  5. 成都环球中心区域门号布局图
  6. An efficient augmented Lagrangian method with applications to total variation minimization论文阅读笔记
  7. Karateclub包介绍及节点嵌入实现
  8. EfficientDet ---最细节的论文解析
  9. java 枚举类 int_【转】掌握java枚举类型(enum type)
  10. 比心app源码,设置透明 背景