全文链接：http://tecdat.cn/?p=31048

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"（点击文末“阅读原文”获取完整代码数据）。

微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据，数据样式如下图所示：

查看数据

文本预处理

res=pinglun1[pinglun1!=" "];

相关视频

剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);
res=gsub(pattern="http://t.cn/"," ",res);
res=gsub(pattern="com"," ",res);
res=gsub(pattern="耐克"," ",res);
res=gsub(pattern="官网"," ",res);
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：
wordcloud(d$word,d$freq

点击标题查阅往期内容

自然语言处理NLP：主题LDA、情感分析疫情下的新闻文本数据

左右滑动查看更多

d2=data.frame(word=class2$word, freq=class2$freq);  # 过滤掉1个字和词频小于100的记录

K均值聚类K-means

#创建聚类矩阵格式for(i in  1:nrow(cldata)){for(j in  unique(d$word) ){if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1}}cl=kmeans(cldata,3)

聚类数据可视化

#cluster 1y1=cldata[cldata$cluster==1,]#cluster 2y2=cldata[cldata$cluster==2,]#cluster 3y3=cldata[cldata$cluster==3,]

1类词频云图

words=unlist(keyword[cl$cluster==1]);

2类词频云图

words=unlist(keyword[cl$cluster==2]);

3类词频云图

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化》。

点击标题查阅往期内容

【视频】文本挖掘：主题模型（LDA）及R语言实现分析游记数据

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP：主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python：使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用：情感分析

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理（NLP）：情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python：使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用：情感分析

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理（NLP）：情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化相关推荐

R语言使用mean函数计算向量数据的均值
R语言使用mean函数计算向量数据的均值目录 R语言使用mean函数计算向量数据的均值 R语言是解决什么问题的? R语言使用mean函数计算向量数据的均值安利一个R语言的优秀博主及其CSDN专栏: ...
手把手：R语言文本挖掘和词云可视化实践
互联网时代,大量的新闻信息.网络交互.舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试.飞信群 ...
R语言实现文本挖掘和tagxedo词云可视化技术
本文将通过KNIME.R语言和tagxedo三个工具来实现文本挖掘和词云可视化技术,体验一下舆情分析的魅力. 一.数据导入数据源:2014年10月-2015年7月的飞信群全部聊天记录: 图一原数据 ...
R语言为dataframe添加新的数据列（add new columns）：使用R原生方法、data.table、dplyr等方案
R语言为dataframe添加新的数据列(add new columns):使用R原生方法.data.table.dplyr等方案目录 R语言为dataframe
R语言为dataframe添加新的数据列（横向拼接、Appending columns，Unioning columns）:使用R原生方法、data.table、dplyr等方案
R语言为dataframe添加新的数据列(横向拼接.Appending columns,Unioning columns):使用R原生方法.data.table.dplyr等方案目录 R语言为dat
R语言导入、读取网络CSV数据（Read a CSV from a URL）实战：R原生read_csv、readr包、data.table
R语言导入.读取网络CSV数据(Read a CSV from a URL)实战:R原生read_csv.readr包.data.table 目录 R语言导入.读取网络CSV数据(Read a CSV ...
R语言merge函数全连接dataframe数据（Full (outer) join）、merge函数进行全连接必须将参数all设置为true（all=TRUE）、默认merge函数通过公共列名合并数
R语言merge函数全连接dataframe数据(Full (outer) join).merge函数进行全连接必须将参数all设置为true(all=TRUE).默认merge函数通过公共列名合并数 ...
R语言merge函数左连接dataframe数据（Left (outer) join in R）、左连接必须将参数all设置（all.x = TRUE）、默认merge函数通过公共列名合并数据集
R语言merge函数左连接dataframe数据(Left (outer) join in R).merge函数进行左连接必须将参数all设置为(all.x = TRUE).默认merge函数通过公共 ...
R语言螺旋线型线性不可分数据xgboost分类：使用xgboost模型来解决螺旋数据的分类问题、可视化模型预测的结果、添加超平面区域渲染并与原始数据标签进行对比分析
R语言螺旋线型线性不可分数据xgboost分类:使用xgboost模型来解决螺旋数据的分类问题.可视化模型预测的结果.添加超平面区域渲染并与原始数据标签进行对比分析目录

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

全文链接：http://tecdat.cn/?p=31048

查看数据

文本预处理

剔除通用标题

分词+频数统计

绘制词汇图

K均值聚类K-means

聚类数据可视化

1类词频云图

2类词频云图

3类词频云图

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化相关推荐

最新文章

热门文章