自然语言处理-词云生成
为什么需要生成词云
对于文本数据有个直观的了解,为后续的工作提供一定的数据可视化分析依据。
词云的生成步骤:
- 导入工具库
- 读取数据
- 清洗数据
- 统计词频保留前K个词作为词云生成库
- 绘制词云图
导入工具库
import warnings
warnings.filterwarnings('ignore')
import jieba
import numpy
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10,5)
from wordcloud import WordCloud
读取数据
df = pd.read_csv("./entertainment_news.csv", encoding='utf-8')
清洗数据
使用结巴分词
为了在处理数据时不会因为某条数据有问题,导致整个任务停止,故使用try except continue
df = df.dropna()
content=df["content"].values.tolist()
segment=[]
for line in content:try:segs=jieba.lcut(line)for seg in segs:if len(seg)>1 and seg!='\r\n':segment.append(seg)except:print(line)continue
统计词频保留前K个词作为词云生成库
# 去除停用词
words_df = pd.DataFrame({'segment':segment})
stopwords = pd.read_csv("origin_data/stopwords.txt",index_col=False,quoting=3,sep='\t',names=['stopword'],encoding='utf-8')
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]words_stat = words_df.groupby(by=['segment'])['segment'].agg({'计数':numpy.size})
words_stat = words_stat.reset_index().sort_values(by=['计数'],ascending=False)
words_stat.head()
绘制词云图
matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)
wordcloud=WordCloud(font_path='origin_data/simhei.ttf',background_color='black',max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)
自然语言处理-词云生成相关推荐
- 基于python的词云生成-中文词云(指定词云形状)
基于python的词云生成(二) 1.简介 本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...
- 词云生成库WordCloud详解(一):概述、ImageColorGenerator类
当前wordcloud版本:1.81 项目地址:https://github.com/amueller/word_cloud API.案例地址:https://amueller.github.io/w ...
- python词云生成的图片为空白图片
原因: 因为plt.show()写在保存图片语句之前 解决方案: 1.注释掉plt.show()语句 2.将plt.show()语句放到保存图片语句之后 如图所示: 附录完整的词云生成代码 impor ...
- java词云生成,kumo项目详解
0. 前言 需要在后端生成一个词云图给小程序. 使用kumo项目实现. 1. demo 首先新建maven项目,prom.xml中加入以下依赖.加完之后记得reload. 要确保自己电脑或者服务器安装 ...
- java词云生成Kumo
1,先前在网上寻找Java词云生成包kumo 在gitthub上导入 1)核心包 <dependency><groupId>com.kennycason</groupId ...
- 接单日记(三)文本处理之词云生成
文章目录 接单日记(三)文本处理之词云生成 一. 实验目的 二. 实验内容 三. 程序及结果 1. 运行程序 2. 运行结果 接单日记(三)文本处理之词云生成 此为一个实验报告,故遵守实验报告的格式. ...
- 基于python和线上网站wordart的词云生成
词云生成 前言 一.词云是什么? 二.使用步骤 1.使用jieba提取关键词 2.进入网站 3.导入关键词 4.导入字体 5.生成词云 6.词云调整 总结 前言 随着人工智能的不断发展,python这 ...
- Python编程:实现词云生成(附详细源码)
Python编程:实现词云生成(附详细源码) 词云是一种数据可视化的方式,它可以用来展示某个主题下的主要关键词汇.在Python中,我们可以使用 wordcloud 库来实现词云的生成.本文将带您一步 ...
- 生活大爆炸(TBBT): 台词爬取、词云生成与NLP分析
<生活大爆炸>(英文:The Big Bang Theory 简称:TBBT)广受喜爱(据说还可以练听力练口语blabla),去年随着第12季的播出而完结,最近也算是在补.有一天闲聊的时候 ...
最新文章
- 水稻微生物组时间序列分析
- OpenCV 加载图像、转换图像和保存图像
- 第一篇:Dapper快速学习
- crontab 改成只读模式_以“三合一”模式推动提质增效 助力公司高质量发展
- java犀牛是什么意思_深入浅出Rhino:Java与JS互操作
- 安装JDK失败,再次安装时出现已经安装过了的,解决办法
- java列表mvc分页_Springmvc完成分页的功能
- poj 3422 (费用流)
- MySQL+Navicat安装教程
- SQL Server安装失败,SQL Server卸载不干净
- VBS实现QQ自动登录
- 不能随便给他人登录微信小程序
- QQ能上网但是浏览器上不了网
- 支付宝微信个人收款支付系统解决方案
- 移动操作系统的优劣及下一代移动系统展望
- 如何批量获取企业工商信息?
- 设计模式之禅-策略模式
- 使用python的fpdf批量生成pdf文件
- 指数矩阵(exponential matrix)
- (干货)关于发布劳动合同示范文本的说明
热门文章
- 【Git技术】IDEA配置git及对项目创建git分支的方法
- 苏中建设集团入围2022年度全球超级用户大奖
- 详谈如何实现手机浏览器跳转微信公众号一键关注
- 灯控系统 Hue,温控系统 Nest,插座系统 Wemo,音箱系统 SONOS简介
- Ios 13.1.1值得更新吗?网友体验反馈汇总,续航及发热有所改善
- GPT“逃跑计划”曝光还想接管推特?创始人称AI仍非常受控
- 7-12 计算工资 (15 分)
- 华为手表开发:WATCH 3 Pro(2)生成密钥和证书请求文件,生成签名和配置签名
- 深度学习TensorFlow环境配置及遗留的问题(cudatoolkit版本,TensorFlow版本)(四)
- LeetCode.383. 赎金信