为什么需要生成词云

对于文本数据有个直观的了解,为后续的工作提供一定的数据可视化分析依据。

词云的生成步骤:

  • 导入工具库
  • 读取数据
  • 清洗数据
  • 统计词频保留前K个词作为词云生成库
  • 绘制词云图

导入工具库

import warnings
warnings.filterwarnings('ignore')
import jieba
import numpy
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10,5)
from wordcloud import WordCloud

读取数据

df = pd.read_csv("./entertainment_news.csv", encoding='utf-8')

清洗数据

使用结巴分词

为了在处理数据时不会因为某条数据有问题,导致整个任务停止,故使用try except continue
df = df.dropna()
content=df["content"].values.tolist()
segment=[]
for line in content:try:segs=jieba.lcut(line)for seg in segs:if len(seg)>1 and seg!='\r\n':segment.append(seg)except:print(line)continue

统计词频保留前K个词作为词云生成库

# 去除停用词
words_df = pd.DataFrame({'segment':segment})
stopwords = pd.read_csv("origin_data/stopwords.txt",index_col=False,quoting=3,sep='\t',names=['stopword'],encoding='utf-8')
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]words_stat = words_df.groupby(by=['segment'])['segment'].agg({'计数':numpy.size})
words_stat = words_stat.reset_index().sort_values(by=['计数'],ascending=False)
words_stat.head()

绘制词云图

matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)
wordcloud=WordCloud(font_path='origin_data/simhei.ttf',background_color='black',max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

自然语言处理-词云生成相关推荐

  1. 基于python的词云生成-中文词云(指定词云形状)

    基于python的词云生成(二) 1.简介    本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果.    jie ...

  2. 词云生成库WordCloud详解(一):概述、ImageColorGenerator类

    当前wordcloud版本:1.81 项目地址:https://github.com/amueller/word_cloud API.案例地址:https://amueller.github.io/w ...

  3. python词云生成的图片为空白图片

    原因: 因为plt.show()写在保存图片语句之前 解决方案: 1.注释掉plt.show()语句 2.将plt.show()语句放到保存图片语句之后 如图所示: 附录完整的词云生成代码 impor ...

  4. java词云生成,kumo项目详解

    0. 前言 需要在后端生成一个词云图给小程序. 使用kumo项目实现. 1. demo 首先新建maven项目,prom.xml中加入以下依赖.加完之后记得reload. 要确保自己电脑或者服务器安装 ...

  5. java词云生成Kumo

    1,先前在网上寻找Java词云生成包kumo 在gitthub上导入 1)核心包 <dependency><groupId>com.kennycason</groupId ...

  6. 接单日记(三)文本处理之词云生成

    文章目录 接单日记(三)文本处理之词云生成 一. 实验目的 二. 实验内容 三. 程序及结果 1. 运行程序 2. 运行结果 接单日记(三)文本处理之词云生成 此为一个实验报告,故遵守实验报告的格式. ...

  7. 基于python和线上网站wordart的词云生成

    词云生成 前言 一.词云是什么? 二.使用步骤 1.使用jieba提取关键词 2.进入网站 3.导入关键词 4.导入字体 5.生成词云 6.词云调整 总结 前言 随着人工智能的不断发展,python这 ...

  8. Python编程:实现词云生成(附详细源码)

    Python编程:实现词云生成(附详细源码) 词云是一种数据可视化的方式,它可以用来展示某个主题下的主要关键词汇.在Python中,我们可以使用 wordcloud 库来实现词云的生成.本文将带您一步 ...

  9. 生活大爆炸(TBBT): 台词爬取、词云生成与NLP分析

    <生活大爆炸>(英文:The Big Bang Theory 简称:TBBT)广受喜爱(据说还可以练听力练口语blabla),去年随着第12季的播出而完结,最近也算是在补.有一天闲聊的时候 ...

最新文章

  1. 水稻微生物组时间序列分析
  2. OpenCV 加载图像、转换图像和保存图像
  3. 第一篇:Dapper快速学习
  4. crontab 改成只读模式_以“三合一”模式推动提质增效 助力公司高质量发展
  5. java犀牛是什么意思_深入浅出Rhino:Java与JS互操作
  6. 安装JDK失败,再次安装时出现已经安装过了的,解决办法
  7. java列表mvc分页_Springmvc完成分页的功能
  8. poj 3422 (费用流)
  9. MySQL+Navicat安装教程
  10. SQL Server安装失败,SQL Server卸载不干净
  11. VBS实现QQ自动登录
  12. 不能随便给他人登录微信小程序
  13. QQ能上网但是浏览器上不了网
  14. 支付宝微信个人收款支付系统解决方案
  15. 移动操作系统的优劣及下一代移动系统展望
  16. 如何批量获取企业工商信息?
  17. 设计模式之禅-策略模式
  18. 使用python的fpdf批量生成pdf文件
  19. 指数矩阵(exponential matrix)
  20. (干货)关于发布劳动合同示范文本的说明

热门文章

  1. 【Git技术】IDEA配置git及对项目创建git分支的方法
  2. 苏中建设集团入围2022年度全球超级用户大奖
  3. 详谈如何实现手机浏览器跳转微信公众号一键关注
  4. 灯控系统 Hue,温控系统 Nest,插座系统 Wemo,音箱系统 SONOS简介
  5. Ios 13.1.1值得更新吗?网友体验反馈汇总,续航及发热有所改善
  6. GPT“逃跑计划”曝光还想接管推特?创始人称AI仍非常受控
  7. 7-12 计算工资 (15 分)
  8. 华为手表开发:WATCH 3 Pro(2)生成密钥和证书请求文件,生成签名和配置签名
  9. 深度学习TensorFlow环境配置及遗留的问题(cudatoolkit版本,TensorFlow版本)(四)
  10. LeetCode.383. 赎金信