简单处理数据后绘制词云图

以前看见词云图完全没想过它是怎么做出来的,现在才知道Python是可以画词云图的,而且非常简单,只要数据处理好。

# -*- coding: gb2312 -*-
#coding=gbk
import pandas as pd
import numpy as np
import jieba
from tkinter import _flatten
import matplotlib.pyplot as plt
from wordcloud import WordCloud
pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)
#处理打印数据时省略号问题#预处理
with open('stoplist.txt','r',encoding='utf-8') as f:stopWords=f.read()
stopWords=['\n','',' '] + stopWords.split()#前后列表拼接
#print(stopWords)
data=pd.read_excel('美人鱼.xlsx',encoding='utf-8').astype(str)
#astype(str)处理解析错误,加在解析内容处
data_cut=data['评论内容'].apply(jieba.lcut)#分词
#data1=np.array(data)
#print(data1)
#data2=jieba.lcut('《美人鱼》电影整体看下来,像许多以往的周星驰电影或者周式喜剧一样,除了少了集体跳舞以外,剩下的还是过去的配方,还是过去的味道。       笑果是有的。但是一些重复的笑料配上仍然三毛钱的特效和一些霸道总裁爱上我的剧情,又时不时的让人在观影时犯尴尬症。')
#print(data2)
dataAfter=data_cut.apply(lambda x:[i for i in x if i not in stopWords])
#去除停用词
#print(dataAfter)
#词频统计
wordfre=pd.Series(_flatten(list(dataAfter))).value_counts()
#统计频次
#print(data3)#绘制词云图
mask=plt.imread('yun.jpg')#导入图片
wc=WordCloud(font_path='C:\Windows\Fonts/simkai.ttf', mask=mask,background_color='white')
#simkai.ttf是字体,前面用右斜线
wc.fit_words(wordfre)
plt.imshow(wc)
plt.axis('off')#去除坐标轴
plt.show()

日常总结遇到的问题:
1、数据导入永远心中的痛,还是不清楚不同数据类型该怎么导入,还有数据里面的不同属性该怎么处理,百度也百度不抻头;
2、pycharm导入数据和统计词频时要打印出来才安心,不然后面就不知道错哪了。

去除停用词并绘制词云图相关推荐

  1. 介绍四种绘制词云图的方法

    公众号后台回复"图书",了解更多号主新书内容 作者:叶庭云,https://blog.csdn.net/fyfugoyfa 一.词云图 词云图是一种用来展现高频关键词的可视化表达, ...

  2. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  3. 机器学习之---文本分析(jieba分词和词云绘制)

    一.定义: 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 二.语料库(Corpus) 语料库是我们要分析的所有文档的集合. import os import os ...

  4. 用python画苹果_Python爬取京东Iphone X用户评论并绘制词云

    目标爬取京东商城上iPhone X用户评论数据: 使用jieba对评论数据进行分词处理: 使用wordcloud绘制词云图. 目前京东商城只会展示商品的前100页评论,所以我们能爬取到的评论只有100 ...

  5. 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图

    文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...

  6. 文本挖掘(超详细:数据获取 - 数据清洗 - 中文分词 - 去除停用词 - 词频统计 - 词云图 - 情感分析)

    文本挖掘(超详细) 朋友们好,文本挖掘这篇文章写了也有一段时间了,承蒙朋友们的厚爱,作者后面有做过一个升级版的文本挖掘,但苦于没有时间一直没有更新,现在在抽时间把后面写的这个也发布出来,两篇文章的步骤 ...

  7. Python爬取《哆啦A梦-伴我同行2》影评,手把手带你绘制词云图!

    本文简介 <哆啦A梦:伴我同行2>是纪念<哆啦A梦>50周年的作品之一,于2021年5月28日在中国内地上映. 哆啦A梦系列,是陪伴我,乃至陪伴了几代人成长的故事.50年来,藤 ...

  8. PySide2、nltk、wordcloud、gensim、sklearn、pyinstaller实现词嵌入可视化、绘制词云图、制作GUI并打包的踩坑总结

    最近有个英语词汇学的期末作业,老师说可以写论文也可以写一个小程序.作为一个学物理的兔子,当然选择写程序啦(误).不过其中遇到了不少坑,就来总结一下. 首先说一下这个程序的设计思路.其实就是做一个图形界 ...

  9. python红楼梦绘制词云形状图_python数据挖掘实战笔记——文本挖掘(5):词云美化之绘制《红楼梦》词云图...

    词云图的美化就是把词云图的背景和颜色进行美化,以<红楼梦>词云图为例,如下所示: 首先绘制词云,跟之前的代码操作一样: import jieba import numpy import c ...

最新文章

  1. Get Started with Visualforce
  2. 手机浏览器推荐_推荐一款手机上最好用的浏览器
  3. 将Python脚本打包成可执行文件
  4. 6月第1周全球域名注册商(国际域名)新增注册量TOP15
  5. 数字图像处理技术在TWaver可视化中的应用
  6. “一边熬夜一边求不要猝死”,90后养生朋克指南,条条扎心!
  7. [Docker]Docker拉取,上传镜像到Harbor仓库
  8. OpenCV3学习(8.2)直方图相似度比较compareHist函数与EMD距离
  9. servlet 接收request发送过来的多维数组_049 JAVA-Servlet
  10. 【算法】剑指 Offer 56 - II. 数组中数字出现的次数 II 【重刷】
  11. 洛谷2017-2月月赛
  12. 【C#】:浅谈反射机制 【转】
  13. 摩托罗拉里程碑2刷android 2.3.4
  14. Flutter 编译失败shared_preferences_macos
  15. java中多个if语句如何简化_8种if else语句简化方法
  16. 网络安全证书已过期或不可信怎么办
  17. Java: 线上故障如何快速排查?来看这套技巧大全(高德地图的总结)
  18. 集成WEB服务器的蓝牙路由器及低功耗BLE WIFI 网络规划和实施
  19. c语言printf双精度还需要lf,C语言中printf区分双精度和单精度吗?为什么用lf输出不了双精度浮点数?...
  20. OTA市场寡头竞争态势严峻,同程艺龙赴港IPO能否改变现状?

热门文章

  1. 多道批处理操作系统和分时操作系统的概念
  2. [云原生专题-16]:容器 - 在Windows主机上搭建Docker环境
  3. 【Tensorflow】mnist_with_summaries.py报错
  4. Win系统上最好用的epub阅读器
  5. kylin如何支持flink_Flink 在快手实时多维分析场景的应用
  6. Python自动化-APPium原理解析与实际测试案例分享
  7. 苹果系统 虚拟机_大连win10远程双系统重装电脑维修7苹果笔记本安装做虚拟机服务mac8...
  8. Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
  9. DataFrame数据选取超全攻略
  10. 通孔的作用是什么linux,转载:PCB名詞解釋:通孔、盲孔、埋孔