第一步:引入相关的库包:

#coding:utf-8
__author__ = 'Administrator'
import jieba    #分词包
import numpy    #numpy计算包
import codecs   #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import pandas
import matplotlib.pyplot as plt
%matplotlib inlinefrom wordcloud import WordCloud#词云包

第二部:导入分好词的西游记txt文件:

file=codecs.open(u"西游记.txt",'r','utf-8')
content=file.read()
file.close()
jieba.load_userdict(u"红楼梦分词.txt")
segment=[]
segs=jieba.cut(content)
for seg in segs:if len(seg)>1 and seg!='\r\n':segment.append(seg)

第三部:统计分词结果并去掉停用词:

segmentDF=pandas.DataFrame({'segment':segment})
segmentDF.head()
stopwords=pandas.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'])#quoting=3全不引用
stopwords.head()
segmentDF=segmentDF[~segmentDF.segment.isin(stopwords.stopword)]
wyStopWords=pandas.Series(['之','其','或','亦','方','于','即','皆','因','仍','故','尚','呢','了','的','着','一','不','乃','呀','吗','咧','啊','把','让','向','往','是','在','越','再','更','比','很','偏','别','好','可','便','就','但','儿','又','也','都','我','他','来','" "'])
segmentDF=segmentDF[~segmentDF.segment.isin(wyStopWords)]

第四部:统计词频:

segStat=segmentDF.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
segStat=segStat.reset_index().sort(columns="计数",ascending=False)
segStat

第五步:显示词云

wordcloud=WordCloud(font_path="simhei.ttf",background_color="black")wordcloud=wordcloud.fit_words(segStat.head(1000).itertuples(index=False))plt.imshow(wordcloud)

第六步:自定义词云形状

from scipy.misc import imread
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread('3.jPG')
wordcloud=WordCloud(background_color="white",mask=bimg,font_path='C:\Windows\Fonts\simhei.ttf')
wordcloud=wordcloud.fit_words(segStat.head(39769).itertuples(index=False))
bimgColors=ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors))
plt.show()

转载于:https://www.cnblogs.com/wuchuanying/p/6225179.html

用Python玩转词云相关推荐

  1. python英文词云代码_使用python实现个性化词云的方法

    先上图片 词云图 需要模板 pip install jieba pip install wordcloud 还需要安装另外两个东西这两个我也不太懂借鉴百度写上去的 pip install scipy ...

  2. python生成的词云没有图案_Python如何生成词云的方法

    这篇文章主要介绍了关于Python如何生成词云的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 前言 今天教大家用wrodcloud模块来生成词云,我读取了一篇小说并生成了词云,先 ...

  3. Python 基础 之 词云(词的频率统计大小成图)的简单实现(包括图片词云,词云颜色,词的过滤)

    Python 基础 之 词云(词的频率统计大小成图)的简单实现(包括图片词云,词云颜色,词的过滤) 目录

  4. Python爬虫+简易词云的制作

    Python爬虫+简易词云的制作 写在前面 再识Python 简介: 应用场景: Python命令行执行: 基本语法: 连接数据库: Python爬虫 主要步骤: 第一种爬虫:urllib基本库+Be ...

  5. python 极简词云

    ''' python 极简词云 by 郑瑞国 安装模块: pip3 install wordcloud                 pip3 install matplotlib ''' from ...

  6. 使用Python制作中文词云

    使用Python制作中文词云 0 素材 & 库 准备 0.1 文本和图片 0.2 库准备 步骤 1. 准备工作 2. 文本处理 2.1 读取文本 2.2 分词和过滤 2.3 统计词频: 3. ...

  7. python程序创建词云 中国地图_就这么简单!使用Python生成漂亮的词云

    原标题:就这么简单!使用Python生成漂亮的词云 作者:Linux迷 链接:https://www.linuxmi.com 词云是一种数据可视化技术,用于表示文本数据,其中每个单词的大小表示其出现的 ...

  8. python电影名称词云_python-词云

    1.写词云的思路:数据采集-分词-生成词云 2.用到的模块:wordcloud.如果没有这个模块,cmd进入python所在目录的Scripts文件夹,通过pip安装.pip install word ...

  9. python生成的词云没有图案_Python生成词云的实现代码

    1 概述 利用Python生成简单的词云,需要的工具是cython,wordcloud与anaconda. 2 准备工作 包括安装cython,wordcloud与anaconda. 2.1 安装an ...

最新文章

  1. C# string.Empty
  2. 【转】POJ 2104 K-th Number(2)
  3. Nginx配置upstream实现负载均衡
  4. linux去重文件第一列,科学网—Linux实用命令 - 刘洪波的博文
  5. NYOJ 214 单调递增子序列(二)
  6. 英特尔傲腾内存linux,英特尔傲腾内存怎么样?intel傲腾内存优点和缺点你知道吗?...
  7. 学生用计算机中sto,STO 文件扩展名: 它是什么以及如何打开它?
  8. 途观l怎么使用_官宣!中型SUV质量最新排名出炉:汉兰达失前三,大众途观L上榜!...
  9. exchange EWS 开发随笔二
  10. DropDownList的AppendDataBoundItems属性
  11. h5将数字翻译为大写汉字_将阿拉伯数字翻译成中文的大写数字
  12. VMWare Workstation 15 serial number
  13. 计算机在环境工程专业中的应用,计算机在环境科学与工程方向的应用.pdf
  14. PyCharm添加背景图片
  15. 【2021-12-22】【Kotlin】Type inference failed. Expected type mismatch: inferred type is HashSet but Set
  16. QT简单入门程序——实现可修改用户信息界面
  17. 蘑菇街后台开发实习二面(视频面)
  18. mac wordcloud 字体设置
  19. ISO26262解析(九)——系统部分
  20. C / C++ 计算程序运行的时间

热门文章

  1. PyCharm2017软件安装教程
  2. python登录系统的实现方法_python实现用户登录系统
  3. 扫掠两条引导线_如何巧用引导线,把摄影水平再提升一个档次?
  4. Zabbix监控httpd服务
  5. python质数判断if isprime_使用Python判断质数(素数)的简单
  6. Nginx环境下PHP flush失效的解决方法
  7. 机房速度和带宽测试的简单方法
  8. Linux 安全基线
  9. 20170910校内训练
  10. Python内置函数(57)——setattr