【Python】Wordcloud 词云
本周为大家带来炫酷好玩的 wordcloud 词云构造库。
使用 wordcloud 可以做出这样的图片:
还可以做出这样的:
接下来,我们来学习如何制作属于自己的词云图。
本来想说一句,安装过程不表,直接进入正题,可是在编程教室的QQ群和微信群中都有人遇到wordcloud 安装失败的问题。
所以在此简单提一下安装过程:
当然最直接的是 pip
pip install wordcloud
但很多同学会发现直接 pip 是会报错的,所以这里提供第二种安装方式:
下载 whl 手动安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
静静等待页面加载完成,然后选择适合自己 Python 的 wordcloud 版本,最后运行以下命令。filepath 替换为你的安装文件完整路径。
pip install filepath\wordcloud-1.2.1-cp35-cp35m-win_amd64.whl
wordcloud 在安装过程中会自动安装其依赖的库。
基本的用法
我们读入一本英文小说,取其中的词汇生成一张词云图
- # 导入 wordcloud 模块和 matplotlib 模块
- from wordcloud import WordCloud
- import matplotlib.pyplot as plt
- # 读入一个txt文件
- text = open('Jane Eyre.txt','r').read()
- # 生成词云
- wordcloud = WordCloud().generate(text)
- # 显示词云图片
- plt.imshow(wordcloud)
- plt.axis('off')
- plt.show()
- # 保存图片
- wordcloud.to_file('test.jpg')
结果如图所示
运行脚本之后就可以看到生成的图片了,是不是很简单。本文主要讲 wordcloud。代码中涉及到的 matplotlib 就不做更详细解释。
除了直接读入文本生成词云,也可以使用字典格式的词频作为输入
- # 读入一组词频字典文件
- text_dict = {
- 'you': 2993,
- 'and': 6625,
- 'in': 2767,
- 'was': 2525,
- 'the': 7845,
- }
- wordcloud = WordCloud().generate_from_frequencies(text_dict)
还可以将词云填充到指定的形状之中。为达到填充指定形状的效果,需要使用 png 格式的图片。
- # 读入图片
- from scipy.misc import imread
- bg_pic = imread('Anne_Hathaway.png')
- # 配置词云参数
- wc = WordCloud(
- # 设置字体
- font_path = 'BeaverScratches.ttf',
- # 设置背景色
- background_color='white',
- # 允许最大词汇
- max_words=200,
- # 词云形状
- mask=bg_pic,
- # 最大号字体
- max_font_size=100,
- )
- # 生成词云
- wc.generate(text)
- # 保存图片
- wc.to_file('word.jpg')
最后的效果如下
还可以结合 jieba分词,实现用中文填充的词云图(如果不通过分词,无法直接生成正确的中文词云)。使用中文填充时一定得指定中文的字体,否则会出现乱码。如果报错找不到字体,就复制一个中文字体文件放在代码目录下。
- #-*- coding:utf-8 -*-
- from scipy.misc import imread
- import matplotlib.pyplot as plt
- from wordcloud import WordCloud
- import jieba
- from collections import Counter
- # 读入 西游记 txt 文件,windows 下过滤编码错误
- text = open('西游记.txt',encoding='utf-8',errors='ignore').read()
- # 使用 jieba 分词
- text_jieba = list(jieba.cut(text))
- # 使用 counter 做词频统计,选取出现频率前 100 的词汇
- c = Counter(text_jieba)
- common_c = c.most_common(100)
- # 读入图片
- bg_pic = imread('Anne_Hathaway.png')
- # 配置词云参数
- wc = WordCloud(
- # 设置字体
- font_path = '李旭科书法1.4.ttf',
- # 设置背景色
- background_color='white',
- # 允许最大词汇
- max_words=200,
- # 词云形状
- mask=bg_pic,
- # 最大号字体
- max_font_size=100,
- )
- # 生成词云
- wc.generate_from_frequencies(dict(common_c))
- # 生成图片并显示
- plt.figure()
- plt.imshow(wc)
- plt.axis('off')
- plt.show()
- # 保存图片
- wc.to_file('anne.jpg')
最终的结果:
关于 wordcloud 的一些基本的常用的方法就在这里。想了解更多特性的同学,可以访问官方网站: https://amueller.github.io/word_cloud/
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29096438/viewspace-2146151/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/29096438/viewspace-2146151/
【Python】Wordcloud 词云相关推荐
- Python wordcloud词云:源码分析及简单使用
Python版本的词云生成模块从2015年的v1.0到现在,已经更新到了v1.7. 下载请移步至:https://pypi.org/project/wordcloud/ wordcloud简单应用: ...
- Python 数据可视化:WordCloud 词云的构建
WordCloud 官方文档:https://amueller.github.io/word_cloud/index.html WordCloud GitHub 地址:https://github.c ...
- python数据挖掘学习笔记】十三.WordCloud词云配置过程及词频分析
#2018-03-28 09:59:40 March Wednesday the 13 week, the 087 day SZ SSMR 11,12因为涉及到数据库被我暂时放弃了 python数据挖 ...
- Python实现的《芳华》WordCloud词云+LDA主题模型
WordCloud 词云 + LDA 主题模型 何小嫚&刘峰原图.jpg 人物词云效果.jpg 电影<芳华>在春节重映了一波,加上之前的热映,最终取得了 14 亿票房的好成绩.严歌 ...
- python中文分词器-jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...
- 一步一步教你如何用python做词云_一步一步教你如何用Python做词云
前言 在大数据时代,你竟然会在网上看到的词云,例如这样的. 看到之后你是什么感觉?想不想自己做一个? 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流 ...
- python 词云_利用Python生成词云
利用Python生成词云 一.第三方库的安装与介绍 1.1 Python第三方库jieba(中文分词) 1.介绍 "结巴"中文分词:做最好的 Python 中文分词组件. 2.特 ...
- Hadoop3.0基础平台搭建(三节点),以及案例运行并使用python生成词云
一.设备配置列表,软件包 二.主机名映射 三.生成密钥 四.将密钥发送到各个节点 五.注意事项及验证 六.关闭防火墙和SeLinux安全模块(所有主机均需操作 七.解压JDK.hadoop包,设置Ja ...
- python词云有什么用_如何用Python实现词云效果
如何用Python实现词云效果 发布时间:2020-06-06 10:56:57 来源:亿速云 阅读:204 作者:Leah 这篇文章主要为大家详细介绍了用Python实现词云效果的方法,图文详解容易 ...
最新文章
- [LeetCode] Rotate List
- 《Orange’s 一个操作系统的实现》3.保护模式3----DOS加载.EXE过程
- 算法入门经典习题第一章
- SVG(可扩展矢量图)系列教程
- python中left是什么意思_Python left
- 发现个Asp.net英文Blog,嘿嘿,刚好对俺学e文有用:)
- 如何快速入行云计算?云计算的学习要点有哪些?
- 389. Find the Difference
- 【unity3d study ---- 麦子学院】---------- unity3d常用组件及分析 ---------- Animator动画状态机...
- JAVA实时运算_Java 实时运算簿页面
- benchmark如何测试mysql数据库_MySQL的benchmark函数
- H5横竖屏的两种解决方法
- lenovo启动热键_联想笔记本进bios按什么键|联想笔记本开机进入bios热键是哪个
- css 固定定位失效问题 position: fixed
- 南卡小音舱体验评测:CD级音质听感震撼
- 右键打开git bash 找不到应用程序
- SQL数据库面试题以及答案(50例题优化版-增加图片):你必知必会的SQL语句练习
- 网上教务评教管理系统
- 五折交叉验证/K折交叉验证, python代码到底怎么写
- 登录服务器虚拟控制台,服务器控制台登录类
热门文章
- matlab将图片旋转的代码_基于Matlab的PMSM模型初探
- 新手小白如何购买阿里云服务器(2021新版详细图文教程)
- 订阅新闻联播文字标题到邮箱
- 新生儿喝奶后不要马上放回床上睡觉,为宝宝健康着想,先做1件事
- SqueezeNet: Alexnet-level accuracy whith 50x Fewer Parameters And 0.5MB Model Size
- linux speedtest-cli工具测试网络带宽、测试网速(下载速度、上传速度和延迟等信息)
- LAN8720A芯片
- 电脑本机使用手机热点、虚拟机如何联网
- 数据载入、存储及文件格式(数据分析)
- 使用云祺虚拟机备份软件恢复SANFOR HCI虚拟机