python生成词云_词云制作没那么难,Python 10 行代码就实现了!
欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信“学习资料”可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。
写在前面
想必大家有一个问题。什么是词云呢?
词云又叫名字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。、
网页上有许多词云的效果图:
而且,目前有许多制作词云的工具:
但是作为一个学习Python的程序员来说,我更喜欢通过自己的编程去解决问题。
而且用Python制作词云只需十行代码就行了哦~
一起来看看吧!
代码块
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
代码效果图:
下面咱们解析一下代码块:
1~3 行分别导入了画图的库,词云生成库和jieba的分词库;
4 行是读取本地的文件,代码中使用的文本是本公众号中的《老曹眼中研发管理二三事》。
5~6 行使用jieba进行分词,并对分词的结果以空格隔开;
7行对分词后的文本生成词云;
8~10行用pyplot展示词云图。
这是我喜欢python的一个原因吧,简洁明快。
当然,这只是一个简单得不能再简单得编程,实现的效果也非常简单
但是Python是一门开源的语言,这时候就体现出开源的特性了,任何人都能对一个项目加以修改,使项目不断的完善。
Github上有许多开源的项目,小编找到一个做词云的项目,链接如下:
https://github.com/amueller/word_cloud
咱们可以直接进入wordcloud.py 源码进行字体,词云效果进行修改。
源码解析:
wordcloud.py总共不过600行,其间有着大量的注释,读起来很方便。其中用到了较多的库,常见的random,os,sys,re(正则)和可爱的numpy,还采用了PIL绘图,估计一些人又会遇到安装PIL的那些坑.
生产词云的原理其实并不复杂,大体分成5步:
- 对文本数据进行分词,也是众多NLP文本处理的第一步,对于wordcloud中的process_text()方法,主要是停词的处理
- 计算每个词在文本中出现的频率,生成一个哈希表。词频计算相当于各种分布式计算平台的第一案例wordcount, 和各种语言的hello world 程序具有相同的地位了,呵呵。
- 根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可视化方式的核心。
- 将词按对应的词频在词云布局图上生成图片,核心方法是generate_from_frequencies,不论是generate()还是generate_from_text()都最终到generate_from_frequencies
- 完成词云上各词的着色,默认是随机着色
词语的各种增强功能大都可以通过wordcloud的构造函数实现,里面提供了22个参数,还可以自行扩展。
效果图:
写在最后
小伙伴看了文章自己可以动手操作操作哦,是Python一个十分简单的项目呢。如果需要项目源码的小伙伴可以关注并私信小编“007”获取词云制作的源码哦!
python生成词云_词云制作没那么难,Python 10 行代码就实现了!相关推荐
- python生成化学结构_用PyMOL制作分子结构图像及所用脚本
信息来源 PyMol is one of the best open source software for visualizing the bio-molecules. Still many com ...
- python生成word图表_工作汇报神技!用Python三步生成带有图表的word报表
最近在项目中做了一个生成并导出word报表的功能,在这里分享给大家. 经过查看ESPC原有的生成报表代码和网上查阅的一些方法,解决方案的思路如下: 1. 利用pychartdir库生成图表,保存图片, ...
- 让你的作品更出色——词云Word Cloud的制作方法(基于python,WordCloud,stylecloud)
让你的作品更出色-- 词云Word Cloud的制作方法(基于python) 本文目录: 一.词云的简介 二. 实现原理和流程 1.制作词云流程图 2.词云实现原理 三. 实现词云的方式 1.安装词云 ...
- python加密敏感信息_仅需10行代码,使用python加密用户敏感数据
原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...
- python包裹和运费_这个Python库真的太好用了,10行代码就能轻松搞定目标检测
目标检测是指计算机和软件系统对图像或场景中的目标进行定位和识别的任务. 目标检测已广泛应用于人脸检测.车辆检测.人流量统计.网络图像.安防系统和无人驾驶等多个领域. 早期目标检测的实现基于经典算法,比 ...
- python split函数 空格_python上手--10行代码读懂红楼梦
取名10行代码看懂红楼梦,是将介绍使用python代码来读红楼梦获取其主要人物.这里的思想就是词频统计,通过分析红楼梦小说文字中出现最多的词语,来概括说明红楼梦的核心人物和事情.实际上如果你能跟着往下 ...
- python代码翻译-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!
原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...
- python代码翻译器-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!
原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...
- 10行代码制作群聊提醒小助手,再也不怕漏掉消息了
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 胸中有誓深于海,肯使神州竟陆沉? ...
- 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...
最新文章
- 自动驾驶公司Momenta完成超2亿美元融资,估值超10亿美元
- 皮一皮:这是歪打正着了???
- 保持函数依赖的模式分解可以减轻或解决什么_推荐系统玩家 之 因子分解机FM(Factorization Machines)...
- 使用CLI设置WildFly绑定地址并关闭
- android studio 中怎么写aspectj代码,Android Studio 使用 AspectJ 实践AOP
- STM32 NVIC中断
- 【恋上数据结构】图代码实现、BFS、DFS、拓扑排序
- 阿里云oss权限控制,上传下载测试
- VC6 ODBC 例子 之一
- 一篇通俗易懂的讲解OpenGL ES的文章
- Linux chapter 6
- 2021-08-21Verilog三段式状态机的写法,标准示例和仿真。
- 2022年全栈开发者需要熟悉了解的知识列表
- 局域网 如何连接主机_局域网远程操控电脑方法
- __stdcall的作用及今天的坑
- 王道机试 第十二章 动态规划 12.5 背包问题(0-1背包,完全背包,多重背包)
- Stata:调节中介效应检验
- BSC链节点搭建 保姆级详细教程
- 第四章——权限提升分析及防御
- 我的世界空岛服务器修改地形,我的世界空岛制作教程 特别地形制作
热门文章
- 使用BI软件的好处有哪些
- 医院大数据中心建设要点分析
- 数据分析数据可视化(四)
- tensorflow 入门笔记(二)
- cmake mysql 参数_MySQL cmake编译时这些参数是什么意思?-问答-阿里云开发者社区-阿里云...
- 网易python面试_网易游戏面试经验(一)
- 腾讯视频 android 2倍,腾讯视频多倍速播放产品设计小结
- java session机制_如何学习Session的机制使用
- 机器学习模型可解释性进行到底——特征重要性(四)
- python︱flashtext高效关键词查找与替换