写在前面

想必大家有一个问题。什么是词云呢?

词云又叫名字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。、

网页上有许多词云的效果图:

而且,目前有许多制作词云的工具:

但是作为一个学习Python的程序员来说,我更喜欢通过自己的编程去解决问题。

而且用Python制作词云只需十行代码就行了哦~

一起来看看吧!

代码块import matplotlib.pyplot as plt

from wordcloud import WordCloud

import jieba

text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

my_wordcloud = WordCloud().generate(wl_space_split)

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

代码效果图:

下面咱们解析一下代码块:1~3 行分别导入了画图的库,词云生成库和jieba的分词库;

4 行是读取本地的文件,代码中使用的文本是本公众号中的《老曹眼中研发管理二三事》。

5~6 行使用jieba进行分词,并对分词的结果以空格隔开;

7行对分词后的文本生成词云;

8~10行用pyplot展示词云图。

这是我喜欢python的一个原因吧,简洁明快。

当然,这只是一个简单得不能再简单得编程,实现的效果也非常简单

但是Python是一门开源的语言,这时候就体现出开源的特性了,任何人都能对一个项目加以修改,使项目不断的完善。

Github上有许多开源的项目,小编找到一个做词云的项目,链接如下:

咱们可以直接进入wordcloud.py 源码进行字体,词云效果进行修改。

源码解析:

wordcloud.py总共不过600行,其间有着大量的注释,读起来很方便。其中用到了较多的库,常见的random,os,sys,re(正则)和可爱的numpy,还采用了PIL绘图,估计一些人又会遇到安装PIL的那些坑.

生产词云的原理其实并不复杂,大体分成5步:对文本数据进行分词,也是众多NLP文本处理的第一步,对于wordcloud中的process_text()方法,主要是停词的处理

计算每个词在文本中出现的频率,生成一个哈希表。词频计算相当于各种分布式计算平台的第一案例wordcount, 和各种语言的hello world 程序具有相同的地位了,呵呵。

根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可视化方式的核心。

将词按对应的词频在词云布局图上生成图片,核心方法是generate_from_frequencies,不论是generate()还是generate_from_text()都最终到generate_from_frequencies

完成词云上各词的着色,默认是随机着色

词语的各种增强功能大都可以通过wordcloud的构造函数实现,里面提供了22个参数,还可以自行扩展。

效果图:

python生成词云很慢吗_词云制作没那么难,Python 10 行代码就实现了!相关推荐

  1. python包裹和运费_这个Python库真的太好用了,10行代码就能轻松搞定目标检测

    目标检测是指计算机和软件系统对图像或场景中的目标进行定位和识别的任务. 目标检测已广泛应用于人脸检测.车辆检测.人流量统计.网络图像.安防系统和无人驾驶等多个领域. 早期目标检测的实现基于经典算法,比 ...

  2. python加密敏感信息_仅需10行代码,使用python加密用户敏感数据

    原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...

  3. python split函数 空格_python上手--10行代码读懂红楼梦

    取名10行代码看懂红楼梦,是将介绍使用python代码来读红楼梦获取其主要人物.这里的思想就是词频统计,通过分析红楼梦小说文字中出现最多的词语,来概括说明红楼梦的核心人物和事情.实际上如果你能跟着往下 ...

  4. 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  5. python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  6. python代码翻译-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!

    原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...

  7. (已加马赛克)10 行代码判定色*情*图片——Python 也可以系列之二

    10 行代码判定色*情*图片--Python 也可以系列之二 作者:赖勇浩(http://blog.csdn.net/lanphaday) 致编辑:我已经给图片打上马赛克了,别再删除了啊,我这是纯技术 ...

  8. python代码翻译器-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!

    原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...

  9. (已加马赛克)10 行代码判定色 情 图片——Python 也可以系列之二

    10 行代码判定色*情*图片--Python 也可以系列之二 作者:赖勇浩(http://blog.csdn.net/lanphaday) 致编辑:我已经给图片打上马赛克了,别再删除了啊,我这是纯技术 ...

最新文章

  1. nodejs mysql 模型_nodejs+mysql中怎样的model才是好的model?
  2. Leetcode 77.组合
  3. 动态代理proxy与CGLib的区别
  4. Java中的数据库架构导航
  5. 用js实现一个无限循环的动画
  6. 使用Mybatis如何对Mysql进行分页功能?
  7. BlockingQueue接口分析
  8. VB.Net + asp.net的一个web系统,使用SQL2000数据库 现在运行时偶尔会出现一个奇怪现象,一个用户登录时,登录后的界面竟然是另一个用户...
  9. jsoneditor光标错位的原因及解决方式
  10. Teststand 界面打不开问题解决
  11. 使用频谱仪测试信号抗干扰实验
  12. [php]php设计模式 (总结)
  13. React-滑条组件使用
  14. power oj 2866 青春猪头少年不做怀梦美少女的梦
  15. 北京第二外国语学院本科毕业论文答辩PPT模板
  16. RS232RS485基本简介
  17. Qt QList详解
  18. 如何激活win10家庭版?这个方法超管用
  19. 【其他】免费的在线阅读电子书
  20. 【问题解决】【excel】求平均值、求和 结果为0 ->将excel中文本型数据转化为数值型数据

热门文章

  1. DUL 恢复简单表测试
  2. Ionic实战 自动升级APP(Android版)
  3. thinkphp笔记
  4. 西南民大oj(矩阵快速幂)
  5. asp.net服务器控件button先执行js再执行后台的方法
  6. 中小企业数据异地备份容灾解决方案
  7. b站编程课程资源汇总
  8. tomcat配置文件修改
  9. 从Openvswitch代码看网络包的旅程
  10. jQuery Layer 弹层组件