写在前面

想必大家有一个问题。什么是词云呢?

词云又叫名字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。、

网页上有许多词云的效果图:

而且,目前有许多制作词云的工具:

但是作为一个学习Python的程序员来说,我更喜欢通过自己的编程去解决问题。

而且用Python制作词云只需十行代码就行了哦~

一起来看看吧!

代码块

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

代码效果图:

下面咱们解析一下代码块:

1~3 行分别导入了画图的库,词云生成库和jieba的分词库;
4 行是读取本地的文件,代码中使用的文本是本公众号中的《老曹眼中研发管理二三事》。
5~6 行使用jieba进行分词,并对分词的结果以空格隔开;
7行对分词后的文本生成词云;
8~10行用pyplot展示词云图。
这是我喜欢python的一个原因吧,简洁明快。

当然,这只是一个简单得不能再简单得编程,实现的效果也非常简单

但是Python是一门开源的语言,这时候就体现出开源的特性了,任何人都能对一个项目加以修改,使项目不断的完善。

Github上有许多开源的项目,小编找到一个做词云的项目,链接如下:

https://github.com/amueller/word_cloud

咱们可以直接进入wordcloud.py 源码进行字体,词云效果进行修改。

源码解析:

wordcloud.py总共不过600行,其间有着大量的注释,读起来很方便。其中用到了较多的库,常见的random,os,sys,re(正则)和可爱的numpy,还采用了PIL绘图,估计一些人又会遇到安装PIL的那些坑.

生产词云的原理其实并不复杂,大体分成5步:

  1. 对文本数据进行分词,也是众多NLP文本处理的第一步,对于wordcloud中的process_text()方法,主要是停词的处理
  2. 计算每个词在文本中出现的频率,生成一个哈希表。词频计算相当于各种分布式计算平台的第一案例wordcount, 和各种语言的hello world 程序具有相同的地位了,呵呵。
  3. 根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可视化方式的核心。
  4. 将词按对应的词频在词云布局图上生成图片,核心方法是generate_from_frequencies,不论是generate()还是generate_from_text()都最终到generate_from_frequencies
  5. 完成词云上各词的着色,默认是随机着色

词语的各种增强功能大都可以通过wordcloud的构造函数实现,里面提供了22个参数,还可以自行扩展。

效果图:

三国演义词云的python代码_词云制作没那么难,Python 10 行代码就实现了!相关推荐

  1. python 图表_新手向——制作web图表(基于Python和GooPyCharts)

    如果你需要一个简单.美观.易用的可嵌入网页的web可交互图表(可放大缩小),并且可以保存为PNG.HTML,数据可导出CSV,那就是它了. GooPyCharts是对于谷歌图表(Google Char ...

  2. python加密敏感信息_仅需10行代码,使用python加密用户敏感数据

    原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...

  3. python包裹和运费_这个Python库真的太好用了,10行代码就能轻松搞定目标检测

    目标检测是指计算机和软件系统对图像或场景中的目标进行定位和识别的任务. 目标检测已广泛应用于人脸检测.车辆检测.人流量统计.网络图像.安防系统和无人驾驶等多个领域. 早期目标检测的实现基于经典算法,比 ...

  4. python split函数 空格_python上手--10行代码读懂红楼梦

    取名10行代码看懂红楼梦,是将介绍使用python代码来读红楼梦获取其主要人物.这里的思想就是词频统计,通过分析红楼梦小说文字中出现最多的词语,来概括说明红楼梦的核心人物和事情.实际上如果你能跟着往下 ...

  5. python代码翻译-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!

    原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...

  6. python代码翻译器-10 行代码,Python 教你自制屏幕翻译工具,有逼格!!

    原标题:10 行代码,Python 教你自制屏幕翻译工具,有逼格!! 1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译. 当然,对于 I ...

  7. 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  8. python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  9. 实战:使用 Python 用不到 10 行代码计算汽车数量

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,将教你如何使用 Python 用 10 行代码构建自 ...

  10. (已加马赛克)10 行代码判定色*情*图片——Python 也可以系列之二

    10 行代码判定色*情*图片--Python 也可以系列之二 作者:赖勇浩(http://blog.csdn.net/lanphaday) 致编辑:我已经给图片打上马赛克了,别再删除了啊,我这是纯技术 ...

最新文章

  1. R创建分类变量(categorical variable)
  2. ORACLE SQL语句总结2
  3. Oracle定时器调用存储过程
  4. 在javascript当中发现了一个没有调用者的方法。
  5. 加装的硬盘进入后点不了文件夹_【装机帮扶站】第638期:空间不够,那就加加加!机械硬盘推荐~...
  6. ext中ArrayStore,JsonStore,XmlStore的用
  7. Spring MVC过滤器-委派过滤器代理(DelegatingFilterProxy)
  8. Android获取CPU信息(CPU名字和主频)
  9. 蓝桥杯 ADV-197 算法提高 P1001
  10. 最大数组全局还是局部的问题
  11. Shell脚本 小程序演示
  12. 15 种最受欢迎的数据可视化流程图及模板
  13. camera具体曝光时间readout时间出图时间
  14. vue调用服务器图片
  15. 应用计算机测定线性电阻伏安特性实验结论,电路分析实验报告(电阻元件伏安特性的测量)...
  16. logo设计的色彩颜色搭配-北泓设计
  17. Windows下自动连接WiFi 脚本
  18. UCML 2.0 For ASP.NET开发平台简介
  19. 转行软件测试4年,从初级入门到高级测试,听听他的经验分享
  20. java排他锁关键字_Java并发之synchronized关键字深度解析(一)

热门文章

  1. 拉拉交友 http://www.les-sky.net 代码备份: 开发自己的可视化编辑器
  2. Java NIO SocketChannel+Buffer+Selector 详解(含多人聊天室实例)
  3. Asp.NET MVC 技术参考:http://kb.cnblogs.com/zt/mvc/
  4. 错误处理和调试2 - C++快速入门31
  5. WCF从理论到实践(10):异常处理 (转)
  6. verify code
  7. Zabbix 结合 bat 脚本与计划任务开启 windows 远程桌面
  8. Ubuntu下OpenResty搭建高性能服务端
  9. ERROR: invalid byte sequence for encoding UTF8: 0xe5 0xb7 CONTEXT: COPY news_article, line 32973
  10. 关于对于工作方式的一些总结。