一种用Python生成词云

我们在阅读一篇很长的文章时,总先看看文章的关键词来获知文章的大概内容。今天我们就来制作一个词云程序,将文章中出现次数较多的词语提取出来,生成一张词云图。

词云图的生成原理:

程序会将这篇文章中的所有词组识别出来,然后统计每个词组出现的次数,出现次数越多,词组的字号越大,最后把所有词组拼合成一张图像,也就是我们想要的词云图。我们需要把这篇文章储存在一个txt文档里,把这个文档和程序放在同一个文件夹下。

首先需要安装好了python的运行环境,并且以pycharm作为默认工具,安装所需的第三方库,它们分别是jieba 和wordcloud.安装可以参考:

https://www.jb51.net/article/141320.htm

然后开始制作词云程序。在pycharm中新建一个python文件。

首先调用jieba 和worldcloud模块。

import jieba

import worldcloud

接着,我们把储存在程序目录下的txt文档命名为”b站测试题.txt”

在程序中输入以下代码来读取这个文档。

f=open(“b站测试题.txt”,”r”,encoding=”gbk”)

现在我们要读取文档中的文字, 把它储存在一个新的变量t中

t=f.read()

然后关闭文档

f.close()

然后提取词组

Is=jieba.icut(t)

Txt=” ”.join(Is)

现在我们已经将词组提取出来并用空格分开,提取出来的词组保存在一个新的变量txt 里面

下一步我们要新建一个词云的对象, 并设定一些参数

W=wordcloud.wordcloud(width=2000,

Height=1400,

Font_path=”msyh.ttc”

)

在上面这段代码中,我们新建了一个词云的对象并将其命名为w。我们设定生成词云图片的宽度为2000像素,高度为1400像素,设定文字的字体为微软雅黑。

现在我们要把之前生成的词组变量txt导入词云对象w中。

w.generate(txt)

w.to_file(“pic.png”)

然后运行测试

打开程序所在的文件夹, 我们可以看到这里生成了一个名为pic.png的图片文件。

还可以进行个性化,譬如换个背景色

只需要加入一行代码:

W=wordcloud.wordcloud(width=2000,

Height=1400,

Background_color=”Grey”

Font_path=”msyh.ttc”

)

颜色可以查询下表

也可以用16进制数值模式,以#开头的6位16进制数表示颜色,你可以在下面这个网站上找到自己想要的颜色的1 6进制颜色数值。

http://tool.oschina.net/commons?type=3

也可以使用colormap改变文字颜色

还以自定义词云显示行状,譬如奔马、五角星等

我们需要准备一张白色背景的图片,将其放到程序所在的文件夹里,程序会把白色的背景抠除,将文字放在主体部分,再填充上背景颜色。这里我选了一个五角星的图片,将它放置在程序所在的目录下

现在我们需要调用一个新的库:imageio,imageio是python自带的一个库,可以用来读取图

像数据。

在程序开头添加下面的代码:

import imageio

然后建立一个变量mask来读取图像数据

Mask=imageio.imread(“五角星.png”)

然后我们需要在建立词云对象的代码中添加一行代码

W=wordcloud.wordcloud(width=2000,

Height=1400,

Font_path=”msyh.ttc”

Mask=mask,

)

运行,如下图:

思路参考:威海市文登区七里汤中学宋海霞《用python生成词云图》

除了用Pycharm还可以用sublime,可以参考:

https://blog.csdn.net/ydydyd00/article/details/80665028

未来的编程就这样,很多基础的功能已经函数或者库化了,直接调用就可以了。这样避免了频繁的制造锤子,但是这些库大部分都是国外开发的,国内直接“拿来主义”了,未来会有越来越多的国产库了。

python词云改颜色_一种用Python生成词云相关推荐

  1. python写代码没思路_一种用python实现的自动重写文章标题的思路与代码实现

    好几周没更新了,今天来给大家分享一个标题重写的小思路以及代码实现. 相信大家可能都用过5118的自动文章标题的功能,就是给一篇内容,然后直接帮你写个标题.这个功能我是去年的时候一个学员给我看的,目前是 ...

  2. python语言的编程模式_一种基于Python语言的EDA开发平台及其使用方法与流程

    本发明涉及EDA开发的技术领域,尤其是指一种基于Python语言的EDA开发平台及其使用方法. 背景技术: 目前,主流的EDA设计语言Verilog HDL能实现完整的芯片硬件逻辑电路开发,但是其代码 ...

  3. python登录系统账号检测_一种基于python的惠普打印机默认用户名密码检测方法与流程...

    本发明涉及打印机检测技术领域,特别是一种基于python的惠普打印机默认用户名密码检测方法. 背景技术: 网络打印机是当前各大中小型企业正常办公比不可少的办公网络设备,但对于大中型企业而言,不同部门或 ...

  4. python批处理栅格转点_三种利用Python批量处理地理数据的方法——以栅格数据投影转换为例...

    时至今日,笔者已经总结了三种用Python语言结合ArcGIS10.2提供的接口去批量处理地理数据的方法.即: 1. 用IDLE.Python Tools for Visual Studio等去编写独 ...

  5. python应用如何实现升级_一种基于Python实现BMC批量升级的方法与流程

    本发明涉及BMC批量升级,尤其涉及一种基于Python实现BMC批量升级的方法. 背景技术: 随着现代服务器主板技术的发展,主板设计形态复杂多变.无论是设计成本还是后期使用过程中的维护成本都很高.如何 ...

  6. python词云改颜色_使用Python创建一个与图像颜色匹配的词云

    原标题:使用Python创建一个与图像颜色匹配的词云 来自:https://www.linuxmi.com/ 我用Python造了一个词云.不过这次创建的是与图像颜色匹配的词云. 使用Python w ...

  7. python怎么设置画布颜色_如何在kivy python中动态更改画布颜色?

    解决方案 提供颜色的模式(rgb,rgba).将颜色(铅笔色)替换为颜色(rgba=pencolor) 详情请参考下面的演示.笔的颜色从红色开始变为白色,即按钮的背景色.在 示例 在主.py在from ...

  8. python判断字符串合法,详解Python判定IP地址合法性的三种方法 python中判断一个字符串是否是IP地址...

    html 中 鼠标放在标签上会显示小手状,其它标签在其他标签上,美工给加了一些样式,鼠标放上去也显示小手状.有哪位大手状样式 有什么不懂的前端问题可以去菜鸟驿站.全都是泡沫,只一刹的花火,所谓的友情, ...

  9. Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云

    前述 本文需要的两个Python类库  jieba:中文分词分词工具  wordcloud:Python下的词云生成工具 写作本篇文章用时一个小时半,阅读需要十分钟,读完该文章后你将学会如何将任意中文 ...

最新文章

  1. Removed k rows containing missing values
  2. 阿里对象存储OSS在laravel框架中的使用
  3. 【C语言】接收字符,大小写字符相互转换后输出,数字不输出
  4. STM32 电机教程 12 - BLDC 闭环电流控制
  5. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道
  6. 使用indent格式化代码
  7. 解决 Let’s Encrypt SSL 证书配置错误
  8. yarn配置日志聚合:将日志都聚集到某一台服务器
  9. OpenCV编写视频文件的实例(附完整代码)
  10. [试卷]古诗文背诵(七年级上学期)
  11. 【操作系统】—内存的基本知识
  12. Android Studio 使用笔记:工具窗口浮动与布局恢复
  13. [原创]MOF提权下载者代码
  14. navicat 快捷键
  15. 如何在Windows Server 2003下安装NetBEUI
  16. Tomcat官网下载旧版本
  17. QThread之重写run() 实现线程与业务解耦
  18. week8-csp-B(HRZ学英语)
  19. 在解锁Redmi 5A
  20. 平均成绩是计算数学计算机英语三门,创建一个查询,计算并显示“学号”和“平均成绩”两个字段内容,其中平均成绩 是计算数学、计算机和英语_开卷宝...

热门文章

  1. 英语口语-文章朗读Week9 Wednesday
  2. 做老板欣赏的优秀员工 十大准则你达标吗?
  3. 揭秘赚钱的技巧,学会让钱自己进来
  4. 一个人幸运的前提,是他有能力改变自己
  5. skip与direct模式区别 ,他们与CBP的关系
  6. 解决:DuplicateMappingException: Table [xx] contains physical column name referred to by multiple ... .
  7. 解决 springboot 项目:找不到或无法加载主类
  8. 客户端调用 WCF 的几种方式
  9. java 将一段时间分割为两个连续的时间
  10. OC 中 load 方法和 initialize 方法的异同