随着大数据时代的来临,数据分析与可视化,显得越来越重要,今天给小伙伴们带来一种最常见的数据可视化图形-词云图的制作方法。

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:1097524789

      “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨

数据分析与可视化通常分为三个步骤,分别是获取数据(爬虫或采用现有文本),数据处理(清洗和整理)和数据可视化(图表制作)。

前两个步骤涉及更复杂的算法,今天咱们仅讨论数据可视化的步骤。

下面给大家介绍几个制作词云图的小例子。

01英文数据文本可视化

英文数据文本可以直接拿来进行生成词云图,这里是在网上获取了一篇国外名人的英文演讲稿。经过两行代码即可实现从源数据到词云图的转变。源数据截图如下:

直接将英文数据文本放在jupyter notebook软件目录下,并将文件名添加到file_path参数中,不需要任何处理(在anaconda软件下的jupyter notebook中执行,软件安装过程可自行百度,非常简单),一键式生成词云图。

from stylecloud import gen_stylecloud
gen_stylecloud(file_path='obama.txt')

02 中文数据文本可视化

______

LOVE

前一段时间,周杰伦的新歌《mojito》上线后,迎来了广大粉丝的狂热喜爱。很多听过这首歌的人都不禁感叹“爷青回”“青回爷”,也就是我的青春又回来了的意思。确实,我们这一代80后中的很多人都是伴随着周杰伦的歌曲长大的,如《夜曲》、《稻香》、《双截棍》、《晴天》、《听妈妈的话》、《霍元甲》、《不能说的秘密》、《青花瓷》等,都是我们耳熟能详的。

下面,我们利用Python编程语言来制作周董粉丝在B站上发送弹幕的词云图,看看大家在听《mojito》时,说得最多的是什么。

首先,我们需要先进入B站视频网页爬取弹幕数据,得到弹幕数据后要进行中文分词处理和去除无意义词(包括标点符号等)处理。

经过这两步以后,就可以依葫芦画瓢制作词云图。获得的弹幕数据文本截图如下:

将弹幕数据文件放到jupyter notebook软件的目录下,并将文件数据添加到text参数当中。其中的icon_name参数就是设置词云图的背景图,我们这里选择了企鹅,飞机和笑脸三个背景图。

通过以下短短几行代码我们就可以制作出下面绚丽的词云图,让我们来感受下其强大的魅力吧!

import stylecloud

stylecloud.gen_stylecloud(text=' '.join(text), collocations=False,

font_path=r'C:\Windows\Fonts\msy h.ttc',

#icon_name='fab fa-qq',#企鹅

# icon_name='fas fa-plane',#飞机

icon_name='fas fa-smile',#笑脸

size=400,

output_name='词云图.png')

从上面的词云图中,我们可以发现,“爷青回”“青回爷”是粉丝们听完这首歌最大的感受了!歌曲MV中粉红色的画风让大家一下子回到了青春稚嫩的少年时代!还有粉丝大呼“好听”、“过瘾”、“喜欢”、“听一亿遍”等,还有人表示会一直单曲循环!

在代码中,我们还可以更改配色参数(palette='tableau.BlueRed_6'),让词云图变换不同的颜色,增加美感。

03背景图变换

Python的Stylecloud库强大之处,在于可以很方便的替换词云图的背景图,只要改变代码中的icon_name参数就可以。

下面又分别选择了恐龙、小狗、鸽子、小猫作为背景图,一切都很简单~

数据来源是豆瓣电影排名top250的评论,文本源数据截图如下:

制作出来的各种形状的词云图如下图所示:

由于篇幅有限,这里中文数据文本获取过程和数据处理过程就不作展示了,有兴趣的同学,可以看一下我的个人博客https://blog.csdn.net/littlespider889/article/details/107294775。

如果大家觉得通过软件生成词云图比较麻烦,那么还有更简单的办法,直接通过专门制作词云图的网站,可以上传数据,一键式生成词云图。网址例如,

http://www.picdata.cn/picdata/,

http://ictclas.nlpir.org/nlpir/,

http://www.yyyweb.com/demo/inner-show/word-itout.html。

使用方式非常简单,直接将你的文本内容粘贴到文本框区域内,再点击按钮生成。有兴趣的同学,可以上网搜索更多的教程资料!

e分钟带你利用Python制作词云图相关推荐

  1. 数据可视化之利用Python制作词云图

    制作词云图 一.词云图介绍 二.wordcloud方法 二. stylecloud方法 一.词云图介绍 词云图可以看作是文本数据的视觉表示,由词汇组成类似云的彩色图形.相对其它诸多用来显示数值数据的图 ...

  2. 利用python制作词云图,分词,提取关键词

    利用python制作词云图保姆及教程 前言 一.环境配置 1.要有python的运行环境 2.需要导入jieba ,wordcloud等模块 pip install jieba pip install ...

  3. plt图片输出 python_利用Python制作词云,wordcloud神器你值得拥有

    相信许多人都看到过下面这样的词云图,词云图是一种很好的可视化工具,其作用主要是为了文本数据的视觉表示,既酷炫又能突出重点. 关于词云图的制作,网上能够搜集到很多的教程,许多都是利用了专用的工具,这些工 ...

  4. 对爬取的电影《唐人街探案3》豆瓣短评做文本分析,并利用stylecloud制作词云图

    上一节,我们爬取了豆瓣上电影<唐人街探案3>的评论,并将评论保存成了txt文档,爬虫过程可参考:爬取某瓣上电影<唐人街探案3>的评论 本节,我们将对电影短评做文本分析,并利用s ...

  5. 利用python制作漂亮的词云图_利用python制作词云,wordcloud神器你值得拥有

    相信许多人都看到过下面这样的词云图,词云图是一种很好的可视化工具,其作用主要是为了文本数据的视觉表示,既酷炫又能突出重点. 关于词云图的制作,网上能够搜集到很多的教程,许多都是利用了专用的工具,这些工 ...

  6. Python制作词云图根据蒙板图像确定形状和文字颜色

    问题描述:制作词云图,根据蒙板图像确定词云图形状,根据蒙板图像中像素的颜色确定词云图中相同位置上文字的颜色. 阅读原文

  7. python制作词云图设置停用词,Python生成词云图

    代码如下: from os import path from wordcloud import WordCloud import matplotlib matplotlib.use('TkAgg') ...

  8. python制作词云图设置停用词,python词云图之WordCloud

    1. 导入需要的包package importmatplotlib.pyplot as pltfrom scipy.misc importimreadfrom wordcloud importWord ...

  9. 利用python爬虫抓取虎扑PUBG论坛帖子并制作词云图

    作为一个PUBG迷,刷论坛是每天必不可少的事,上面有很多技术贴和职业比赛的帖子,突发奇想,想知道论坛里谈论最多的是什么,便做了一个爬虫爬取了论坛上最新的帖子标题和部分回复,然后利用jieba与word ...

最新文章

  1. 在CentOS 6.6 64bit上安装截图软件shutter
  2. 2021-12-09把文件夹1中的与文件夹2里同名图片删除或者保存至另一个文件夹
  3. 【Android 逆向】使用 Python 编写 APK 批处理分析工具
  4. 【Android】对话框 AlertDialog
  5. ajax和Java session监听
  6. 神经网络中使用Batch Normalization 解决梯度问题
  7. JSP 获取访问者真正的IP地址
  8. 问题 K: n个数的最大值和最小值
  9. string字符串的高级用法
  10. PAT B1035 插入与归并 (25 分)
  11. 双二阶广义积分器(SOGI)软件锁相(基于双线性变换)推导及实验代码
  12. Mindjet MindManager2022思维导图解压安装程序教程
  13. 文献翻译——YOLO9000:Better,Faster,Stronger(YOLOv2)
  14. Flutter学习日记之底部导航栏BottomNavigationBar组件的使用
  15. linux下caffe编译以及python环境配置手记
  16. NASM汇编语言与计算机系统10-中断向量表0号中断(cli/sti/iret/hlt)
  17. php主板主要是支持,b360主板能上3000内存吗
  18. Proguard的介绍
  19. word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估(转)
  20. 在Atollic TrueSTUDIO开发环境中集成STM32CubeProgrammer工具的方法

热门文章

  1. linux-文件管理-不完整版
  2. javascript-网页换肤案例
  3. Laravel-admin 使用表单动态地保存一个关联模型(源码探究到功能实现)
  4. 【mybatis】mybatis自定义动态字段查询,mybatis实现动态字段查询,如果某个条件为null,则不查询某个字段,否则就查询某个字段...
  5. Xcode 9.0 beta 3 GPUImage崩溃问题(presentBufferForDisplay)
  6. 网页统计所用到的名词解析
  7. 求带权中位数的Select算法
  8. 请wince驱动调试助手的作者sunrain_hjb以及wince开发者进来看看
  9. Docker教程(四) Docker镜像构建
  10. 如何查看CentOS版本