>>What's Word Cloud

词云 (Word Cloud)是对文本中出现频率较高的词语给予视觉化展示的图形, 是一种常见的文本挖掘的方法。目前已有多种数据分析工具支持这种图形,如Matlab, SPSS, SAS, R 和 Python 等等,也有很多在线网页能生成 word cloud, 例如wordclouds.com

>> Create Word Cloud via Python

Python 可以使用 wordcloud 模块来生成词云。

1) 安装 wordcloud, matplotlib 及其依赖模块。

2) 准备文本。

我从维基百科中找到一段关于 Word Cloud History 的文字,以下将以这段文字为例。复制这段文字到 NotePad,并将其保存为 .*txt 文本格式。

3) 运行 Python script。

"""

Python Example

===============

Generating a wordcloud from the txt file using Python.

"""

from wordcloud import WordCloud

# Read the whole text from txt.

fp = "C:/Users/yuki/Desktop/WordCloudHistory.txt"

text = open(fp).read()

# Generate a word cloud image

wordcloud = WordCloud(

font_path = "C:/Windows/Fonts/BROADW.TTF",

width = 600, #width of the canvas.

height = 400, #height of the canvas.

max_font_size = 60,

font_step = 1,

background_color = "white",

random_state = 1,

margin = 2,

colormap = "tab20" #matplotlib colormap

).generate(text)

# Display the generated image in matplotlib way:

import matplotlib.pyplot as plt

plt.imshow(wordcloud, interpolation='bilinear')

plt.axis("off")

plt.show()

4) 生成 word cloud。

>> Notes

在使用 wordcloud 模块的时候曾发现某些词语的频率(或者权重)是一样的,但是在生成的图形中字体大小却不一样。

Google 后找到开发作者的回答:

wordcloud document

The algorithm might give more weight to the ranking of the words than their actual frequencies, depending on the max_font_size and the scaling heuristic.

github issues

The scaling is relative to the size of the figure and the frequency of the words. The frequencies are normalized against the max frequency, so the absolute values are irrelevant.

大概是为了将词语尽可能地填满画布,wordcloud 算法会自动根据 max_font_size 和 scale 自动调整词语的权重。那么 wordcloud 生成的图形词语大小和他的词频(或者权重)的绝对值并不是一一对应的关系。

我觉得嘛:虽然这样画出的图形比较好看,但还是觉得有点奇怪,毕竟按词频大小展示词语应该是 word cloud 这种图形的精髓。

>> Sample Code

download here

>> Related Blogs

Word Cloud (词云) - JavaScript

Word Cloud (词云) - R

Word Cloud (词云) - Matlab

python基础教程doc_python基础教程之Word Cloud (词云) - Python|python基础教程|python入门|python教程...相关推荐

  1. matlab的词云,Word Cloud (词云) - JavaScript

    在上一篇中已经分享了用 Python 创建词云了.接下来继续总结其他创建词云的方法. &带道术用量确示常构端析以要效开的用,近不gt;> Create Word Cloud via Ja ...

  2. BeagleBone Black教程之BeagleBone Black使用到的Linux基础

    2019独角兽企业重金招聘Python工程师标准>>> BeagleBone Black教程之BeagleBone Black使用到的Linux基础 BeagleBone Black ...

  3. python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云

    原标题:利用pandas+python制作100G亚马逊用户评论数据词云 数据挖掘入门与实战 公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...

  4. python爬取网易云音乐生成王力宏歌曲词云

    python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...

  5. python中geometry用法_pythongdal教程之:几何形状geometry与投影projection

    建立空的geometry对象:ogr.Geometry 定义各种不同的geometry使用的方法是不一样的(point, line, polygon, etc) 新建点point,使用方法AddPoi ...

  6. python 几何教学_python gdal教程之:几何形状geometry与投影projection

    建立空的geometry对象:ogr.Geometry 定义各种不同的geometry使用的方法是不一样的(point, line, polygon, etc) 新建点point,使用方法AddPoi ...

  7. 如何用python做词云图_科学网—如何用Python做词云?(基础篇视频教程) - 王树义的博文...

    只需要花10几分钟,跟着教程完整做一遍,你就能自己用Python做出词云了. <如何用Python做词云?>图文版发布于2017年6月,是我数据科学系列教程中的第一篇. 目前仅简书一个平台 ...

  8. 如何用Python做词云?(基础篇视频教程)

    只需要花10几分钟,跟着教程完整做一遍,你就能自己用Python做出词云了. (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开.如有需要,请点击文末的"阅读原文"按钮 ...

  9. 云服务器架设网站教程_手把手教你搭建腾讯云服务器入门(图文教程)

    本文由博主 威威喵 原创 博客主页:https://blog.csdn.net/smile_running 背景 暑假期间,愁着无聊但也不能荒废学业吧,毕竟以后想靠技术混口饭吃!为了实施自己的计划,特 ...

  10. 手把手教你制作 中英文 词云 | python demo

    以前做词云的时候网上看的python做词云的坑都很多,耗了很多时间才高清楚wordcloud制作词云的精髓和脉络,整理如下. 相关文章 Python 中文 文本分析 实战:jieba分词+自定义词典补 ...

最新文章

  1. 【数据分析】Python数据分析学习路线个人总结
  2. HTML文档包应含几个基本标记,HTML中包含哪些基本的标记?
  3. Debian 7.1.0 安装教程图解(——Debian系统轻量级快速安装法)
  4. 谷歌浏览器首页被改hao123_百度浏览器停更?今日头条、微博谁将获利?
  5. JavaScrit学习笔记(1)
  6. 飞秋下载2010正式版_飞秋下载
  7. 2021-2025年中国成人脊柱矫形器行业市场供需与战略研究报告
  8. LVS+KeepAlived,RabbitMQ高可用负载均衡
  9. RK3399触摸不准,修改drivers中gt9xx.h的cfg
  10. 功能:批量查询和导出工艺路线
  11. word公式编辑器出错及交叉引用问题
  12. hive表级权限控制_hive权限控制(一)
  13. PV(访问量)、UV(独立访客)、IP(独立IP)
  14. Pro Tools 贴士- 使用Snapper快速试听和导入音频素材
  15. 秒杀抢红包的思考和总结
  16. CAD 2014 打开后,一操作就崩溃
  17. (数字图像处理MATLAB+Python)第四章图像正交变换-第一节:离散傅里叶变换
  18. 关于在使用迅雷下载的时候,C盘一下爆满的问题
  19. Access denied for user ‘user‘@‘%‘ to database 可能的原因
  20. arcgis 属性表中起点终点创建线_连接起点与终点

热门文章

  1. keras深度学习之猫狗分类一
  2. 88个塑胶模具设计中常用的知识点
  3. 海康rtsp抓包分析
  4. Volatility3 windows插件详解
  5. localhost拒绝访问的解决方法
  6. 使用python,爆破加密的rar压缩文件
  7. BT601/BT709/BT2020 YUV2RGB RGB2YUV 公式
  8. 小程序 | 云数据库模糊查询
  9. Ubuntu远程连接,远程桌面
  10. 持久层框架JPA与Mybatis该如何选型