python学习笔记–中文词云

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
发现词云的展示还挺有意思的,比较多的应用场景是给用户打标签,社交软件应用较多。今天随便找了一些文字电影《肖申克的救赎》的一些评价,做了一个词云,其实还挺简单的。

Python的学习路上真的需要这样的小成功来激发更多学习的动力。

Come on!


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • python学习笔记--中文词云
  • 前言
  • 一、词云统计常用的库?
  • 二、使用步骤
    • 1.引入库
    • 2.读入数据分词 +统计
  • 总结

前言

提示:这里可以添加本文要记录的大概内容:

词云统计挺好玩的,出来的效果也不错。


提示:以下是本篇文章正文内容,下面案例可供参考

一、词云统计常用的库?

import jieba #中文分词库 提供三种模式分词:精确 jieba.cut(s) 无冗余,全模式 jieba.lcut(s,cut_all =True) 有冗余, 探索模式 jieba.lcut_for_search(s) 有冗余
import collections #词频统计
import wordcloud #生成词云

二、使用步骤

1.引入库

引入相关的库:

import jieba #中文分词库 提供三种模式分词:精确  jieba.cut(s) 无冗余,全模式 jieba.lcut(s,cut_all =True) 有冗余, 探索模式 jieba.lcut_for_search(s) 有冗余
import collections #词频统计
import wordcloud #生成词云
import matplotlib.pyplot as plt

2.读入数据分词 +统计

代码如下(示例):

with open(r"text1.txt",encoding='utf-8') as f: #打开文件data = f.read()w_cut = jieba.cut(data,cut_all =False ) #进行分词word_list =[] #定义一个词容器
word_remove = [u',',u' ',u'。',u'、',u'\n',u'',u'的',u'是',u'了',u'我',u'我们',u'他'] #设置排除词
for x in w_cut:#过滤排除的词if x not in word_remove:word_list.append(x)word_counts = collections.Counter(word_list) #词频统计
word_counts_top8 = word_counts.most_common(50)#词云取前50的词
print(word_counts_top8) #打印出来top50的词云 及对应数量
print(type(word_counts_top8))
word_counts_top8 = str(word_counts_top8) #把词从list类型转换成str类型w = wordcloud.WordCloud(font_path='simfang.ttf', #中文词频生成设置background_color = 'white',max_font_size =150
)
w.generate_from_frequencies(word_counts)
#plt.imshow(w)
plt.figure(1,figsize=(10,8))
plt.imshow(w)
plt.axis("off")
plt.show()
w.to_file("wordcloud_input.png")

展示效果:


总结

提示:这里对文章进行总结:

随便把text1.txt文件改成你想加载的文件,就可以完成一个小小的词云统计了,注意文件要utf-8的编码,否则会报错。

赶快去试试吧。


每天多一点理解,在学习的路上少迷糊一点。

python学习笔记---中文词云相关推荐

  1. python——wordcloud生成中文词云

    毕设中期答辩,想展示一下前期数据抓取和聚类的成果,感觉词云这种形式不错,于是简单学习了一下wordcloud. 首先是安装 我是使用pip直接安装的, pip install wordcloud 没有 ...

  2. Python 学习笔记 第三篇 Python实现网易云评论网页爬虫+词云展示 (Pycharm+Mysql)

    初始条件,具体可见我的其他文章. 1.安装Python.Python 学习笔记 第一篇 Python的安装与配置 2.安装Pycharm,并导入第三方包.Python 学习笔记 第二篇 Python ...

  3. python学习笔记第一篇:Python3使用wordcloud制作词云报错OSError: cannot open resource和制作出的词云图乱码问题

    wordcloud制作词云时有关字体设置参数font_path = ""使用: 1.当使用电脑中不存在的字体时,运行程序会报错OSError: cannot open resour ...

  4. python制作中文词云_Python如何生成词云(详解)

    前言 今天教大家用wrodcloud模块来生成词云,我读取了一篇小说并生成了词云,先看一下效果图: 效果图一: 效果图二: 根据效果图分析的还是比较准确的,小说中的主人公就是"程理" ...

  5. python中文词云生成_Python 词云生成

    图片来自网络所谓"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从 ...

  6. 词云python灿烈_如何用Python做中文词云?

    打算绘制中文词云图?那你得先学会如何做中文文本分词.跟着我们的教程,一步步用Python来动手实践吧. 需求 在<如何用Python做词云>一文中,我们介绍了英文文本的词云制作方法.大家玩 ...

  7. 使用Python制作中文词云

    使用Python制作中文词云 0 素材 & 库 准备 0.1 文本和图片 0.2 库准备 步骤 1. 准备工作 2. 文本处理 2.1 读取文本 2.2 分词和过滤 2.3 统计词频: 3. ...

  8. python中文词云生成

    一.词云 "词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤 ...

  9. 用python实现中文词云完整流程(wordcloud、jieba)

    我们将用python3的第三方库wordcloud来做中文词云.通过对2月3日-2月5日国家卫健委的三天记者会实录做词云分析,一定程度上,我们可以得到三天内舆情动向及官方侧重点的变化. # 第三方库 ...

最新文章

  1. Plugin with id 'com.novoda.bintray-release' not found的解决方法
  2. RAID0,RAID1,RAID10,RAID5
  3. request.getAttribute()和 request.getParameter()有何区别?
  4. java排序的几种方法
  5. 对于原生代码使用Java线程的优缺点
  6. sizeof string
  7. 渗透测试流程(单台服务器)
  8. 【数据结构与算法】二叉树
  9. python主要简介_Python的简介
  10. [BUAA OO]第三次博客作业
  11. 实验2-4-3 求平方根序列前N项和 (C语言)
  12. jQuery Mobile事件,开发全解+完美注释
  13. 《中国人工智能学会通讯》——1.20 聊天机器人研究存在的挑战
  14. 将表中一整列数据都生成五笔和拼音
  15. 2.4g低功耗SI24R1校园答题器
  16. 网卡MAC地址(物理地址)映射为IPv6接口标识符
  17. 03系统多界面_资讯:苹果公布iPhone 12屏幕更换价格;华为 Mate 40 Pro 系统界面截屏曝光;Redmi K30S 更多细节曝光...
  18. js数组按中文拼音排序_学习排序算法,结合这个方法太容易理解了
  19. vue html 格式化,解决在写Vue时,格式化代码 属性自动换行的问题
  20. DetectGPT VS ChatGPT:AI反击战?

热门文章

  1. 白色用rgba怎么设置html,转换RGB到RGBA的白色
  2. 苹果市场占有率_为什么买了苹果电脑,却要安装Windows系统
  3. Cypress-should()常见断言
  4. 一个工程师对潘多拉开发板的使用体验
  5. Floorplan命令全集
  6. 谈谈软件开发项目管理的积分制
  7. 我本以为你们会写简历
  8. 漏洞分析---关于OpenSSL“心脏出血”漏洞的分析
  9. LOAM源码解析2——laserOdometry
  10. IC设计中时钟偏斜对延时的影响