一、安装jieba库

:\>pip install jieba #或者 pip3 install jieba

二、jieba库解析

jieba库主要提供提供分词功能,可以辅助自定义分词词典。

jieba库中包含的主要函数如下:

jieba.cut(s)                                                               精确模式,返回一个可迭代的数据类型

jieba.cut(s,cut_all=True)                                          全模式,输出文本s中所有可能的单词

jieba.cut_for_search(s)                                            搜索引擎模式,适合搜索引擎建立索引的分词结果

jieba.lcut(s)                                                              精确模式,返回一个列表类型,建议使用

jieba.lcut(s,cut_all=True)                                         全模式,返回一个列表类型,建议使用

jieba.lcut_for_search(s)                                           搜索引擎模式,返回一个列表类型,建议使用

jieba.add_word(w)                                                   向分词词典中增加新词w

三、用jieba库统计文本的词频

《流浪地球》是刘慈欣的一部作品。该书讲述了庞大的地球逃脱计划,逃离太阳系,前往新家园。从网上获取该书的文本文件,保存于桌面上,命名为“流浪地球。”

现统计其文本中出现次数最多的是个词语,源代码如下:

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除单个字符的分词结果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

运行程序后,输出结果如下:

故容易得知流浪地球中出现频次较高的词语

四、结合jieba库的词频统计制作词云图

1、准备工作:pip 安装 jieba , wordcloud ,matplotlib

2以阿Q正传为例:

源代码为:

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成词云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#设置词云

wc =WordCloud(#设置背景颜色

background_color="white",#设置最大显示的词云数

max_words=2000,#这种字体都在电脑字体中,一般路径

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#设置字体最大值

max_font_size=200,#设置有多少种随机生成状态,即有多少种配色方案

random_state=100,

)

myword= wc.generate(wl) #生成词云

#展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把词云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正传')

运行程序后,输出结果如下:

故可得出文本的云词图。

jieba库词频统计_用jieba库统计文本词频及云词图的生成相关推荐

  1. python进行词频统计_如何利用Python进行文本词频统计

    欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 问题描述 Python在自然语言处理这个方面,有其天然的优势: ...

  2. jieba库词频统计_运用jieba库进行词频统计

    Python第三方库jieba(中文分词) 一.概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库 ...

  3. python统计词频 创建字典_如何利用Python进行文本词频统计

    问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...

  4. 在mysql查询库和表_查询mysql 库和表占的大小

    use information_schema; select concat(round(sum(data_length/1024/1024),2),'MB') as data from tables; ...

  5. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

  6. python文本txt词频统计_python实例:三国演义TXT文本词频分析

    0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了  如下 : 效果演示 0x01   准备环境及 ...

  7. mysql 非自然月统计_技本功|统计信息对SQL执行效率的影响

    点击蓝字 关注我们 在正文开始前,我们先补充一轮知识点. DING! 什么叫统计信息? 统计信息是数据库对所有表信息进行数据抽样后得出的数据统计,它是一个数据库优化器选择最佳执行计划的核心依据. 什么 ...

  8. python关键词统计_使用Python快速统计关键词及其词频

    版权声明:转载附链接哦.https://blog.csdn.net/weixin_43886356/article/details/86711012 思路: 1.通过jieba库分词获取所有的词语列表 ...

  9. python 对excel文件进行分词并进行词频统计_教你背单词 | 利用python分析考研英语阅读并生成词频降序表...

    作为一名19考研er 距离我考研结束已经过去大半年 想和大家分享一下当初背单词的骚操作 众所周知 考研英语"得阅读者得天下" 提升词汇量又是提高阅读的关键 那么问题来了? 大家都是 ...

最新文章

  1. 通过例子10分钟快速看懂pad_sequence、pack_padded_sequence以及pad_packed_sequence
  2. php lang无效,详解 Go 中的不可变类型
  3. 图像去模糊(逆滤波)
  4. 概率论-1.3 概率的性质(重点:可列与极限之间的互相转换)
  5. [线性代数]Note3--乘法和逆矩阵
  6. HDU1233——还是通常工程(最小生成树,并查集)
  7. WebSocket刷新断开原因、设计心跳机制防止自动断开连接
  8. China Pub 高清书籍6CD 包含的图书目录
  9. std在汇编语言是什么指令_汇编语言STD CLD的用法
  10. svn和git下载安装
  11. POJ 3083 dfs + bfs
  12. 【echarts】echarts根据奇偶设置柱形图颜色切换
  13. 一维优化 方法c语言,第三章一维优化方法
  14. arm linux i2c 总线驱动,ARM-Linux中I2C总线驱动开发
  15. 全程复制粘贴,在家用手机就可以做自媒体,每月稳定4000多
  16. 【Vue】添加新页面
  17. ADRC参数整定以及在模型上的实际应用
  18. linux kernel iio 架构
  19. 软件应用 | 三阶嵌套Theil-T指数计算与分解的STATA代码
  20. 你了解互联网APP搜索和推荐的背后逻辑么?

热门文章

  1. 云漫圈 | 寻找无序数组的第k大元素
  2. xxl子任务_XXL-JOB v2.1.2 发布,分布式任务调度平台
  3. hadoop上传文件java_hadoop入门之通过java代码实现将本地文件上传到hadoop的文件系统...
  4. php mysql 失败_在php中插入失败的数据mysql
  5. oracle判断是否是手机号码,oracle判断手机号码是否合法
  6. php5.6 mongo 扩展,PHP5.6的安装及redis、memcache、mongo扩展
  7. centos7 /etc/profile 文件模板
  8. 使用xfire webservice接口开发,obj与xml相互转换好用工具类,不需要写大量的转换代码,亲测可用
  9. (Docker实战) 第六篇:建立持续集成环境03
  10. SpringBoot2.x 整合websocket 消息推送,单独发送信息,群发信息