jieba库的使用和好看的词元
一.jieba库的使用与说明
1.jieba库基本介绍
jieba库是优秀的中文分词第三方库
-中文文本需要通过分词获得单个的词语
- jieba是优秀的中文分词第三方库,需要额外安装
- jieba库提供三种分词模式,最简单只需掌握一个函数
2.jieba库使用说明
(1)、jieba分词的三种模式
精确模式、全模式、搜索引擎模式
- 精确模式:把文本精确的切分开,不存在冗余单词
- 全模式:把文本中所有可能的词语都扫描出来,有冗余
- 搜索引擎模式:在精确模式基础上,对长词再次切分
(2)、jieba库常用函数
3.jieba库的利用实例显示
4.利用jieba库统计三国演义的人物出场次数
(1)代码如下
import jieba excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何","主公","军马","左右",} txt = open("./三国演义.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words:if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1 for word in excludes:del counts[word] items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(5):word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))
(2)结果显示如下:
二、利用好看的词元
1.Python的词元图的生成
(1)安装库
pip install jieba wordcloud matplotlib
(2)准备
- txt文本
- 字体(simhei.ttf)
- 词云背景图片
由上面的三国演义的文本txt可以生成如下图形:
Python jieba和词元的利用到此结束....................
转载于:https://www.cnblogs.com/psl1234/p/10652467.html
jieba库的使用和好看的词元相关推荐
- Python_note6 组合数据类型+jieba库+文本词频统计
集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...
- 如何在Python上用jieba库分析TXT文件的词频
准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...
- mysql调用jieba库_jieba库的使用及实例
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...
- python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...
- NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
- NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录 输出结果 设计思路 核心代码 输出结果 1.测试文本 ...
- jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)
先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...
- python jieba库下载_Python中jieba库安装步骤及失败原因解析
Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...
- 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
最新文章
- php 长短字符串转换,将php的数组按照字符串长短进行排序
- python能做表格吗-python可以用来做excel吗
- 阿里云实时计算,前世功,今生能!
- [工具]微软的学习平台Microsoft Learn很好用,推荐一下
- [C/C++]C++标准
- 高通的快充协议_高通:后续骁龙旗舰将标配100W快充
- 提高网站性能的常见方法
- 如何在源码包编译安装的 LEMP 环境下开启 OpenSSL 功能
- asc怎么用 linux zip_linux的asc文件怎么打开
- C#DateTime的用法
- 9.21 小程序开发培训讲座
- unbtun python tab补全
- windows 2003活动目录更名操作[图]
- 在线文本比较工具-toolfk程序员在线工具网
- 企业微信网页应用开发 - 权限验证
- CRM系统与呼叫中心系统对接
- 手把手教你申请计算机软件著作权(1)——填写软著申请表
- Lucene的各中文分词比较
- 打算逃离北上广?看完这份地图大数据报告或许你有新的答案
- Snug(舒适) as a Bug(小虫) in a Rug(小地毯)(2019/1/2)
热门文章
- linux文件的特殊权限,Linux系统文件的默认权限和特殊权限
- 2017年10大年度最佳的ICO项目
- 区块链核心技术:拜占庭共识算法之PBFT全面理解
- 模仿探探的左右滑动切换卡片功能
- java html提取_2020年全新Java学习路线,含配套资料,更易上手 - 打不过就跑吧
- NOIP信息奥赛--1995“同创杯”初中复赛题题解(三)
- mysql 主表某一列 小于某一个表的两列之和_关于MySQL索引知识与小妙招
- crt脚本怎么添加等待时间_secureCRT自动化脚本(之定时任务)
- 前端ui框架_跨屏建站发布同名响应式前端ui框架
- [CH Round #61] 取数游戏