6.Python常用第三方库—jieba库的使用(中文分词词库)
目录
一、jieba库介绍
二、jieba库常用指令说明
1. 精确模式
2. 全模式
3. 搜索引擎模式
4. 增加新词
三、jieba库的安装
四、jieba库实例代码演示
一、jieba库介绍
jieba是优秀的中文分词第三方库。它可以对中文文本进行分词操作,产生包含词语的列表。jieba库提供了三种分词模式,支持自定义词典。
使用install命令安装jieba,实际上是在Python的安装路径的/Lib/site-packages路径下生成了一个jieba文件夹,在这个文件夹里面存放了jieba分词库所用到的词典和代码,如里面的dict.txt就是一个词典,类似的analyse文件夹下面的idf.txt也是一个词典,这是实现分词功能的基础。与之类似,会发现这个文件夹下还有好多其他的文件夹,这都是一个个跟jeba同等地位的库。再看上一层文件夹,除了site-packages外,还有好多库,这些一般都是Python默认安装的。
jieba的分词思想:维护一个中文词库,在这个词库中确立了汉字之间的关联概率,关联概率大的组成词组,这样就形成了分词的结果。
jieba有三种分词模式,分别是精确模式、全模式、搜索引擎模式。
二、jieba库常用指令说明
1. 精确模式
精确地切分文本,结果中不存在冗余的单词。
jieba.cut(str)
# coding:utf8
# jieba分词模式:精确模式
import jieba
str = '教育技术学专业'
words1 = jieba.cut(str) # 分词后返回一个迭代器
words = jieba.lcut(str) # 分词后返回一个列表
print(words1)
print(words)
输出结果如下
2. 全模式
将所有可能的词语都列出来,可能存在冗余的单词。
jieba.cut(str, cut_all=True)
# coding:utf8
# jieba分词模式:全模式
import jieba
str = '教育技术学专业'
words1 = jieba.cut(str, cut_all=True) # 分词后返回一个迭代器
words = jieba.lcut(str, cut_all=True) # 分词后返回一个列表
print(words1)
print(words)
输出结果如下
3. 搜索引擎模式
在精确模式的基础上,对长词进一步切分。
jieba.cut_for_search(str)
# coding:utf8
# jieba分词模式:搜索引擎模式
import jieba
str = '教育技术学'
words1 = jieba.cut_for_search(str) # 分词后返回一个迭代器
words = jieba.lcut_for_search(str) # 分词后返回一个列表
print(words1)
print(words)
输出结果如下
4. 增加新词
三、jieba库的安装
jieba是第三方库,需要额外安装。我们可以在cmd命令行中输入pip install jieba来安装第三方库。
四、jieba库实例代码演示
# coding:utf8
import jieba # 引入外部功能库jieba
f = open("分词文本/三国演义.txt", "r", encoding="utf-8") # 打开文件
txt = f.read() # 读入文本
ls = jieba.lcut(txt) # 中文分词
d = {}
for w in ls:d[w] = d.get(w, 0) + 1
for k in d:if d[k] >= 50 and k != "\n":print('"{}"出现{}次'.format(k, d[k]))
f.close()
运行结果
6.Python常用第三方库—jieba库的使用(中文分词词库)相关推荐
- python常用单词下载_python创建属于自己的单词词库 便于背单词
本文实例为大家分享了python创建单词词库的具体代码,供大家参考,具体内容如下 基本思路:以COCA两万单词表为基础,用python爬取金山词霸的单词词性,词义,音频分别存入sqllite.背单词的 ...
- python的第三方库是干什么用的-quot;别人造好的轮子”,python常用第三方库——python自动办公7...
下载好向圈APP可以快速联系圈友 您需要 登录 才可以下载或查看,没有帐号?立即注册 x 前记:这是分享和记录我个人自动化办公技能的一系列文章,意在让的小伙伴们看后能够有所帮助和长大.我们都不是专业的 ...
- Python常用第三方库
Python常用第三方库 一. 文件读写 二.网络抓取和解析 三.数据库连接 四.数据清洗转换 五.数据计算和统计分析 六.自然语言处理和文本挖掘 七.图像和视频处理 八.音频处理 九.数据挖掘/机器 ...
- Python常用第三方库——简介及下载地址
Python常用第三方库 可以在 The Python Package Index (PyPI) 软件库(官网主页:https://pypi.org/ )查询.下载 和 发布 Python包或库 ...
- Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写、选择单词,根据词意选择单词
Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写.选择单词,根据词意选择单词,可乱序抽查,可对错题进行反复抽查 完整程序源代码下载:Python背单词记单词小程序 词库生成 ...
- 汇集四大主流停词的中文停词库-7352个停词
停用词是一些在自然语言处理中被过滤掉的常见词语,如"的"."是"."在"等.它们在文本中出现频率非常高,但通常不包含特定含义,因此被视为噪声 ...
- 资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
乾明 编辑整理 量子位 出品 | 公众号 QbitAI 你还在为进行中文NLP找不到词库而发愁吗? 你还在为了从文本中抽取结构化信息而抓耳挠腮吗? 现在,这些症状可以得到缓解了. 最近,在GitHub ...
- java通过搜狗词库过滤指定词性,JAVA通过搜狗词库过滤指定词性
http://www.0x32.cn/html/y2010/563.html 在测试过程中需要从文本中拿到指定词性的词,比如名词或者动词,各种词性的定义我们可以依靠搜狗的语料库来实现,从搜狗实验室下载 ...
- Python常用第三方库大盘点
Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...
最新文章
- 不用回调方法捕获数据包
- 源码免杀-过启发式的思路
- 深圳python指南_深圳Pythonlevel7
- 数据校验器架构模式组
- 用计算机求函数公式,计算机常用的函数公式有哪些?
- 橡皮擦的英语_从填字涂鸦到英语启蒙,家长口中的儿童版“秘密花园”涂色游戏测评【玩具测评】...
- mysql存储过程语法和游标的语法_MySQL游标存储过程-语法点滴
- js 的push方法
- 三星g9500Android9.0,三星G9550/9500刷机包 V9.0 国行港行通刷 极光设置功能微调 完美ROOT权限 稳定流畅省电...
- Docker 中jmap报错:Can‘t attach to the process: ptrace(PTRACE_ATTACH问题
- CityEngine + Python自动化建模原理【系列文章之三】
- 微信钱包里的钱居然不见了,微信支付绑卡的用户要注意这几点
- Andriod 虚拟机
- CPU是如何制造出来的(附高清全程图解)
- 财报对比:GREE和DeNA由来已久的竞争
- mel编程相较于c语言怎么样,MEL语言
- Hyperf权限管理组件hyperf-permission发布
- 浙大计算机能保研交大清华吗,太牛了吧?寝室4个男生分别保研到清华、北大、浙大和上海交大...
- Android/Automotive 多声道录音支持
- win2003 iis mysql_win2003 IIS6.0+PHP+MySQL的安?配置