目录

一、jieba库介绍

二、jieba库常用指令说明

1.  精确模式

2.  全模式

3.  搜索引擎模式

4.   增加新词

三、jieba库的安装

四、jieba库实例代码演示


一、jieba库介绍

jieba是优秀的中文分词第三方库。它可以对中文文本进行分词操作,产生包含词语的列表。jieba库提供了三种分词模式,支持自定义词典。

使用install命令安装jieba,实际上是在Python的安装路径的/Lib/site-packages路径下生成了一个jieba文件夹,在这个文件夹里面存放了jieba分词库所用到的词典和代码,如里面的dict.txt就是一个词典,类似的analyse文件夹下面的idf.txt也是一个词典,这是实现分词功能的基础。与之类似,会发现这个文件夹下还有好多其他的文件夹,这都是一个个跟jeba同等地位的库。再看上一层文件夹,除了site-packages外,还有好多库,这些一般都是Python默认安装的。

jieba的分词思想:维护一个中文词库,在这个词库中确立了汉字之间的关联概率,关联概率大的组成词组,这样就形成了分词的结果。

 jieba有三种分词模式,分别是精确模式、全模式、搜索引擎模式。

二、jieba库常用指令说明

1.  精确模式

精确地切分文本,结果中不存在冗余的单词。

jieba.cut(str)
# coding:utf8
# jieba分词模式:精确模式
import jieba
str = '教育技术学专业'
words1 = jieba.cut(str)   # 分词后返回一个迭代器
words = jieba.lcut(str)   # 分词后返回一个列表
print(words1)
print(words)

输出结果如下


 2.  全模式

将所有可能的词语都列出来,可能存在冗余的单词。

jieba.cut(str, cut_all=True)
# coding:utf8
# jieba分词模式:全模式
import jieba
str = '教育技术学专业'
words1 = jieba.cut(str, cut_all=True)   # 分词后返回一个迭代器
words = jieba.lcut(str, cut_all=True)   # 分词后返回一个列表
print(words1)
print(words)

输出结果如下


 3.  搜索引擎模式

在精确模式的基础上,对长词进一步切分。

jieba.cut_for_search(str)
# coding:utf8
# jieba分词模式:搜索引擎模式
import jieba
str = '教育技术学'
words1 = jieba.cut_for_search(str)   # 分词后返回一个迭代器
words = jieba.lcut_for_search(str)   # 分词后返回一个列表
print(words1)
print(words)

输出结果如下


4.   增加新词 


三、jieba库的安装

jieba是第三方库,需要额外安装。我们可以在cmd命令行中输入pip install jieba来安装第三方库。


四、jieba库实例代码演示

# coding:utf8
import jieba                 # 引入外部功能库jieba
f = open("分词文本/三国演义.txt", "r", encoding="utf-8")      # 打开文件
txt = f.read()          # 读入文本
ls = jieba.lcut(txt)    # 中文分词
d = {}
for w in ls:d[w] = d.get(w, 0) + 1
for k in d:if d[k] >= 50 and k != "\n":print('"{}"出现{}次'.format(k, d[k]))
f.close()

运行结果

6.Python常用第三方库—jieba库的使用(中文分词词库)相关推荐

  1. python常用单词下载_python创建属于自己的单词词库 便于背单词

    本文实例为大家分享了python创建单词词库的具体代码,供大家参考,具体内容如下 基本思路:以COCA两万单词表为基础,用python爬取金山词霸的单词词性,词义,音频分别存入sqllite.背单词的 ...

  2. python的第三方库是干什么用的-quot;别人造好的轮子”,python常用第三方库——python自动办公7...

    下载好向圈APP可以快速联系圈友 您需要 登录 才可以下载或查看,没有帐号?立即注册 x 前记:这是分享和记录我个人自动化办公技能的一系列文章,意在让的小伙伴们看后能够有所帮助和长大.我们都不是专业的 ...

  3. Python常用第三方库

    Python常用第三方库 一. 文件读写 二.网络抓取和解析 三.数据库连接 四.数据清洗转换 五.数据计算和统计分析 六.自然语言处理和文本挖掘 七.图像和视频处理 八.音频处理 九.数据挖掘/机器 ...

  4. Python常用第三方库——简介及下载地址

    Python常用第三方库 可以在  The Python Package Index (PyPI)  软件库(官网主页:https://pypi.org/  )查询.下载 和 发布 Python包或库 ...

  5. Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写、选择单词,根据词意选择单词

    Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写.选择单词,根据词意选择单词,可乱序抽查,可对错题进行反复抽查 完整程序源代码下载:Python背单词记单词小程序 词库生成 ...

  6. 汇集四大主流停词的中文停词库-7352个停词

    停用词是一些在自然语言处理中被过滤掉的常见词语,如"的"."是"."在"等.它们在文本中出现频率非常高,但通常不包含特定含义,因此被视为噪声 ...

  7. 资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

    乾明 编辑整理 量子位 出品 | 公众号 QbitAI 你还在为进行中文NLP找不到词库而发愁吗? 你还在为了从文本中抽取结构化信息而抓耳挠腮吗? 现在,这些症状可以得到缓解了. 最近,在GitHub ...

  8. java通过搜狗词库过滤指定词性,JAVA通过搜狗词库过滤指定词性

    http://www.0x32.cn/html/y2010/563.html 在测试过程中需要从文本中拿到指定词性的词,比如名词或者动词,各种词性的定义我们可以依靠搜狗的语料库来实现,从搜狗实验室下载 ...

  9. Python常用第三方库大盘点

    Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...

最新文章

  1. 不用回调方法捕获数据包
  2. 源码免杀-过启发式的思路
  3. 深圳python指南_深圳Pythonlevel7
  4. 数据校验器架构模式组
  5. 用计算机求函数公式,计算机常用的函数公式有哪些?
  6. 橡皮擦的英语_从填字涂鸦到英语启蒙,家长口中的儿童版“秘密花园”涂色游戏测评【玩具测评】...
  7. mysql存储过程语法和游标的语法_MySQL游标存储过程-语法点滴
  8. js 的push方法
  9. 三星g9500Android9.0,三星G9550/9500刷机包 V9.0 国行港行通刷 极光设置功能微调 完美ROOT权限 稳定流畅省电...
  10. Docker 中jmap报错:Can‘t attach to the process: ptrace(PTRACE_ATTACH问题
  11. CityEngine + Python自动化建模原理【系列文章之三】
  12. 微信钱包里的钱居然不见了,微信支付绑卡的用户要注意这几点
  13. Andriod 虚拟机
  14. CPU是如何制造出来的(附高清全程图解)
  15. 财报对比:GREE和DeNA由来已久的竞争
  16. mel编程相较于c语言怎么样,MEL语言
  17. Hyperf权限管理组件hyperf-permission发布
  18. 浙大计算机能保研交大清华吗,太牛了吧?寝室4个男生分别保研到清华、北大、浙大和上海交大...
  19. Android/Automotive 多声道录音支持
  20. win2003 iis mysql_win2003 IIS6.0+PHP+MySQL的安?配置

热门文章

  1. 苹果审核被拒1.1和5.0
  2. 【电商】电商供应链产品介绍
  3. Python请求HTTPS证书错误
  4. C++OpenCV系统学习(17)——图像分割与抠图(4)Grabcut
  5. 一个ntohs函数的实现
  6. 【YOLOv5-6.x】模型参数量param及计算量FLOPs解析
  7. 最后介绍几个对程序员非常重要的24个软技能
  8. android系统如何获得外置卡路径
  9. 使用 idea查看类关系图形
  10. C#获取系统空闲时间