Python第三方库:jieba库与中文分词概述(全面详解)
jieba库与中文分词
- 一、什么是jieba库
- 二、jieba分词原理
- 三、jieba库支持的三种分词模式
- 1.精确模式
- 2.全模式
- 3.搜索引擎模式
- 四、jieba库常用函数
- 五、jieba实操
- 练习一(jieba.lcut)精确模式
- 练习二(jieba.lcut(s,cut_all=True) )全模式
- 练习三(jieba.lcut_for_search)搜索引擎模式
- 练习四(jieba.add_word(w))增加新词
一、什么是jieba库
jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。
二、jieba分词原理
jieba库的分词原理是利用了一个中文词库,将待分词的内容与分词词库对比,通过图结构和动态规则划分方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
三、jieba库支持的三种分词模式
1.精确模式
将句子最精确地分开,适合文本分析;
2.全模式
把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
3.搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
注:对中文分词来说,jieba库只需要一行代码即可。英文文本不存在分词问题
四、jieba库常用函数
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回一个列表值 |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表值 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表值 |
jieba.add_word(w) | 向分词词典中增加新词w |
五、jieba实操
首先你需要安装jieba库
pip install jieba
练习一(jieba.lcut)精确模式
jieba.lcut(s)是最常用的中文分词函数,用于精确模式,将字符串分割成等量的中文词组。
import jiebals = jieba.lcut("我愿意穿过璀璨繁星")
print(ls)
练习二(jieba.lcut(s,cut_all=True) )全模式
jieba.lcut(s,cut_all=True)用于全模式,将字符串的所有分词可能列出来,冗余最大。
import jieba
ls = jieba.lcut("人面不知何处去,桃花依旧笑春风", cut_all=True)
print(ls)
练习三(jieba.lcut_for_search)搜索引擎模式
jieba.lcut_for_search该模式首先执行精确模式,然后在对其中长词进一步分获得最终结果
import jieba
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
print(ls)
练习四(jieba.add_word(w))增加新词
import jiebals = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
小结:精确模式因为不产生冗余,最为常用。
Python第三方库:jieba库与中文分词概述(全面详解)相关推荐
- 中文分词之HMM详解
原文链接:中文分词之HMM详解 关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理. 尽可能的撇开公式,撇开推导.结合实际开 ...
- Elasticsearch 多语言及中文分词与检索详解
文章目录 1. 自然语言与查询 Recall 2. 混合多语言的挑战 3. 分词的挑战 4. 中文分词方法的演变 - 字典法 5. 中文分词方法的演变 - 基于统计法的机器学习算法 6. 中文分词器现 ...
- Macropodus中文分词方法综述详解(CWS, chinese word segment)
一.Macropodus简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 拥有中文分词 命名实体识别 新词发现 关键词 文本摘要 计算器 中文 数字阿拉伯数字转换等算法 ...
- 6.Python常用第三方库—jieba库的使用(中文分词词库)
目录 一.jieba库介绍 二.jieba库常用指令说明 1. 精确模式 2. 全模式 3. 搜索引擎模式 4. 增加新词 三.jieba库的安装 四.jieba库实例代码演示 一.jieb ...
- jieba,为中文分词而生的Python库
jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
- Python初学13——jieba库简介与使用
目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...
- 基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
- python中利用jieba库统计词频,counts[word] = counts.get(word,0)+1的使用
import jieba txt = open("阿甘正传-网络版.txt","r",encoding ="utf-8").read() w ...
- 基于python中jieba包的中文分词中详细使用(一)
文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
- 基于python中jieba包的中文分词中详细使用(二)
文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...
最新文章
- python不想学了-学习 Python 很吃力,我是不是可以放弃编程了?
- iOS 开发之--使用AFNetWorking3.1.0上传单张/多张图片
- 1009. 说反话 (20)
- 【整理】强化学习与MDP
- python外卷(7)--glob
- 技术揭秘:华为云DLI背后的核心计算引擎
- 粤嵌gec6818项目设计_西安市幸福林带景观及亮化设计国际竞赛终期评审会顺利举行...
- 让敏捷交付优秀的软件
- Spring小学习小结2
- left join 最后一条_一条Mysql查询语句的西天取经之路,你真的了解吗?
- vue 项目 upload上传图片 并实现拖拽排序
- 模拟SAP ALV下载XLSX文件
- 我是如何考上武汉大学在职研究生的
- 将路由器作为AP来使用
- 阿里云大数据ACP专业认证实验之05-MaxCompute内置函数(上)
- Jetson TX2 tensorflow安装+keras安装
- ubuntu Failed building wheel for lzf ...gcc...
- 网页源文件星号怎么显示_【亲测实用】网页隐藏密码查看方法
- Tree树状图的动态增删查改(上)生成树状图
- baked light+bake indirect+sampling lightmap
热门文章
- Spark03:Spark安装部署【集群】:Standalone模式以及ON YARN模式
- tftd32搭建DHCP服务器软件打开报错
- python snownlp_snownlp · PyPI
- 数值优化(Numerical Optimization)学习系列-序列二次规划和内点法(SQP、Interior-Point)
- 图像数字水印技术研究及matlab实现,基于DFT的数字水印技术及MATLAB实现
- matlab如何制造魔方矩阵,【1011】魔方矩阵的学习
- pr用什么显卡比较好_用PR软件做后期剪辑,主要需要怎样的主机配置-百度经验...
- linux dhcpv6有状态配置,Centos 7下IPV6 有状态DHCPV6配置
- 实现Modbus Rtu 服务端 通过RS485转4G方式 实现远程采集传输串口设备数据
- PyTorch中文教程 | (1) PyTorch深度学习极速入门