jieba库与中文分词

  • 一、什么是jieba库
  • 二、jieba分词原理
  • 三、jieba库支持的三种分词模式
    • 1.精确模式
    • 2.全模式
    • 3.搜索引擎模式
  • 四、jieba库常用函数
  • 五、jieba实操
    • 练习一(jieba.lcut)精确模式
    • 练习二(jieba.lcut(s,cut_all=True) )全模式
    • 练习三(jieba.lcut_for_search)搜索引擎模式
    • 练习四(jieba.add_word(w))增加新词

一、什么是jieba库

jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。

二、jieba分词原理

jieba库的分词原理是利用了一个中文词库,将待分词的内容与分词词库对比,通过图结构和动态规则划分方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。

三、jieba库支持的三种分词模式

1.精确模式

将句子最精确地分开,适合文本分析;

2.全模式

把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

3.搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

注:对中文分词来说,jieba库只需要一行代码即可。英文文本不存在分词问题

四、jieba库常用函数

函数 描述
jieba.lcut(s) 精确模式,返回一个列表值
jieba.lcut(s,cut_all=True) 全模式,返回一个列表值
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表值
jieba.add_word(w) 向分词词典中增加新词w

五、jieba实操

首先你需要安装jieba库
pip install jieba

练习一(jieba.lcut)精确模式

jieba.lcut(s)是最常用的中文分词函数,用于精确模式,将字符串分割成等量的中文词组。

import jiebals = jieba.lcut("我愿意穿过璀璨繁星")
print(ls)

练习二(jieba.lcut(s,cut_all=True) )全模式

jieba.lcut(s,cut_all=True)用于全模式,将字符串的所有分词可能列出来,冗余最大。

import jieba
ls = jieba.lcut("人面不知何处去,桃花依旧笑春风", cut_all=True)
print(ls)

练习三(jieba.lcut_for_search)搜索引擎模式

jieba.lcut_for_search该模式首先执行精确模式,然后在对其中长词进一步分获得最终结果

import jieba
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
print(ls)

练习四(jieba.add_word(w))增加新词

import jiebals = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)

小结:精确模式因为不产生冗余,最为常用。

Python第三方库:jieba库与中文分词概述(全面详解)相关推荐

  1. 中文分词之HMM详解

    原文链接:中文分词之HMM详解 关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理. 尽可能的撇开公式,撇开推导.结合实际开 ...

  2. Elasticsearch 多语言及中文分词与检索详解

    文章目录 1. 自然语言与查询 Recall 2. 混合多语言的挑战 3. 分词的挑战 4. 中文分词方法的演变 - 字典法 5. 中文分词方法的演变 - 基于统计法的机器学习算法 6. 中文分词器现 ...

  3. Macropodus中文分词方法综述详解(CWS, chinese word segment)

    一.Macropodus简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 拥有中文分词 命名实体识别 新词发现 关键词 文本摘要 计算器 中文 数字阿拉伯数字转换等算法 ...

  4. 6.Python常用第三方库—jieba库的使用(中文分词词库)

    目录 一.jieba库介绍 二.jieba库常用指令说明 1.  精确模式 2.  全模式 3.  搜索引擎模式 4.   增加新词 三.jieba库的安装 四.jieba库实例代码演示 一.jieb ...

  5. jieba,为中文分词而生的Python库

    jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...

  6. Python初学13——jieba库简介与使用

    目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...

  7. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  8. python中利用jieba库统计词频,counts[word] = counts.get(word,0)+1的使用

    import jieba txt = open("阿甘正传-网络版.txt","r",encoding ="utf-8").read() w ...

  9. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  10. 基于python中jieba包的中文分词中详细使用(二)

    文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...

最新文章

  1. python不想学了-学习 Python 很吃力,我是不是可以放弃编程了?
  2. iOS 开发之--使用AFNetWorking3.1.0上传单张/多张图片
  3. 1009. 说反话 (20)
  4. 【整理】强化学习与MDP
  5. python外卷(7)--glob
  6. 技术揭秘:华为云DLI背后的核心计算引擎
  7. 粤嵌gec6818项目设计_西安市幸福林带景观及亮化设计国际竞赛终期评审会顺利举行...
  8. 让敏捷交付优秀的软件
  9. Spring小学习小结2
  10. left join 最后一条_一条Mysql查询语句的西天取经之路,你真的了解吗?
  11. vue 项目 upload上传图片 并实现拖拽排序
  12. 模拟SAP ALV下载XLSX文件
  13. 我是如何考上武汉大学在职研究生的
  14. 将路由器作为AP来使用
  15. 阿里云大数据ACP专业认证实验之05-MaxCompute内置函数(上)
  16. Jetson TX2 tensorflow安装+keras安装
  17. ubuntu Failed building wheel for lzf ...gcc...
  18. 网页源文件星号怎么显示_【亲测实用】网页隐藏密码查看方法
  19. Tree树状图的动态增删查改(上)生成树状图
  20. baked light+bake indirect+sampling lightmap

热门文章

  1. Spark03:Spark安装部署【集群】:Standalone模式以及ON YARN模式
  2. tftd32搭建DHCP服务器软件打开报错
  3. python snownlp_snownlp · PyPI
  4. 数值优化(Numerical Optimization)学习系列-序列二次规划和内点法(SQP、Interior-Point)
  5. 图像数字水印技术研究及matlab实现,基于DFT的数字水印技术及MATLAB实现
  6. matlab如何制造魔方矩阵,【1011】魔方矩阵的学习
  7. pr用什么显卡比较好_用PR软件做后期剪辑,主要需要怎样的主机配置-百度经验...
  8. linux dhcpv6有状态配置,Centos 7下IPV6 有状态DHCPV6配置
  9. 实现Modbus Rtu 服务端 通过RS485转4G方式 实现远程采集传输串口设备数据
  10. PyTorch中文教程 | (1) PyTorch深度学习极速入门