jieba 分词如何控制分词粒度

本文主要内容是

分词力度的应用场景
jieba分词如何实现分词的粒度

分词粒度的概念

我最喜欢的篮球明星是勒布朗·詹姆斯，一般我们直接称呼他为詹姆斯

以该句话为例，最好的分词结果是 “勒布朗·詹姆斯” 和 “詹姆斯”都能分离出来。这就涉及到了分词粒度的控制，即如何保证长的词语不会被分开。

常用分词工具，ansj 直接提供分词粒度的控制和词性的自定义校正而 python 版本的jieba 通过控制词频来间接管理分词的粒度。具体实现如下

jieba分词粒度的控制

根据官方提供的wiki文档https://github.com/fxsjy/jieba 其主要是通过强调高词频来控制分词力度，

其中一种动态控制的方法如下

import jieba
content = '我最喜欢的篮球明星是勒布朗·詹姆斯，一般我们直接称呼他为詹姆斯'
words = ['勒布朗','詹姆斯','勒布朗·詹姆斯']
for w in words:jieba.add_word(w,len(w) * 1000,'nr')# 另一种控制粒度的方式#jieba.suggest_freq('勒布朗·詹姆斯', True)
print(','.join(jieba.cut(content)))

第二种直接在自定义词典中中设置词的频次，词表格式如下

勒布朗·詹姆斯 5000
詹姆斯 1000
勒布朗 1000

代码具体如下

import jieba
# 词典文件
word_dict_file = 'data/sport_word.dict'
# 加载自定义词典
jieba.load_userdict(word_dict_file)content = '我最喜欢的篮球明星是勒布朗·詹姆斯，一般我们直接称呼他为詹姆斯'
print(','.join(jieba.cut(content)))

其他说明

控制粒度已经完成，在该句子中出现了jieba 分词无法处理的字符 “·”，需要在jieba 源码中的 C:\Anaconda3\Lib\site-packages\jieba\__init__.py (根据自己的安装路径修改) 添加正则匹配项后，就能正常识别了

jieba 分词如何控制分词粒度相关推荐

【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
jieba简易教程：分词、词性标注、关键词抽取
jieba分词 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b ...
简明Jieba中文分词教程（分词、关键词提取、词性标注、计算位置）
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法
本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...
基于python中jieba包的中文分词中详细使用（一）
文章目录基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
jieba，为中文分词而生的Python库
jieba,为中文分词而生的Python库中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
Jieba、NLTK等中英文分词工具进行分词
实验目的: 利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析. 实验工具: 中文 ...

jieba 分词如何控制分词粒度

分词粒度的概念

jieba分词粒度的控制

其他说明

jieba 分词如何控制分词粒度相关推荐

最新文章

热门文章