本文主要内容是

  1. 分词力度的应用场景
  2. jieba分词如何实现分词的粒度

分词粒度的概念

我最喜欢的篮球明星是勒布朗·詹姆斯,一般我们直接称呼他为詹姆斯

以该句话为例,最好的分词结果是 “勒布朗·詹姆斯” 和 “詹姆斯”都能分离出来。这就涉及到了分词粒度的控制,即如何保证长的词语不会被分开。

常用分词工具,ansj 直接提供分词粒度的控制和词性的自定义校正 而 python 版本的jieba 通过 控制词频来间接管理 分词的粒度。具体实现如下

jieba分词粒度的控制

根据官方提供的wiki文档https://github.com/fxsjy/jieba 其主要是通过强调高词频来控制分词力度,

其中一种动态控制的方法如下

import jieba
content = '我最喜欢的篮球明星是勒布朗·詹姆斯,一般我们直接称呼他为詹姆斯'
words = ['勒布朗','詹姆斯','勒布朗·詹姆斯']
for w in words:jieba.add_word(w,len(w) * 1000,'nr')# 另一种控制粒度的方式#jieba.suggest_freq('勒布朗·詹姆斯', True)
print(','.join(jieba.cut(content)))

第二种直接在自定义词典中中设置 词的频次,词表格式如下

勒布朗·詹姆斯 5000
詹姆斯 1000
勒布朗 1000

代码具体如下

import jieba
# 词典文件
word_dict_file = 'data/sport_word.dict'
# 加载自定义词典
jieba.load_userdict(word_dict_file)content = '我最喜欢的篮球明星是勒布朗·詹姆斯,一般我们直接称呼他为詹姆斯'
print(','.join(jieba.cut(content)))

其他说明

控制粒度已经完成,在该句子中出现了jieba 分词无法处理的字符   “·”,需要在jieba 源码中的 C:\Anaconda3\Lib\site-packages\jieba\__init__.py (根据自己的安装路径修改) 添加正则匹配项后,就能正常识别了

jieba 分词如何控制分词粒度相关推荐

  1. 【NLP】jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  2. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  3. jieba简易教程:分词、词性标注、关键词抽取

    jieba分词 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b ...

  4. 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)

    目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...

  5. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

  6. python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法

    本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...

  7. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  8. jieba,为中文分词而生的Python库

    jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...

  9. Jieba、NLTK等中英文分词工具进行分词

    实验目的: 利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中 英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析. 实验工具: 中文 ...

最新文章

  1. keras构建前馈神经网络(feedforward neural network)进行回归模型构建和学习
  2. python爬虫ip限制_简单爬虫,突破IP访问限制和复杂验证码,小总结
  3. MySQL无法启动服务器(1067)
  4. 详解OTT与IPTV的不同之处
  5. 普通网站防暴力破解的新设计
  6. python判断汉字偏胖_写了2年python,知道 if __name__ == '__main__' 什么意思吗?
  7. java teechart怎么用_TeeChart for Java
  8. 关关php采集插件,推荐使用:关关采集器(杰奇全版本通用编码版)v3.5.00
  9. 陕西2020行政区划调整_2020西安会成立直辖市
  10. ROS常用命令及脚本
  11. oracle-j2sdk1.8,cloudera-manager – 没有包oracle-j2sdk1.7可用?
  12. AdobeFlashPlayer 安装包
  13. 基于模糊聚类和协同过滤的混合推荐系统
  14. MediaStore数据库分析
  15. WPF 最简单的TextBox水印
  16. 转 怎么回答“分布式架构”才能让面试官满意?
  17. Android Studio发生AVD Pixel_XL_API_30 is already running报错,无手机界面问题
  18. 工具推荐:check_APPPacker.py
  19. 和差化积公式 与 积化和差公式的推导
  20. python计算矩阵对角线之和_Python练习题 028:求3*3矩阵对角线数字之和

热门文章

  1. C语言学习教程:变量与常量数据分享
  2. 7岁儿童智力检测题_经典8岁儿童智商测试题(答案)
  3. Android TV 直通显卡,为游戏而生 Android TV秘密武器露真容
  4. P710管理端口恢复出厂设置
  5. 雷军慌了!小米这款透明手机,没比魅族16吃香?
  6. 安全驾驶技术与精通(从初学者到大师级)
  7. 做多简述:通俗讲解做多含义以及案例让你学会为止
  8. 商品防伪二维码是什么?
  9. 基于股票大数据分析的Python入门实战(视频教学版)的插图汇总
  10. 关于如何成为像“狼”一样的学生的研究报告