结巴分词添加自定义词典,有时候很有必要。比如下面这段话:

test_text = """
我们的健康码也是绿色的,这凭什么就限制我们的就医!"""

如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”

这里可以使用词典方式,添加自定义词典。

新建一个txt文件,在文件里输入“健康码”

以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。

然后使用

jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))

wk_dir是词典放置的目录,词典文件名默认为jiebaDict.txt.

再一次分词,就可以得到这个结果。

如果不想用这个词作为一整个词,下次分词时,还是想,健康, 和码分开,那么就使用

jieba.del_word("健康码")

那么自定义词典的文件就没有这个词。下次分词还是会按照默认的方式,分成“健康”,“码”

如果还想添加其他的,那么可以打开jiebaDict.txt文件,一行一行添加想要添加的自定义词典。

或者使用

jieba.add_word("凭什么")

自定义词典,应该是每次使用都需要手动加载,不然不会发挥作用。

结巴分词jieba添加自定义词典相关推荐

  1. python使用结巴分词(jieba)创建自己的词典/词库

    原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...

  2. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解

    本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...

  3. jieba结巴分词加入自定义词典

    文章目录 分词 返回generator 返回list 添加自定义词典 动态调整词典 参考 jieba官方文档 分词 返回generator jieba.cut 以及 jieba.cut_for_sea ...

  4. python结巴分词实例_python 结巴分词(jieba)详解

    "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese ...

  5. python 结巴分词(jieba)详解

    [转自:https://www.cnblogs.com/jackchen-Net/p/8207009.html] "结巴"中文分词:做最好的 Python 中文分词组件 " ...

  6. python 结巴分词(jieba)学习

    来源:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github ...

  7. 结巴分词(jieba)

    源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...

  8. 结巴分词 - - - jieba库

    本篇文章主要描述一下结巴库的基本使用方式有哪些: 目录 Python里面可以使用的第三方中文分词库有哪些? jieba库目的? jieba分词的原理 jieba库使用说明 关键词提取 词性标注 路径: ...

  9. 结巴分词python安装_“结巴”分词:做最好的Python分词组件

    python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) j ...

最新文章

  1. dev-c++官网位置和源码/库位置
  2. Pygame - Python游戏编程入门(1)
  3. 关于常用的git命令列表
  4. 利用flashback database实现部分对象回滚
  5. 如何制作一个HTML网页
  6. 用QQ聊天记录生成一个词云
  7. c++ insert
  8. Microsoft Edge逃离360之路
  9. adb命令重置_Android ADB 常用命令
  10. Centos7 Snapper快照备份
  11. 如何用软件测试交易系统的胜率,通达信官网程序交易测试
  12. PHP招聘:如何面试应届生求职者
  13. PTA L3-031 千手观音 (30 分)
  14. 深入浅出计算机组成原理20-面向流水线的指令设计(上):一心多用的现代CPU
  15. 线性回归模型的性能评价指标
  16. HTML5悬浮球源码,js拖拽360桌面悬浮球代码
  17. 录屏软件无水印免费,分享一款功能强大且免费的录屏软件
  18. 【软件工具】VMware Tool
  19. unpacking error : failed to extract...: failed to convert whiteout file... operation not permitted
  20. 七日杀服务器文件翻译,七日杀items文件翻译 | 手游网游页游攻略大全

热门文章

  1. php用什么工具调试代码,详细介绍利用开源的DebugBar工具调试PHP代码(图文)
  2. php判断有没有分页,php分页怎么判断已经到了最后一页?
  3. 【小项目关键技术】硬件通信三种方式、串口、IIC、SPI
  4. 2.1 二元分类-深度学习-Stanford吴恩达教授
  5. ubuntu9.10配置编译xawtv-3.95
  6. 记录一次CPLD资源过少、时序伪例的解决办法
  7. 揭开雷达的面纱(科普) 发射机
  8. 对图像进行二维离散Fourier变换
  9. 信道容量与Shannon公式
  10. 写在方法中的路由跳转