结巴分词jieba添加自定义词典
结巴分词添加自定义词典,有时候很有必要。比如下面这段话:
test_text = """
我们的健康码也是绿色的,这凭什么就限制我们的就医!"""
如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”
这里可以使用词典方式,添加自定义词典。
新建一个txt文件,在文件里输入“健康码”
以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。
然后使用
jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))
wk_dir是词典放置的目录,词典文件名默认为jiebaDict.txt.
再一次分词,就可以得到这个结果。
如果不想用这个词作为一整个词,下次分词时,还是想,健康, 和码分开,那么就使用
jieba.del_word("健康码")
那么自定义词典的文件就没有这个词。下次分词还是会按照默认的方式,分成“健康”,“码”
如果还想添加其他的,那么可以打开jiebaDict.txt文件,一行一行添加想要添加的自定义词典。
或者使用
jieba.add_word("凭什么")
:
自定义词典,应该是每次使用都需要手动加载,不然不会发挥作用。
结巴分词jieba添加自定义词典相关推荐
- python使用结巴分词(jieba)创建自己的词典/词库
原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...
- [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解
本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...
- jieba结巴分词加入自定义词典
文章目录 分词 返回generator 返回list 添加自定义词典 动态调整词典 参考 jieba官方文档 分词 返回generator jieba.cut 以及 jieba.cut_for_sea ...
- python结巴分词实例_python 结巴分词(jieba)详解
"结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese ...
- python 结巴分词(jieba)详解
[转自:https://www.cnblogs.com/jackchen-Net/p/8207009.html] "结巴"中文分词:做最好的 Python 中文分词组件 " ...
- python 结巴分词(jieba)学习
来源:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github ...
- 结巴分词(jieba)
源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...
- 结巴分词 - - - jieba库
本篇文章主要描述一下结巴库的基本使用方式有哪些: 目录 Python里面可以使用的第三方中文分词库有哪些? jieba库目的? jieba分词的原理 jieba库使用说明 关键词提取 词性标注 路径: ...
- 结巴分词python安装_“结巴”分词:做最好的Python分词组件
python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) j ...
最新文章
- dev-c++官网位置和源码/库位置
- Pygame - Python游戏编程入门(1)
- 关于常用的git命令列表
- 利用flashback database实现部分对象回滚
- 如何制作一个HTML网页
- 用QQ聊天记录生成一个词云
- c++ insert
- Microsoft Edge逃离360之路
- adb命令重置_Android ADB 常用命令
- Centos7 Snapper快照备份
- 如何用软件测试交易系统的胜率,通达信官网程序交易测试
- PHP招聘:如何面试应届生求职者
- PTA L3-031 千手观音 (30 分)
- 深入浅出计算机组成原理20-面向流水线的指令设计(上):一心多用的现代CPU
- 线性回归模型的性能评价指标
- HTML5悬浮球源码,js拖拽360桌面悬浮球代码
- 录屏软件无水印免费,分享一款功能强大且免费的录屏软件
- 【软件工具】VMware Tool
- unpacking error : failed to extract...: failed to convert whiteout file... operation not permitted
- 七日杀服务器文件翻译,七日杀items文件翻译 | 手游网游页游攻略大全