结巴分词完全禁用默认词库(仅使用自定义词库)
有时候需要使用自定义的词库,不使用默认的词库。比如做敏感词分词时, 完全禁用掉默认词库。
jieba 分词里面可以这样处理,通过set_dictionary 来设置自定义词库,从而禁用掉默认词库。
import jiebajieba.set_dictionary("words.txt")
jieba.initialize()
seg_list = jieba.cut("helloworldfromshanghai你好世界")
print(", ".join(seg_list))
words.txt 的内容
hello 1
world 1
分词出来的内容是这样的:
hello, world, fromshanghai, 你, 好, 世界
世界还是被分成一个词语了。 这个原因并不是词库没有生效,而是因为默认启用了 HMM的新词识别。
世界被识别成了一个词语。禁用 HMM 即可:
import jiebajieba.set_dictionary("words.txt")seg_list = jieba.cut("helloworldfromhangzhou你好世界", HMM=False)
print(", ".join(seg_list))
结巴分词完全禁用默认词库(仅使用自定义词库)相关推荐
- es自建搜索词库_ElasticSearch-IK拓展自定义词库(2):HTTP请求动态热词内容方式...
上一章节(https://my.oschina.net/jsonyang/blog/1643032)我们介绍了使用热词文件形式拓展词库,这样的好处是方便简单,但是如果公司运营人员来直接管理这个东西的话 ...
- linux编译动态库未定义,自定义动态库 对‘*’未定义的引用解决方法
自定义动态库 对'*'未定义的引用 本帖最后由 longruliang 于 2015-05-25 16:02:26 编辑 自己编写了一个串口方面的动态库,想写一个测试程序,在编译的时候冒出对'*'未定 ...
- Elasticsearch配置ik中文分词器自定义词库
1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...
- python默认词云颜色_Python 绘制词云
1. 准备 安装好python,安装时包含pip 包管理工具 pip install jieba pip install matplotlib import matplotlib.pyplot as ...
- python结巴怎么安装pip_Python3.6 结巴分词安装和使用
由于我安装的是 Python3 ,所以我是通过 pip3 来安装 jieba 分词模块: 1 pip3 install jieba 执行完上面的一步之后,我们就已经成功安装了 jieba 分词模块了, ...
- linux添加自己的库,Linux学习笔记——例叙makefile 增加自定义共享库
Linux学习笔记--例说makefile 增加自定义共享库 0.前言 从学习C语言开始就慢慢开始接触makefile,查阅了很多的makefile的资料但总感觉没有真正掌握makefile,如果自己 ...
- python使用结巴分词(jieba)创建自己的词典/词库
原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...
- 数据挖掘之jieba模块使用(读取单个文本内容(txt,word,pdf),对文章进行分词(中文)统计每个词语出现的次数并按从大到小排序,同时通过停用词库排除停用词)
实验室终于开始搞新的东西了,我又可以学到更大佬的知识了~(虽然以前的知识都没掌握-) 这次分享实验室留的作业(对jieba模块的使用) 首先要设置停用词 # 设置停用词 print('start re ...
- python 商品名称相似度查找(difflib库和结巴分词的运用)
今天同事被告知要写一个查询商品相似度的系统,我以为事类似推荐系统一样的高大上系统,心中暗自庆幸没有被委以如此重任,不然在紧迫的时间里学习实现这套系统一定会睡眠不足的,后来同事讲解后我才知道只是一个商品 ...
最新文章
- “2021ISIG中国产业智能大会低代码峰会”即将开幕,钉钉宜搭叶周全受邀出席
- 使用代码创建ABAP transparent table
- 关于内存的划分和传引用传参数的区别
- react antd confirm content list_React造轮系列:对话框组件 - Dialog 思路
- ARM中断分析之三:WinCE驱动的中断分析
- pytorch之batch_size
- vue项目中实现输入框防抖功能
- 深入探究802.11ac技术
- 无线抄表火热,ZigBee暂输于专用协议[转]
- java背单词软件_背单词的java小软件
- 怎么把知网下载的caj格式论文转成wrod格式呢
- 深入浅出WMS之入库流程解析
- 纯粹CSS 绘制向下箭头
- 「雕爷学编程」Arduino动手做(23)——矩形脉冲发生器
- Trojan.DL.VBS.Agent.r 脚本病毒 ASP解密
- 沪江计算机考研老师,[回报沪江]从六级370到考研74,我的08研英之路[原创].doc
- 我对汉诺塔问题的理解
- 【张朝阳的物理课笔记】8. 黑体辐射,瑞丽金斯公式的推导(上)
- C++实现矩阵计算器
- UVA 1001 Say Cheese 奶酪里的老鼠(最短路,floyd)