有时候需要使用自定义的词库,不使用默认的词库。比如做敏感词分词时, 完全禁用掉默认词库。

jieba 分词里面可以这样处理,通过set_dictionary 来设置自定义词库,从而禁用掉默认词库。

import jiebajieba.set_dictionary("words.txt")
jieba.initialize()
seg_list = jieba.cut("helloworldfromshanghai你好世界")
print(", ".join(seg_list))

words.txt 的内容

hello 1
world 1

分词出来的内容是这样的:


hello, world, fromshanghai, 你, 好, 世界

世界还是被分成一个词语了。 这个原因并不是词库没有生效,而是因为默认启用了 HMM的新词识别。

世界被识别成了一个词语。禁用 HMM 即可:

import jiebajieba.set_dictionary("words.txt")seg_list = jieba.cut("helloworldfromhangzhou你好世界", HMM=False)
print(", ".join(seg_list))

结巴分词完全禁用默认词库(仅使用自定义词库)相关推荐

  1. es自建搜索词库_ElasticSearch-IK拓展自定义词库(2):HTTP请求动态热词内容方式...

    上一章节(https://my.oschina.net/jsonyang/blog/1643032)我们介绍了使用热词文件形式拓展词库,这样的好处是方便简单,但是如果公司运营人员来直接管理这个东西的话 ...

  2. linux编译动态库未定义,自定义动态库 对‘*’未定义的引用解决方法

    自定义动态库 对'*'未定义的引用 本帖最后由 longruliang 于 2015-05-25 16:02:26 编辑 自己编写了一个串口方面的动态库,想写一个测试程序,在编译的时候冒出对'*'未定 ...

  3. Elasticsearch配置ik中文分词器自定义词库

    1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...

  4. python默认词云颜色_Python 绘制词云

    1. 准备 安装好python,安装时包含pip 包管理工具 pip install jieba pip install matplotlib import matplotlib.pyplot as ...

  5. python结巴怎么安装pip_Python3.6 结巴分词安装和使用

    由于我安装的是 Python3 ,所以我是通过 pip3 来安装 jieba 分词模块: 1 pip3 install jieba 执行完上面的一步之后,我们就已经成功安装了 jieba 分词模块了, ...

  6. linux添加自己的库,Linux学习笔记——例叙makefile 增加自定义共享库

    Linux学习笔记--例说makefile 增加自定义共享库 0.前言 从学习C语言开始就慢慢开始接触makefile,查阅了很多的makefile的资料但总感觉没有真正掌握makefile,如果自己 ...

  7. python使用结巴分词(jieba)创建自己的词典/词库

    原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...

  8. 数据挖掘之jieba模块使用(读取单个文本内容(txt,word,pdf),对文章进行分词(中文)统计每个词语出现的次数并按从大到小排序,同时通过停用词库排除停用词)

    实验室终于开始搞新的东西了,我又可以学到更大佬的知识了~(虽然以前的知识都没掌握-) 这次分享实验室留的作业(对jieba模块的使用) 首先要设置停用词 # 设置停用词 print('start re ...

  9. python 商品名称相似度查找(difflib库和结巴分词的运用)

    今天同事被告知要写一个查询商品相似度的系统,我以为事类似推荐系统一样的高大上系统,心中暗自庆幸没有被委以如此重任,不然在紧迫的时间里学习实现这套系统一定会睡眠不足的,后来同事讲解后我才知道只是一个商品 ...

最新文章

  1. “2021ISIG中国产业智能大会低代码峰会”即将开幕,钉钉宜搭叶周全受邀出席
  2. 使用代码创建ABAP transparent table
  3. 关于内存的划分和传引用传参数的区别
  4. react antd confirm content list_React造轮系列:对话框组件 - Dialog 思路
  5. ARM中断分析之三:WinCE驱动的中断分析
  6. pytorch之batch_size
  7. vue项目中实现输入框防抖功能
  8. 深入探究802.11ac技术
  9. 无线抄表火热,ZigBee暂输于专用协议[转]
  10. java背单词软件_背单词的java小软件
  11. 怎么把知网下载的caj格式论文转成wrod格式呢
  12. 深入浅出WMS之入库流程解析
  13. 纯粹CSS 绘制向下箭头
  14. 「雕爷学编程」Arduino动手做(23)——矩形脉冲发生器
  15. Trojan.DL.VBS.Agent.r 脚本病毒 ASP解密
  16. 沪江计算机考研老师,[回报沪江]从六级370到考研74,我的08研英之路[原创].doc
  17. 我对汉诺塔问题的理解
  18. 【张朝阳的物理课笔记】8. 黑体辐射,瑞丽金斯公式的推导(上)
  19. C++实现矩阵计算器
  20. UVA 1001 Say Cheese 奶酪里的老鼠(最短路,floyd)

热门文章

  1. 考研逻辑-逻辑5主讲人:王超-2020-05-30
  2. printf在c++使用
  3. 协同管理软件在企业数字化运营中可以起到的作用
  4. z3学习笔记(python 3)
  5. linux做子域dns,Linux下的DNS服务器配置实践(三)-子域授权、转发、视图
  6. 物联网技术助力物流智能化:从货物追踪到配送优化
  7. linux修改组命令groupmod,添加用户useradd,修改用户usermod,添加组groupadd
  8. 海外SEO对于外链建设的作用!
  9. 人事管理信息系统mysql代码_人事管理系统——数据库操作类
  10. 修改战神引擎手游进入游戏公告内容教程