首先我自定义了一个词库,内容为:

乾清宫 5
太和殿 3
黄琉璃瓦 3
午门 1
我是一个 5
凯的试接 1

我的分词内容为

故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等我是一个好孩子我是一个好孩子我是一个好孩子
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等凯的试接
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等

分词后的效果:

故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 我 是 一个 好孩子 我 是 一个 好孩子 我 是 一个 好孩子 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 凯的试接   故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等

对于  我是一个5  这个不想被分开的词,分词后还是被分开了,后来看了jieba自己的分词词典dict.txt,发现在词典中有三个词:我  ,是  ,一个 。所以自己定义的  我是一个  这个词就没有效果了。

添加的  凯的试接  因为dict.txt中没有这个词,就正常执行了。

如果还想按照自己自定义的词典分词,需要把dict.txt中相应的词删掉。

jieba分词自定义词库无效果相关推荐

  1. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  2. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  3. Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理

    文章目录 1 Jieba的搜索模式 1.1 全模式 1.2 精确模式 1.3 搜索引擎模式 1.4 分词结果的形式选择 2 词库的添加与删除 2.1 添加单个词语 2.2 添加自定义词典 2.3 词库 ...

  4. 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

    文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...

  5. 30_ElasticSearch IK分词器配置文件 以及自定义词库

    ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...

  6. 使用Docker快速安装部署ES和Kibana并配置IK中文分词器以及自定义分词拓展词库

    使用Docker快速安装部署ES和Kibana的前提:首先需要确保已经安装了Docker环境 如果没有安装Docker的话,可以参考上一篇的内容:Linux上安装Docker 有了Docker环境后, ...

  7. 结巴分词完全禁用默认词库(仅使用自定义词库)

    有时候需要使用自定义的词库,不使用默认的词库.比如做敏感词分词时, 完全禁用掉默认词库. jieba 分词里面可以这样处理,通过set_dictionary 来设置自定义词库,从而禁用掉默认词库. i ...

  8. IK分词器使用自定义词库

    2019独角兽企业重金招聘Python工程师标准>>> 1.拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.j ...

  9. Elasticsearch 之(24)IK分词器配置文件讲解以及自定义词库

    1.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条, ...

最新文章

  1. C语言指针(就做个笔记)
  2. 跟我学Springboot开发后端管理系统7:Matrxi-Web权限设计
  3. 动态可订制属性的 PropertyGrid(转载)
  4. python变量运算符_Python(三) 变量与运算符
  5. Atitit 关于处理环保行动联盟和动物解放阵线游击队的任命书 委任状
  6. java定时器无法自动注入的问题解析(原来Spring定时器可以这样注入service)
  7. aaynctask控制多个下载进度_C# 多线程方法 控制两个进度条
  8. Git提交本地代码到GitHub
  9. web前端前景近几年怎么样,是否饱和?
  10. 【图形和图像】三原色
  11. python不定积分教学_python使用sympy不定积分入门及求解
  12. 国内3G市场发展情况
  13. 【数据库视频--概况
  14. 论文阅读:Pointwise Convolutional Neural Networks
  15. Online Judge爬虫
  16. python读取docx文件出错_Python:读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误...
  17. 高压真空断路器特性实验
  18. Axure 9实现左侧动态导航栏
  19. 极光数据埋点不成功情况之一记录
  20. 渐开线齿轮传动的滑动系数

热门文章

  1. 【ESP8266】烧录无线中继固件详细教学
  2. PPT如何带走自己的字体?
  3. 关于:使用 nslookup 验证加入域所需的 SRV 记录
  4. 第一篇博客,就写写Ubuntu16.04的桌面特效吧
  5. K线形态识别_锤头线和吊颈线(绞刑线)
  6. 前端进击的巨人(1):执行上下文与执行栈,变量对象
  7. 在jsp页面中怎样把接受过来的id作为表单的隐藏id。
  8. Go使用redigo实现简单分布式锁
  9. Elasticsearch实践(二)在Springboot微服务中集成搜索服务
  10. win10不能输入中文 shift无法切换键盘