在Elasticsearch的安装目录下找到文件IKAnalyzer.cfg.xml,内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">custom/ext_stopword.dic</entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>

这行中定义了扩展分词,即哪些词汇不拆分,标签中配置的是文件路径,默认在custom文件夹下,自定义扩展分词的时候首先在custom文件夹下新增一个文件my.dic,将文件的路径添加到以上标签如下:

<entry key="ext_dict">custom/my.dic;custom/mydict.dic;custom/single_word_low_freq.dic</entry>

注意事项:

1.定义的my.dic文件必须使用无BOM的UTF-8编码保存的文件。如果不确定什么是无BOM的UTF-8编码,最简单的方式就是用Notepad++编辑器打开,Encoding->选择 Encoding in UTF-8 without BOM,然后保存。若Notepad++没有该编码,则如下操作即可:

2.建议不要使用记事本等其他方式打开,否则会修改编码的方式,使扩展分词失效

案例如下:

在没有配置扩展分词前:

中文ik分词词库里面将“王者荣耀”是分开的,但是我们又不愿意将其分开则可以使用扩展分词,按照上面的步骤配置,文件如下:

重启ES,查询结果如下:

配置IKAnalyzer扩展词库相关推荐

  1. JAVA 中配置IKAnalyzer扩展词库和停止词库

    1.后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件.如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding ...

  2. 笔记2 IKAnalyzer扩展词库

    参考 1.https://www.cnblogs.com/jmswag/p/9089366.html  Lucene IK分词器集成,词典扩展(详细,推荐看此博客) 2.https://blog.cs ...

  3. Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库

    本文转载自: https://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 作者:dennisit 转载请注明该声明. 方案一: 基 ...

  4. IKAnalyzer配置扩展词库经验总结

    IKAnalyzer对于中文分词效果较好,但是在实际应用过程中经常会遇到分词效果不理想的情况,比如中文中夹杂的英文缩写,英文与数字混合(如软件版本号)等,这时就需要配置扩展词库.配置的主要方法为编辑I ...

  5. solr配置同义词,停止词,和扩展词库(IK分词器为例)

    定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...

  6. IKAnalyzer 添加扩展词库和自定义词

    原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.osch ...

  7. IKAnalyzer实现扩展词库+动态更新词库的方法

    为什么80%的码农都做不了架构师?>>>    当前IKAnalyzer从发布最后一个版本后就一直没有再更新,使用过程中,经常遇到需要扩展词库以及动态更新字典表的问题,此处给出一种解 ...

  8. 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索

    文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...

  9. Lucene分词器,使用中文分词器,扩展词库,停用词

    2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...

最新文章

  1. Python_note4 程序控制结构+random库的使用
  2. [转]看刚毕业MM如何在北京买房
  3. 关于Ping的TTL的含义
  4. mysql xtrabackup备份工具使用
  5. 无法启动 MS DTC 事务管理器。LogInit 返回错误 0x2. 怎么办?
  6. linux和windows输入法设置,关于输入法框架,这里有可以跨平台的linux和windows。。。。...
  7. 【ArcObject开发】实验:ArcGIS Desktop开发方式入门基础教程
  8. linux hexdump显示格式c数组,hexdump命令
  9. mac 没有所有开发者_为什么开发人员应该像产品所有者那样思考
  10. 作者:詹晓娟(1978-),女,黑龙江工程学院讲师。
  11. 如何编写好的C main函数
  12. 《Linux就该这么学》培训笔记_ch18_使用MariaDB数据库管理系统
  13. VMware Fusion下Centos联网
  14. linux实现定时任务
  15. 关于常用STM32F103芯片型号代码
  16. Mac上的UML建模工具
  17. Opencv实战四 图像匹配
  18. php什么是耦合关系,什么是耦合
  19. gphp32.exe是什么文件?
  20. OKEx徐坤:构建核心壁垒,拓展全球市场

热门文章

  1. 关于motionevent的使用
  2. PCM和WAV数据结构
  3. 操作系统 - Linux
  4. 计算机蓝屏故障,计算机蓝屏的故障原因以及解决方法
  5. PHP 获取浏览器以及版本号
  6. 实数编码 matlab ga,实数编码的遗传算法与MATLAB
  7. 全国电费优惠充值接口源码
  8. 浅谈Interpreter解释器模式
  9. Unity关于无法新建项目的可能解决办法
  10. 高质量的原创对于搜索引擎来说是非常的友好的