配置IKAnalyzer扩展词库
在Elasticsearch的安装目录下找到文件IKAnalyzer.cfg.xml,内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">custom/ext_stopword.dic</entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
这行中定义了扩展分词,即哪些词汇不拆分,标签中配置的是文件路径,默认在custom文件夹下,自定义扩展分词的时候首先在custom文件夹下新增一个文件my.dic,将文件的路径添加到以上标签如下:
<entry key="ext_dict">custom/my.dic;custom/mydict.dic;custom/single_word_low_freq.dic</entry>
注意事项:
1.定义的my.dic文件必须使用无BOM的UTF-8编码保存的文件。如果不确定什么是无BOM的UTF-8编码,最简单的方式就是用Notepad++编辑器打开,Encoding->选择 Encoding in UTF-8 without BOM,然后保存。若Notepad++没有该编码,则如下操作即可:
2.建议不要使用记事本等其他方式打开,否则会修改编码的方式,使扩展分词失效
案例如下:
在没有配置扩展分词前:
中文ik分词词库里面将“王者荣耀”是分开的,但是我们又不愿意将其分开则可以使用扩展分词,按照上面的步骤配置,文件如下:
重启ES,查询结果如下:
配置IKAnalyzer扩展词库相关推荐
- JAVA 中配置IKAnalyzer扩展词库和停止词库
1.后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件.如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding ...
- 笔记2 IKAnalyzer扩展词库
参考 1.https://www.cnblogs.com/jmswag/p/9089366.html Lucene IK分词器集成,词典扩展(详细,推荐看此博客) 2.https://blog.cs ...
- Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
本文转载自: https://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 作者:dennisit 转载请注明该声明. 方案一: 基 ...
- IKAnalyzer配置扩展词库经验总结
IKAnalyzer对于中文分词效果较好,但是在实际应用过程中经常会遇到分词效果不理想的情况,比如中文中夹杂的英文缩写,英文与数字混合(如软件版本号)等,这时就需要配置扩展词库.配置的主要方法为编辑I ...
- solr配置同义词,停止词,和扩展词库(IK分词器为例)
定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...
- IKAnalyzer 添加扩展词库和自定义词
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.osch ...
- IKAnalyzer实现扩展词库+动态更新词库的方法
为什么80%的码农都做不了架构师?>>> 当前IKAnalyzer从发布最后一个版本后就一直没有再更新,使用过程中,经常遇到需要扩展词库以及动态更新字典表的问题,此处给出一种解 ...
- 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索
文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...
- Lucene分词器,使用中文分词器,扩展词库,停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...
最新文章
- Python_note4 程序控制结构+random库的使用
- [转]看刚毕业MM如何在北京买房
- 关于Ping的TTL的含义
- mysql xtrabackup备份工具使用
- 无法启动 MS DTC 事务管理器。LogInit 返回错误 0x2. 怎么办?
- linux和windows输入法设置,关于输入法框架,这里有可以跨平台的linux和windows。。。。...
- 【ArcObject开发】实验:ArcGIS Desktop开发方式入门基础教程
- linux hexdump显示格式c数组,hexdump命令
- mac 没有所有开发者_为什么开发人员应该像产品所有者那样思考
- 作者:詹晓娟(1978-),女,黑龙江工程学院讲师。
- 如何编写好的C main函数
- 《Linux就该这么学》培训笔记_ch18_使用MariaDB数据库管理系统
- VMware Fusion下Centos联网
- linux实现定时任务
- 关于常用STM32F103芯片型号代码
- Mac上的UML建模工具
- Opencv实战四 图像匹配
- php什么是耦合关系,什么是耦合
- gphp32.exe是什么文件?
- OKEx徐坤:构建核心壁垒,拓展全球市场