ElasticSearch学习 ④ IK分词器(elasticsearch插件)+自定义字典
ES默认的分词器把中文每个字看作一个词,比如说:“我爱喝水”会被划分为“我”,“爱”,“喝”,“水”。显然不是很符合要求,所以我们需要安装中文分词器ik来解决这个问题。
ik分词器提供了两个分词算法:ik_smart
和ik_max_word
,其中ik_smart
为最少切分, ik_max_word
为最细粒度划分
1.下载(版本要与ElasticSearch版本对应)
https://github.com/medcl/elasticsearch-analysis-ik/releases
2.安装(解压,重启es即可)
3.使用kibana进行测试
ik_smart
:最少切分:
ik_max_word
:最细粒度划分(穷尽词库的可能)
从上面看,感觉分词都比较正常,但是大多数,分词都满足不了我们的想法,如下例:(金毛狮王是一个完整的词,不想让他乱分)
根据默认拆分的结果,发现我们需要增加“金毛”和“金毛狮王”2个词条并删除“金”和“毛”2个词条。这里就可以用自定义字典来实现
打开 ..\elasticsearch-7.12.1\plugins\ik\config\IKAnalyzer.cfg.xml
可以看到有2个配置 ext_dict 和 ext_stopwords。分别是扩展和停用字典
参照默认的dic文件,在config目录新建 my_ext.dic 和 my_stop.dic
然后配置到 IKAnalyzer.cfg
重启ES 测试
自定义字典:
比如说“母猪的产后护理”,我想自定义“猪的”为一组词,这样的话,默认的分词并不能满足我们的要求,所以我们需要自定义词。
1.新建自定义字典文档
2.添加新词汇到自定义字典文档
3.配置
编写配置文件,将新增的字典注入到配置文件中(注意 不可以配置两个自定义字典,会报错)
4.重启ES和kibana
ElasticSearch学习 ④ IK分词器(elasticsearch插件)+自定义字典相关推荐
- ElasticSearch学习----IK分词器
IK分词器 一. IK分词器 ①. 在线安装IK 1. 必须将ElasticSearch服务中原始数据删除 2. 在ElasticSearch安装目录中执行如下命令 2. 重启ElasticSearc ...
- 2021年大数据ELK(八):Elasticsearch安装IK分词器插件
全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 安装IK分词器 一.下载Elasticsearch IK分词器 ...
- docker、docker-compose 下安装elasticsearch、IK分词器
docker.docker-compose 下安装elasticsearch.IK分词器 文章目录 docker.docker-compose 下安装elasticsearch.IK分词器 1.整体版 ...
- Elasticsearch安装IK分词器,kibana安装是基本使用,DSL语句入门
文章目录 1. 安装IK分词器 2. Kibana安装和使用 2.1 ELK概述 2.2 Kibana下载 2.3 DSL语句 1. 安装IK分词器 ElasticSearch 默认采用的分词器, 是 ...
- 04.ElasticSearch之IK分词器的安装与使用
ElasticSearch之IK分词器的安装与使用 前言 安装 离线安装 在线安装 ik分词器测试 扩展(停用)词(典) 测试数据 概念 配置词典 1.修改配置文件 2.新建词典 3.自定义内容 4. ...
- elasticsearch安装ik分词器
elasticsearch安装ik分词器 1. 修改docker-compose.yml文件,对es目录下的plugins文件夹进行文件映射 version: "2.2" volu ...
- IK集成ElasticSearch,IK分词器的下载及使用
IK集成ElasticSearch,IK分词器的下载及使用 下载ElasticSearch 8.7.0网址:Download Elasticsearch | Elastic 历史版本地址:Past R ...
- 30_ElasticSearch IK分词器配置文件 以及自定义词库
ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...
- Elasticsearch(二) ik分词器的安装 以及 自定义分词
ik分词器作为elasticsearch的一个插件,则是安装在es插件中. ik分词器的安装 1,创建ik分词目录上传与es相同版本的ik分词器插件,不同版本可能es启动 报错 在elasticsea ...
最新文章
- rrdtool 修改水印logo
- mysql的结构,段页区,及客户端命令
- Altium Designer中将FPGA引脚定义导出成文件
- linux sit0 wifi,I.MX6 AW-NB177NF wifi HAL 调试修改(示例代码)
- C++虚继承(三) --- C++ 对象的内存布局(下)(陈皓)
- 1099. Build A Binary Search Tree (30)
- 使用python统计出txt文档中含有某个单词的个数
- 女程序员做了个梦,众网友的神回复
- H5 video的使用
- GB50311-2016标准综合布线
- 基于FP5207的5V升12V电路设计
- uva1391-Astronauts
- 大学英语四六级成绩查询
- revit 转换ifc_将IFC转换成GLTF格式
- 连载 北漂十二年祭 3 --Leo第二次面试,无意中的霸王面
- PC/UVa 题号: 110106/10033 Interpreter (解释器)题解 c语言版
- 分子模拟||常见计算任务流程梳理:平衡态计算、非平衡态计算及复杂流程模拟
- SharePoint 2013 自定义扩展菜单
- 牛顿法计算平方根java_利用牛顿迭代法求平方根(转)
- 什么是web服务器?有哪些作用?
热门文章
- c语言程序设计题模板,C语言程序设计试题集
- 使用汉王云API实现手写识别H5(参考:2018政府工作报告关键字)
- Adobe Creative Suite 3 Design Premium 中文版下载
- 济宁市计算机技能大赛,技能大赛做“试金石”,济宁市技师学院培养一流人才...
- 【Python】OS 模块简介
- 联络员(最短路-kruskal)
- python jdbc连接sybase_sybase的jdbc连接
- Mac安装微信支付安全控件问题
- atl offsetofclass
- pp-vehicle简介