初识ES-IK分词器的拓展和停用词典
扩展词词典
随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“奥力给”等。
所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。
1)打开IK分词器config目录:
2)在IKAnalyzer.cfg.xml配置文件内容添加:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--><entry key="ext_dict">ext.dic</entry>
</properties>
3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改
奥力给
4)重启elasticsearch
docker restart es# 查看 日志
docker logs -f elasticsearch
注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑
停用词词典
在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。
IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。
1)IKAnalyzer.cfg.xml配置文件内容添加:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--><entry key="ext_dict">ext.dic</entry><!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典--><entry key="ext_stopwords">stopword.dic</entry>
</properties>
3)在 stopword.dic 添加停用词
4)重启elasticsearch
# 重启服务
docker restart elasticsearch
docker restart kibana# 查看 日志
docker logs -f elasticsearch
日志中已经成功加载stopword.dic配置文件
注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑
初识ES-IK分词器的拓展和停用词典相关推荐
- 处理中文分词 ik分词器以及拓展和停止字典
一. 处理中文分词 以及 ik分词器的应用 解决: 1. 在es-plugins中添加安装 ik分词器 IK分词器包含两种模式: ik_smart:最少切分 ik_max_word:最细切分 2. 容 ...
- 【Elasticsearch】es IK分词器的安装
1.概述 [Elasticsearch]es 7.8.0 唐诗三百首写入 Elasticsearch 会发生什么 之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字 ...
- docker使用小记——docker安装es+ik分词器+拼音分词器+kibana
一.docker安装:Windows Docker 安装 | 菜鸟教程 二.docker换镜像源 修改或新增 /etc/docker/daemon.json vi /etc/docker/daemon ...
- ES IK分词器 - 停用词
安装IK中文分词器 参考github (https://github.com/medcl/elasticsearch-analysis-ik/tree/v7.6.1) 1.download or co ...
- 04.ElasticSearch之IK分词器的安装与使用
ElasticSearch之IK分词器的安装与使用 前言 安装 离线安装 在线安装 ik分词器测试 扩展(停用)词(典) 测试数据 概念 配置词典 1.修改配置文件 2.新建词典 3.自定义内容 4. ...
- ik与拼音分词器,拓展热词/停止词库
说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...
- ik分词器的热词更新_ik与拼音分词器,拓展热词/停止词库
说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...
- ElasticSearch入门简介、安装ES(安装Kibana和IK分词器)使用 Postman连接ES进行测、ESRestAPI(操作索引CRUD操作文档CRUD)、练习
要理解倒排索引 要能够使用DSL命令操作索引库 要能够使用DSL命令操作文档 要能够使用RestAPI操作索引库.文档 一.ES简介 理解倒排索引的概念和作用 理解es和MySql的区别和使用场景 1 ...
- es ik分词热更新MySQL,ElasticSearch(25)- 改IK分词器源码来基于mysql热更新词库
代码地址 已经修改过的支持定期从数据库中提取新词库,来实现热更新.代码: https://github.com/csy512889371/learndemo/tree/master/elasticse ...
最新文章
- C++程序员如何入门Unreal Engine 4
- 日常工作用Python能解决哪些问题?
- 梦想中的网络安全和内部协作
- Leetcode016 3Sum Closest
- test命令用法。功能:检查文件和比较值
- java启动参数_Java启动参数的思考
- 操作系统————P1 概念、功能和目标
- (转载)突然就看懂了《大话西游》
- jQuery size()函数
- Spring Cloud Sleuth链路跟踪之使用Mysq保存服务链路跟踪信息(学习总结)
- php poedit怎么debug,Cakephp的国际化和poEdit的使用
- VS下载插件慢的解决方法。
- SSL双向认证和单向认证原理
- LPC1768PWM实验
- 华为荣耀3c卡android界面,双卡四核5英寸屏 华为荣耀3C电信版评测
- CHIL-SQL-NOW() 函数
- PHP开发群控,玩客云改群控的试玩体验,群控插件开发原来如此简单
- 运行Monitor 的时候出现错误解决办法
- 求标准正交基的一种直观解释
- 2017中国工业互联网大会召开