扩展词词典

随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“奥力给”等。

所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。

1)打开IK分词器config目录:

2)在IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--><entry key="ext_dict">ext.dic</entry>
</properties>

3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改

奥力给

4)重启elasticsearch

docker restart es# 查看 日志
docker logs -f elasticsearch

注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑

停用词词典

在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。

IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。

1)IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--><entry key="ext_dict">ext.dic</entry><!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典--><entry key="ext_stopwords">stopword.dic</entry>
</properties>

3)在 stopword.dic 添加停用词

4)重启elasticsearch

# 重启服务
docker restart elasticsearch
docker restart kibana# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载stopword.dic配置文件

注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑

初识ES-IK分词器的拓展和停用词典相关推荐

  1. 处理中文分词 ik分词器以及拓展和停止字典

    一. 处理中文分词 以及 ik分词器的应用 解决: 1. 在es-plugins中添加安装 ik分词器 IK分词器包含两种模式: ik_smart:最少切分 ik_max_word:最细切分 2. 容 ...

  2. 【Elasticsearch】es IK分词器的安装

    1.概述 [Elasticsearch]es 7.8.0 唐诗三百首写入 Elasticsearch 会发生什么 之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字 ...

  3. docker使用小记——docker安装es+ik分词器+拼音分词器+kibana

    一.docker安装:Windows Docker 安装 | 菜鸟教程 二.docker换镜像源 修改或新增 /etc/docker/daemon.json vi /etc/docker/daemon ...

  4. ES IK分词器 - 停用词

    安装IK中文分词器 参考github (https://github.com/medcl/elasticsearch-analysis-ik/tree/v7.6.1) 1.download or co ...

  5. 04.ElasticSearch之IK分词器的安装与使用

    ElasticSearch之IK分词器的安装与使用 前言 安装 离线安装 在线安装 ik分词器测试 扩展(停用)词(典) 测试数据 概念 配置词典 1.修改配置文件 2.新建词典 3.自定义内容 4. ...

  6. ik与拼音分词器,拓展热词/停止词库

    说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...

  7. ik分词器的热词更新_ik与拼音分词器,拓展热词/停止词库

    说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...

  8. ElasticSearch入门简介、安装ES(安装Kibana和IK分词器)使用 Postman连接ES进行测、ESRestAPI(操作索引CRUD操作文档CRUD)、练习

    要理解倒排索引 要能够使用DSL命令操作索引库 要能够使用DSL命令操作文档 要能够使用RestAPI操作索引库.文档 一.ES简介 理解倒排索引的概念和作用 理解es和MySql的区别和使用场景 1 ...

  9. es ik分词热更新MySQL,ElasticSearch(25)- 改IK分词器源码来基于mysql热更新词库

    代码地址 已经修改过的支持定期从数据库中提取新词库,来实现热更新.代码: https://github.com/csy512889371/learndemo/tree/master/elasticse ...

最新文章

  1. C++程序员如何入门Unreal Engine 4
  2. 日常工作用Python能解决哪些问题?
  3. 梦想中的网络安全和内部协作
  4. Leetcode016 3Sum Closest
  5. test命令用法。功能:检查文件和比较值
  6. java启动参数_Java启动参数的思考
  7. 操作系统————P1 概念、功能和目标
  8. (转载)突然就看懂了《大话西游》
  9. jQuery size()函数
  10. Spring Cloud Sleuth链路跟踪之使用Mysq保存服务链路跟踪信息(学习总结)
  11. php poedit怎么debug,Cakephp的国际化和poEdit的使用
  12. VS下载插件慢的解决方法。
  13. SSL双向认证和单向认证原理
  14. LPC1768PWM实验
  15. 华为荣耀3c卡android界面,双卡四核5英寸屏 华为荣耀3C电信版评测
  16. CHIL-SQL-NOW() 函数
  17. PHP开发群控,玩客云改群控的试玩体验,群控插件开发原来如此简单
  18. 运行Monitor 的时候出现错误解决办法
  19. 求标准正交基的一种直观解释
  20. 2017中国工业互联网大会召开

热门文章

  1. 第二阶段冲刺 站立会议03
  2. Django内建模版标签和过滤器
  3. 美观实用的标签切换菜单
  4. 【code】Splay 模板
  5. Linux而不必进入password登陆自己主动sshserver方法
  6. Jquery Mobile设计Android通讯录第二章
  7. Android用GSon处理Json数据
  8. abap:常用TCODE
  9. JVM学习04:类的文件结构
  10. 云盒子企业网盘入驻阿里云市场,正式向公有云市场发力!