Es中默认的是标准分词器,对于属性类型是text类型的中文语句,进行了单字分词,英文语句是单词分词。
所以在搜索时,如果输入单词搜索,拆分成多个汉字搜索,搜索内容不准确。
故引入更加智能的IK分词器。

  1. IK分詞器的在线安装
  cd /opt/module/elasticsearch-6.8.0/bin./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.0/elasticsearch-analysis-ik-6.8.0.zip

下载的jar包在/opt/module/elasticsearch-6.8.0/plugins/analysis-ik/
配置文件在/opt/module/elasticsearch-6.8.0/config/analysis-ik

  1. 重启es生效

  2. .测试ik安装成功

GET /_analyze
{"text": "中华人民共和国国歌","analyzer": "ik_smart"
}

查看结果是否还是单个字分词。

  1. IK分词器的本地安装
cd /opt/module/elasticsearch-6.8.0/plugins/
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.0/elasticsearch-analysis-ik-6.8.0.zip
unzip -d analysis-ik elasticsearch-analysis-ik-6.8.0.zip #先使用yum install -y unzip

重启es生效
本地安装ik配置目录为 es安装目录中/plugins/analysis-ik/config/IKAnalyzer.cfg.xml
测试IK分词器
NOTE: IK分词器提供了两种mapping类型用来做文档的分词分别是 ik_max_wordik_smart
ik_max_word 和 ik_smart 什么区别?
ik_max_word: 会将文本做最细粒度的拆分`,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

配置扩展词

IK支持自定义扩展词典和停用词典,所谓扩展词典就是有些词并不是关键词,但是也希望被ES用来作为检索的关键词,可以将这些词加入扩展词典。停用词典就是有些词是关键词,但是出于业务场景不想使用这些关键词被检索到,可以将这些词放入停用词典。
如何定义扩展词典和停用词典可以修改IK分词器中config目录中IKAnalyzer.cfg.xml这个文件。
NOTE:词典的编码必须为UTF-8,否则无法生效

  • 修改vi IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext_dic.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

在ik分词器目录下config目录中创建ext_dict.dic文件 编码一定要为UTF-8才能生效
vi ext_dict.dic 加入扩展词即可
在ik分词器目录下config目录中创建ext_stopword.dic文件
vi ext_stopword.dic 加入停用词即可

IK分词器的安装和扩展词典的使用相关推荐

  1. elasticsearch IK分词器的安装、使用与扩展

    ES 的默认分词器(standard)不支持中文分词,满足不了平时的需求,所以需要用能够支持中文分词的 IK 分词器.而且 IK 分词器也是支持英文分词的. 本文介绍下IK分词器的安装.基本使用方法: ...

  2. 04.ElasticSearch之IK分词器的安装与使用

    ElasticSearch之IK分词器的安装与使用 前言 安装 离线安装 在线安装 ik分词器测试 扩展(停用)词(典) 测试数据 概念 配置词典 1.修改配置文件 2.新建词典 3.自定义内容 4. ...

  3. Elasticsearch(二) ik分词器的安装 以及 自定义分词

    ik分词器作为elasticsearch的一个插件,则是安装在es插件中. ik分词器的安装 1,创建ik分词目录上传与es相同版本的ik分词器插件,不同版本可能es启动 报错 在elasticsea ...

  4. ES入门学习:ElasticSearch、Kibana、ik分词器的安装、简单使用及SpringBoot集成

    前言 es是采用Java语言开发,因此,想要安装运行es需要提前准备好jdk环境,关于linux配置jdk在前文linux配置jdk 本文主要介绍es的安装.kibana的安装和简单使用及ik分词器的 ...

  5. 【Elasticsearch】es IK分词器的安装

    1.概述 [Elasticsearch]es 7.8.0 唐诗三百首写入 Elasticsearch 会发生什么 之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字 ...

  6. Elasticsearch——分布式搜索引擎01(索引库、文档、RestAPI、RestClient、拼音分词器、IK分词器)

    Elasticsearch--分布式搜索引擎01(索引库.文档.RestAPI.RestClient.拼音分词器.IK分词器) 一.初识 elesticsearch 1.1 简介 1.2 倒排索引(重 ...

  7. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

    为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...

  8. Linux下安装和配置solr/tomcat/IK分词器 详细实例二.

    为了更好的排版, 所以将IK分词器的安装重启了一篇博文,  大家可以接上solr的安装一同查看. [Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://w ...

  9. 本地elasticsearch中文分词器 ik分词器安装及使用

    ElasticSearch 内置了分词器,如标准分词器.简单分词器.空白词器等.但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词. ik分词器就是一个标准的中文分词器.它可以根据 ...

最新文章

  1. Pulltorefresh使用中碰到的问题
  2. 算法----打印二叉树最右侧的节点 Java版
  3. 20130717随想
  4. 中国房地产行业调查分析与发展前景研究报告2022年版
  5. java 视图对象转换_java-如何从onItemSelected()方法返回的视图对象...
  6. 阿里云发布OAMKubernetes标准实现与核心依赖库
  7. 海上瓶子下有东西吗_《海上钢琴师》:宁愿一生孤独,不愿随波逐流。
  8. 【audio】耳机插拔 线控按键识别流程【转】
  9. 201671010430 司昕劼 实验十四 课程学习总结
  10. 如何防止用户重复提交数据
  11. maven配置私服信息
  12. java私塾 代码_【整理】java私塾教程课后习题
  13. 二次元《尤里国简介》
  14. VBoxGuestAdditions.iso下载
  15. DSP程序中 ,如何完成延时且不影响整体程序的工作效率
  16. 太阳能充电板给锂电池充电电路设计
  17. 计算机的管理选项文件错误,如何修复Microsoft Teams错误文件在Windows PC中被锁定...
  18. 每日一坑:Github配置ssh后,拉代码依旧需要鉴权,且鉴权失败。
  19. 【BZOJ3470】Freda’s Walk 概率与期望
  20. XorPay.com 支付平台介绍【免费开通个人微信支付接口】

热门文章

  1. wincc 用c语言读取用户名,WINCC中使用C脚本获得操作记录_wincc脚本读取报警记录-C文档类资源...
  2. 使用Eclipse JEE+Mtj+Nokia S60 V3SDK开发J2ME应用的环境搭建
  3. 5线DBCD股票趋势
  4. Ubuntu下修改文件夹的所有者权限
  5. Rust crates镜像源管理 crm
  6. 生产设备管理指标有哪些?
  7. hive面试题——求连续活跃天数
  8. win10系统打不开计算机管理,win10计算机管理打不开如何办
  9. 如何破解Excel VBA密码
  10. 杜克大学计算机数据科学,杜克大学的数据科学专业解析