什么是IK分词器?

分词:把一段中文或者别的划分成一个一个的关键字,我们在搜索的时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如"我爱魏一鹤"会被分成"我",“爱”,“魏”,“一”,“鹤”,这显然是不符合要求的,索引我们需要安装中文分词器IK来解决这个问题
如果要使用中文,建议使用ik分词器
IK提供了两个分词算法,ik_smart和ik_max_world,其中ik_smart为最少切分,ik_max_wold为最细颗粒度划分,一会都会分别来测试

下载IK分词器

下载网址:https://github.com/medcl/elasticsearch-analysis-ik

下载到本地,放入es插件中即可,这里我在es的plugins目录下创建一个IK目录


解压缩,目录如下

然后重启观察ES
注意:没有使用ik分词器插件的时候黑窗口会提示no plugins loaded(没有插件加载)

我们也可以使用命令(elasticsearch-plugin list)查看es下的全部加载的插件

elasticsearch-plugin list


使用KIbana测试IK分词器

打开开发工具台

ik_smart 最少分词器

分词结果比较少

GET _analyze
{"analyzer": "ik_smart","text": "中国共产党"
}

ik_max_word 颗粒度最细分词器

分词结果比较多,组成各种结果,穷尽词库的可能!

再看个例子,把我们的句子换成 超级喜欢魏一鹤学习Java
首先看最少分词

然后是最细颗粒度分词

问题来了 我们输入超级喜欢魏一鹤学习Java,发现魏一鹤被拆开了,这种需要自己加入到分词器字典中的词如何处理呢?

IK分词器自定义词汇

找到并且打开IKAnalyzer.cfg分词器配置文件

自己自定义新建一个dic文件,一个dic就算一个字典,ik自带的字典是远远不够用的,我们需要手动去创建字典

新增字典项内容并且保存

然后把我们自定义配置的字典加入到配置文件让字典生效

配置完之后保存,然后重启es,注意观察,在重启es的时候会发现黑窗口已经加载我们自定义的字典weiyihe.dic

重启kibana,再次测试使用过自定义字典之后魏一鹤是否被分割

不管是哪种分词,魏一鹤都没被分割!说明我们自定义字典配置成功!

以后需要什么词汇,直接在我们的weiyihe.dic字典中去定义即可使用

ElasticSearch安装IK分词器并使用IK分词器和Kibana进行自定义词汇相关推荐

  1. 2021年大数据ELK(八):Elasticsearch安装IK分词器插件

    全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 安装IK分词器 一.下载Elasticsearch IK分词器 ...

  2. elasticsearch安装和使用ik分词器

    在使用elasticsearch的时候,如果不额外安装分词器的话,在处理text字段时会使用elasticsearch自带的默认分词器,我们来一起看看默认分词器的效果: 环境信息 本次实战用到的ela ...

  3. elasticsearch安装ik分词器

    elasticsearch安装ik分词器 1. 修改docker-compose.yml文件,对es目录下的plugins文件夹进行文件映射 version: "2.2" volu ...

  4. 全文检索引擎ElasticSearch:文档管理、集成IK分词器

    ElasticSearch 文档管理 添加文档 修改文档 删除文档 文档的查询 IK分词器安装 使用IK分词器 文档管理 添加文档 定位到资源 url http://localhost:9200/{i ...

  5. ElasticSearch安装、IK、映射、索引管理、搜索管理和集群管理

    ElasticSearch 一.ElasticSearch 1.1 概念 1.2 原理与应用 1.2.1 索引结构 1.2.3 RESTful应用 二.ElasticSearch安装 2.1 Wind ...

  6. 16-GuliMall ElasticSearch安装分词器

    1.安装Xftp 有了Xftp就可以使用Xshell进行文件传输, 这样操纵虚拟机就比较方便 Xftp下载安装 安装成功 2.安装分词器 一个 tokenizer(分词器)接收一个字符流,将之分割为独 ...

  7. ik分词器 分词原理_ElasticSearch 集成Ik分词器

    1 . 由于 ElasticSearch 默认的分词器不支持中文分词,所以我们需要集成IK 分词器. 2. 集成步骤 https://github.com/medcl/elasticsearch-an ...

  8. ElasticSearch 之 Linux 安装 ElasticSearch-7.15.2(ELK、IK)

    Linux 安装 ElasticSearch-7.15.2 相关文件 关于Jdk 关于 Kibana 关于 ELK 下载.上传.解压相关文件 一.搭建 ElasticSearch 服务器 二.启动 E ...

  9. 59、Docker ElasticSearch安装拼音分词器及自定义分词器

    一.使用拼音分词器 1.拼音分词器 2.docker下安装拼音分词器插件 3.测试拼音分词器 # 测试拼音分词器 POST /_analyze {   "text": [" ...

  10. 中文分词器 jcseg 和 IK Analyzer

    为什么要使用lucene中文分词器 在 lucene 的开发过程中,常常会遇到分词时中文识别的问题,lucene提供了 lucene-analyzers-common-5.0.0.jar包来支持分词, ...

最新文章

  1. phpexcel_cell 获取表格样式_Java 操作Word表格——创建嵌套表格、添加/复制表格行或列、设置表格是否禁止跨页断行...
  2. ios 应用 开发流程。。。
  3. 前端学习(3281):生成器迭代器
  4. 【Kafka】nable to write to standard out, closing consumer Console consumer process hangs on SIGINT
  5. 不要相信 errno 可靠
  6. spring 笔记2:Spring MVC : Did not find handler method for 问题的解决
  7. 凤凰 Remix android x86,主流 Android x86系统分享
  8. CDA I级学习 - EDIT数字化模型
  9. 光环PMP ITTO
  10. 数学牛人们的轶事[下]--zt 出处不详
  11. 小项目:收支记账和客户关系管理
  12. c语言scanf输入无理数,简单C语言scanf输入问题
  13. 教育教学中,为什么需要培养学生的创新思维?
  14. 电脑插上耳机没声音 解决方法
  15. TDengine与中泰证券正式签约,打造金融量化交易场景解决方案
  16. LINUX 下C实现线程池《转载》
  17. Gradle - Groovy Language
  18. 有免费而且好用的视频会议吗
  19. 计算机冷门领域,毕业后很吃香的三大“冷门”专业!不比热门专业差,适合中等考生...
  20. intellij idea 管理module和project,以及git管理项目

热门文章

  1. 在命令行中快速移动光标的快捷键
  2. java 日程日历_java编程:我要做一个提醒日程的软件,不是要用到日历和时钟么,这要不要自己编,还是可以直接同步电脑上...
  3. BIO、NIO、AIO网络编程
  4. pt-osc在线重建表导致死锁的分析及对应的优化方案
  5. TiDB2.1 报错statement count 5001 exceeds the transaction limitation, autocommit = false
  6. Poco库使用:单元测试
  7. 追“根”溯源:植物根际的微生物生态
  8. CIP4和JDF,您知道多少?(转)
  9. 常用git命令指南总结
  10. 数据可视化与大数据分析