1.扩展词典

        扩展词:就是不想哪些词分开,让他们成为一个词,比如“哈利波特”

自定义扩展词库

进入到elasticsearch的conf/analysis-ik/目录下,新增扩展词典

vim zyp_exct_dict.dic

然后添加“哈利波特”

将我们自定义的扩展词典文件添加到IKAnalyzer.cfg.xml配置中

IKAnalyzer.cfg.xml在elasticsearch的conf/analysis-ik/目录下

 然后重启elasticsearch,执行最细粒度的拆分就会出现哈利波特

没有将“哈利波特”放到扩展词典前

将“哈利波特”放到扩展词典,并重启elasticsearch服务之后

 可以看到出现了“哈利波特”

2.停用词典

        停用词:有些词在文本中出现的频率非常高。但对本文的语义产生不了多大的影响。例如英文的a、 an、the、of等。或中文的”的、了、呢等”。这样的词称为停用词。停用词经常被过滤掉,不会被进行索引。在检索的过程中,如果用户的查询词中含有停用词,系统会自动过滤掉。停用词可以加快索引的速度,减少索引库文件的大小。

自定义停用词库

进入到elasticsearch的conf/analysis-ik/目录下,新增停用词典

vim zyp_stop_dict.dic

然后添加 “的” “了” “啊”

将我们自定义的停用词典文件添加到IKAnalyzer.cfg.xml配置中

IKAnalyzer.cfg.xml在elasticsearch的conf/analysis-ik/目录下

 然后重启elasticsearch,执行最细粒度的拆分,被添的“的”“了”“啊”就不会被查出来

没有讲“的”放到停用词典之前

将“的”放到停用词典并重启elasticsearch之后 

 可以看到“的”没有了

3.同义词典

        同义词:意思相同的,“番茄”和“西红柿”,查询“番茄”的时候,把带有“西红柿”的数据一起查出来,这种叫做同义词查询

配置IK同义词

进入到elasticsearch的conf/analysis-ik/目录下,创建名为synonym.txt的文件

输入同义词,并保存

番茄,西红柿,柿子

土豆,马铃薯

然后重启elasticsearch会自动加载相近词

创建索引

插入文档

然后查询数据,比如“番茄和马铃薯都是特产”

然搜索“土豆”,会命中

IK分词器扩展词典、停用词典、同义词典相关推荐

  1. 腾讯云docker下安装elasticsearch及IK分词器-扩展词-停止词Kibana

    1.拉取 docker pull elasticsearch:7.7.0 2.运行 docker run --name elasticsearch -d -e ES_JAVA_OPTS="- ...

  2. ik分词器的热词更新_ik与拼音分词器,拓展热词/停止词库

    说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...

  3. IK分词器的安装和扩展词典的使用

    Es中默认的是标准分词器,对于属性类型是text类型的中文语句,进行了单字分词,英文语句是单词分词. 所以在搜索时,如果输入单词搜索,拆分成多个汉字搜索,搜索内容不准确. 故引入更加智能的IK分词器. ...

  4. (五)使用IK分词器、扩展ik词库和停词库

    使用IK分词器 集成ik分词器 https://mp.csdn.net/postedit/93602713 实体类PosEntity  /** 省略了getter.setter*/ class Pos ...

  5. elasticsearch IK分词器的安装、使用与扩展

    ES 的默认分词器(standard)不支持中文分词,满足不了平时的需求,所以需要用能够支持中文分词的 IK 分词器.而且 IK 分词器也是支持英文分词的. 本文介绍下IK分词器的安装.基本使用方法: ...

  6. solr配置同义词,停止词,和扩展词库(IK分词器为例)

    定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...

  7. ES IK分词器 - 停用词

    安装IK中文分词器 参考github (https://github.com/medcl/elasticsearch-analysis-ik/tree/v7.6.1) 1.download or co ...

  8. requirednew基于xml配置日志不回滚_Elasticsearch配置IK分词器的远程词库

    在生活中很多很多地方都涉及到了全文检索,最常见的就好比日常使用到的百度搜索等搜索引擎,也都是基于全文检索来实现的:全文检索种类较多,就好比Elasticsearch.Sorl等. 为Ealsticse ...

  9. 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

    文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...

最新文章

  1. com.android.phone已停止 vivo,oppo,vivo应用程序终止通知不在android fcm中出...
  2. System.Data.OracleClient.OracleConnection已过时
  3. int和long计算问题
  4. eclipse 无法解析导入 javax.servlet 的解决方法
  5. 用通俗易懂的大白话讲解Map/Reduce原理
  6. Ubuntu 12.04下安装GTK 2.24.10
  7. 一个运维老将的自我修养
  8. VS2010中使用CL快速 生成DLL的方法
  9. [BZOJ3238][AHOI2013]差异 [后缀数组+单调栈]
  10. MySQL 中文的乱码问题
  11. html网页跳转代码大全
  12. 数据结构与算法分析Java语言描述 第三版 课后习题 练习 答案
  13. python如何开根号求过程_python开根号实例讲解
  14. 改变图片强调可修改r,如s.val[i]*scale*r
  15. Android编译时冲突报错的完美解决方案
  16. 【Grpc】grpc中repeated的数据如何set值?
  17. 中国语料库研究的历史与现状-冯志伟教授
  18. 中医大2020年7月网考计算机应用基础,2020年7月网络教育统考《计算机应用基础》操作系统应用模拟题试卷2...
  19. eclipse编写web.xml中出现The word ‘...‘ is not correctly spelled
  20. react render相关 【类组件、函数组件 】

热门文章

  1. BUG实例分析五:binder alloc buf, no vma
  2. CSDN的程序也让人不敢恭维!
  3. MATLAB算法实战应用案例精讲-【自动驾驶】线控制动
  4. 如何对店铺进行数据分析
  5. 三分搜索 (算法设计与分析课后习题)
  6. 【人工智能】人工智能行业研究:史上最伟大的科技革命
  7. 2010年3月23日
  8. java 编译war包_javaweb程序打包成war文件的步骤
  9. ThinkPHP框架信息泄露
  10. 在给雅虎董事会的信中,鲍尔默说了什么?