IK分词器扩展词典、停用词典、同义词典
1.扩展词典
扩展词:就是不想哪些词分开,让他们成为一个词,比如“哈利波特”
自定义扩展词库
进入到elasticsearch的conf/analysis-ik/目录下,新增扩展词典
vim zyp_exct_dict.dic
然后添加“哈利波特”
将我们自定义的扩展词典文件添加到IKAnalyzer.cfg.xml配置中
IKAnalyzer.cfg.xml在elasticsearch的conf/analysis-ik/目录下
然后重启elasticsearch,执行最细粒度的拆分就会出现哈利波特
没有将“哈利波特”放到扩展词典前
将“哈利波特”放到扩展词典,并重启elasticsearch服务之后
可以看到出现了“哈利波特”
2.停用词典
停用词:有些词在文本中出现的频率非常高。但对本文的语义产生不了多大的影响。例如英文的a、 an、the、of等。或中文的”的、了、呢等”。这样的词称为停用词。停用词经常被过滤掉,不会被进行索引。在检索的过程中,如果用户的查询词中含有停用词,系统会自动过滤掉。停用词可以加快索引的速度,减少索引库文件的大小。
自定义停用词库
进入到elasticsearch的conf/analysis-ik/目录下,新增停用词典
vim zyp_stop_dict.dic
然后添加 “的” “了” “啊”
将我们自定义的停用词典文件添加到IKAnalyzer.cfg.xml配置中
IKAnalyzer.cfg.xml在elasticsearch的conf/analysis-ik/目录下
然后重启elasticsearch,执行最细粒度的拆分,被添的“的”“了”“啊”就不会被查出来
没有讲“的”放到停用词典之前
将“的”放到停用词典并重启elasticsearch之后
可以看到“的”没有了
3.同义词典
同义词:意思相同的,“番茄”和“西红柿”,查询“番茄”的时候,把带有“西红柿”的数据一起查出来,这种叫做同义词查询
配置IK同义词
进入到elasticsearch的conf/analysis-ik/目录下,创建名为synonym.txt的文件
输入同义词,并保存
番茄,西红柿,柿子
土豆,马铃薯
然后重启elasticsearch会自动加载相近词
创建索引
插入文档
然后查询数据,比如“番茄和马铃薯都是特产”
然搜索“土豆”,会命中
IK分词器扩展词典、停用词典、同义词典相关推荐
- 腾讯云docker下安装elasticsearch及IK分词器-扩展词-停止词Kibana
1.拉取 docker pull elasticsearch:7.7.0 2.运行 docker run --name elasticsearch -d -e ES_JAVA_OPTS="- ...
- ik分词器的热词更新_ik与拼音分词器,拓展热词/停止词库
说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...
- IK分词器的安装和扩展词典的使用
Es中默认的是标准分词器,对于属性类型是text类型的中文语句,进行了单字分词,英文语句是单词分词. 所以在搜索时,如果输入单词搜索,拆分成多个汉字搜索,搜索内容不准确. 故引入更加智能的IK分词器. ...
- (五)使用IK分词器、扩展ik词库和停词库
使用IK分词器 集成ik分词器 https://mp.csdn.net/postedit/93602713 实体类PosEntity /** 省略了getter.setter*/ class Pos ...
- elasticsearch IK分词器的安装、使用与扩展
ES 的默认分词器(standard)不支持中文分词,满足不了平时的需求,所以需要用能够支持中文分词的 IK 分词器.而且 IK 分词器也是支持英文分词的. 本文介绍下IK分词器的安装.基本使用方法: ...
- solr配置同义词,停止词,和扩展词库(IK分词器为例)
定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...
- ES IK分词器 - 停用词
安装IK中文分词器 参考github (https://github.com/medcl/elasticsearch-analysis-ik/tree/v7.6.1) 1.download or co ...
- requirednew基于xml配置日志不回滚_Elasticsearch配置IK分词器的远程词库
在生活中很多很多地方都涉及到了全文检索,最常见的就好比日常使用到的百度搜索等搜索引擎,也都是基于全文检索来实现的:全文检索种类较多,就好比Elasticsearch.Sorl等. 为Ealsticse ...
- 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...
最新文章
- com.android.phone已停止 vivo,oppo,vivo应用程序终止通知不在android fcm中出...
- System.Data.OracleClient.OracleConnection已过时
- int和long计算问题
- eclipse 无法解析导入 javax.servlet 的解决方法
- 用通俗易懂的大白话讲解Map/Reduce原理
- Ubuntu 12.04下安装GTK 2.24.10
- 一个运维老将的自我修养
- VS2010中使用CL快速 生成DLL的方法
- [BZOJ3238][AHOI2013]差异 [后缀数组+单调栈]
- MySQL 中文的乱码问题
- html网页跳转代码大全
- 数据结构与算法分析Java语言描述 第三版 课后习题 练习 答案
- python如何开根号求过程_python开根号实例讲解
- 改变图片强调可修改r,如s.val[i]*scale*r
- Android编译时冲突报错的完美解决方案
- 【Grpc】grpc中repeated的数据如何set值?
- 中国语料库研究的历史与现状-冯志伟教授
- 中医大2020年7月网考计算机应用基础,2020年7月网络教育统考《计算机应用基础》操作系统应用模拟题试卷2...
- eclipse编写web.xml中出现The word ‘...‘ is not correctly spelled
- react render相关 【类组件、函数组件 】