elasticsearch自定义企业词典
我们中文分词用的是ik,但是ik只是对基本的中文词进行了分词,而对于企业或者人名没有进行分词。
比如,我搜索中国平安,那么ik只能分成中国、平安
如果这样,这肯定是不行滴!
接下来,俺就教你,如何创建词典。
首先写一个词典company.dic,然后写上你要识别的词。
文件的格式别忘记改成utf-8编码以及unix(因为我的es装的是linux里)
打开Es的插件目录添加dict,并且重启
进入ik的配置目录,并且修改
/ES安装好的目录/plugins/ik/config/IKAnalyzer.cfg.xml
<entry key="ext_dict">company.dic</entry>
将company.dic上传到 /ES安装好的目录/plugins/ik/config/目录下
重启es
测试
bug:如果发现_search时候搜索不到相对应的分词,就是你索引没有建立好,建立索引时候就要采用ik分词。
请删除索引,然后在建立
删除curl -XDELETE -u elastic:elasticpasswd http://192.168.9.102:9200/index_name
建立
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 1,
"index": {
"analysis.analyzer.default.type" : "ik_max_word"}
}
}
最后一定要记住这张图
数据是在插入后就被分词,(所以后期无论你怎么改搜索,他也是搜不到),索引要刚开始就建立好,否则是会以默认分词把数据分词(而不是ik等中文词库)
参考:https://www.cnblogs.com/dmzna/p/14913813.html
https://www.cnblogs.com/xinwei0909/p/9453323.html
elasticsearch自定义企业词典相关推荐
- elasticsearch 自定义_id
elasticsearch 自定义ID: curl -s -XPUT localhost:9200/web -d ' {"mappings": {"blog": ...
- 【Elasticsearch】Elasticsearch自定义评分的N种方法
1.概述 首先参考文章:[Elasticsearch]Elasticsearch 相关度评分 TF&IDF 然后转载文章:实战 | Elasticsearch自定义评分的N种方法 2.三个问题 ...
- 【Es】ElasticSearch 自定义分词器
1.分词器 转载:https://blog.csdn.net/gwd1154978352/article/details/83343933 分词器首先看文章:[Elasticsearch]Elasti ...
- ElasticSearch自定义词库
由于网络词语层出不穷,ik分词器有时并不能完全识别网络词汇,如下: 按照网络词语,王者荣耀应该被识别为一个词语,而不是被拆分成2个. 所以这时需要自定义词库来解决以上问题. 自定义词库 自定义扩展词库 ...
- Elasticsearch 自定义分词同义词环节的这个细节不大好理解......
1.问题引出 球友认证考试前一天晚上提问: 扩展背景描述: 这是 Elasticsearch 自定义分词 Text analysis 章节 Token filter reference 小节的 同义词 ...
- elasticsearch ik分词插件配置自定义分词词典
- 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索
文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...
- Elasticsearch 自定义分析器Analyzer
java学习讨论群:725562382 2,自定义分析器Analyzer curl -X PUT "192.168.0.120:9200/simple_example" -H 'C ...
- 如何用循环执行玩转自定义企业微信机器人?
"如何在企业微信里定时发送销售日报啊?" "我们的报餐系统很不好用,你们有合适的模板吗?" "根据报餐.销售来实现不同的报表推送,你们可以做到吗&qu ...
最新文章
- Dalvik虚拟机与java虚拟机的区别
- 动态划分VLAN的方法中不包括(23)。【答案】C
- ZABBIX 4.0 LTS+Grafana5.3部署
- Nature封面:脑机接口重大突破!意念手写字速度破纪录!
- Git复习(八)之快速理解Git结构
- Redis数据库的管理
- Java-Calendar
- springboot 404_Spring Boot(四) 异常处理
- 万元大奖,FlyAI算法新赛事,心理卡牌目标检测
- 1、图解Oracle Logminer配置使用
- LeetCode(257)——二叉树的所有路径(JavaScript)
- 【原创】设计模式面对面之观察者模式
- 浅析SharedPreferences
- C# WebApi Xml序列化问题解决方法:“ObjectContent`1”类型未能序列化内容类型“application/xml;charset=utf-8“的响应正文。...
- Oracle,Mysql,Sqlserver数据库连接串(总爱忘,留着备用)
- 计算机硬盘的常用分区工具,磁盘分区工具,详细教您硬盘分区工具diskgenius怎么使用...
- ESlint配置大全
- Promise 是什么?
- html字体根据宽度自动调整,css – 根据div大小调整字体大小
- PC端QQ用某个账号登陆未响应情况解决
热门文章
- 连接标签 <a herf=“”></a>
- 手把手教你 Tableau 绘制漏斗图(二十一)
- 深入理解JVM(三)—— HelloWorld字节码完整解析
- 100道Python实例练手题目
- 自建itx服务器配置,家庭网络服务器 itx-软路由-DIY
- 大数据实战第八课-Hive高级
- 微信社区小程序源码/h5/圈子论坛贴吧交友/博客/社交/陌生人社交/宠物/话题/私域/同城引流微信小程序源码
- 组播技术基础——组播地址
- esp8266 html模板,01_ESP8266 NONO_SDK 创建工程模板
- 【A星算法】A星寻路算法详解(小白也可以看懂+C#代码+零基础学习A*)