我们中文分词用的是ik,但是ik只是对基本的中文词进行了分词,而对于企业或者人名没有进行分词。

比如,我搜索中国平安,那么ik只能分成中国、平安

如果这样,这肯定是不行滴!

接下来,俺就教你,如何创建词典。

首先写一个词典company.dic,然后写上你要识别的词。

文件的格式别忘记改成utf-8编码以及unix(因为我的es装的是linux里)

打开Es的插件目录添加dict,并且重启

进入ik的配置目录,并且修改

/ES安装好的目录/plugins/ik/config/IKAnalyzer.cfg.xml

<entry key="ext_dict">company.dic</entry>

将company.dic上传到 /ES安装好的目录/plugins/ik/config/目录下

重启es

测试

bug:如果发现_search时候搜索不到相对应的分词,就是你索引没有建立好,建立索引时候就要采用ik分词。

请删除索引,然后在建立

删除curl -XDELETE -u elastic:elasticpasswd http://192.168.9.102:9200/index_name

建立

{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 1,
"index": {
"analysis.analyzer.default.type" : "ik_max_word"}
}
}

最后一定要记住这张图

数据是在插入后就被分词,(所以后期无论你怎么改搜索,他也是搜不到),索引要刚开始就建立好,否则是会以默认分词把数据分词(而不是ik等中文词库)

参考:https://www.cnblogs.com/dmzna/p/14913813.html

https://www.cnblogs.com/xinwei0909/p/9453323.html

elasticsearch自定义企业词典相关推荐

  1. elasticsearch 自定义_id

    elasticsearch 自定义ID: curl -s -XPUT localhost:9200/web -d ' {"mappings": {"blog": ...

  2. 【Elasticsearch】Elasticsearch自定义评分的N种方法

    1.概述 首先参考文章:[Elasticsearch]Elasticsearch 相关度评分 TF&IDF 然后转载文章:实战 | Elasticsearch自定义评分的N种方法 2.三个问题 ...

  3. 【Es】ElasticSearch 自定义分词器

    1.分词器 转载:https://blog.csdn.net/gwd1154978352/article/details/83343933 分词器首先看文章:[Elasticsearch]Elasti ...

  4. ElasticSearch自定义词库

    由于网络词语层出不穷,ik分词器有时并不能完全识别网络词汇,如下: 按照网络词语,王者荣耀应该被识别为一个词语,而不是被拆分成2个. 所以这时需要自定义词库来解决以上问题. 自定义词库 自定义扩展词库 ...

  5. Elasticsearch 自定义分词同义词环节的这个细节不大好理解......

    1.问题引出 球友认证考试前一天晚上提问: 扩展背景描述: 这是 Elasticsearch 自定义分词 Text analysis 章节 Token filter reference 小节的 同义词 ...

  6. elasticsearch ik分词插件配置自定义分词词典

  7. 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索

    文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...

  8. Elasticsearch 自定义分析器Analyzer

    java学习讨论群:725562382 2,自定义分析器Analyzer curl -X PUT "192.168.0.120:9200/simple_example" -H 'C ...

  9. 如何用循环执行玩转自定义企业微信机器人?

    "如何在企业微信里定时发送销售日报啊?" "我们的报餐系统很不好用,你们有合适的模板吗?" "根据报餐.销售来实现不同的报表推送,你们可以做到吗&qu ...

最新文章

  1. Dalvik虚拟机与java虚拟机的区别
  2. 动态划分VLAN的方法中不包括(23)。【答案】C
  3. ZABBIX 4.0 LTS+Grafana5.3部署
  4. Nature封面:脑机接口重大突破!意念手写字速度破纪录!
  5. Git复习(八)之快速理解Git结构
  6. Redis数据库的管理
  7. Java-Calendar
  8. springboot 404_Spring Boot(四) 异常处理
  9. 万元大奖,FlyAI算法新赛事,心理卡牌目标检测
  10. 1、图解Oracle Logminer配置使用
  11. LeetCode(257)——二叉树的所有路径(JavaScript)
  12. 【原创】设计模式面对面之观察者模式
  13. 浅析SharedPreferences
  14. C# WebApi Xml序列化问题解决方法:“ObjectContent`1”类型未能序列化内容类型“application/xml;charset=utf-8“的响应正文。...
  15. Oracle,Mysql,Sqlserver数据库连接串(总爱忘,留着备用)
  16. 计算机硬盘的常用分区工具,磁盘分区工具,详细教您硬盘分区工具diskgenius怎么使用...
  17. ESlint配置大全
  18. Promise 是什么?
  19. html字体根据宽度自动调整,css – 根据div大小调整字体大小
  20. PC端QQ用某个账号登陆未响应情况解决

热门文章

  1. 连接标签 <a herf=“”></a>
  2. 手把手教你 Tableau 绘制漏斗图(二十一)
  3. 深入理解JVM(三)—— HelloWorld字节码完整解析
  4. 100道Python实例练手题目
  5. 自建itx服务器配置,家庭网络服务器 itx-软路由-DIY
  6. 大数据实战第八课-Hive高级
  7. 微信社区小程序源码/h5/圈子论坛贴吧交友/博客/社交/陌生人社交/宠物/话题/私域/同城引流微信小程序源码
  8. 组播技术基础——组播地址
  9. esp8266 html模板,01_ESP8266 NONO_SDK 创建工程模板
  10. 【A星算法】A星寻路算法详解(小白也可以看懂+C#代码+零基础学习A*)