本文导读

本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段。全文共分为以下几部分:

  • 1、项目简介,包括需求描述与分析等;

  • 2、项目开发,通过两个版本的index,验证并完成需求;

  • 3、从分词和高亮原理入手,深度分析高亮显示问题;

  • 4、SpringBoot+RestHighLevelClient 完成项目开发。

【ps:留言区附完整版项目源码地址】

01 项目简介

本项目基于ElasticSearch 7.7.1,analysis-pinyin 7.7.1,参考QQ的用户搜索效果,完成一个中文+拼音的混合检索系统。(ElasticSearch的安装请参考在docker中安装ES)

1.1 检索场景示例

中文+首字母+全拼检索

其实QQ的用户检索是有很多限制的,比如说首字母检索时,必须从第一个字开始匹配【输入“gz”,可以检索到“关注我”,但是不能检索到“我关注”】;

再比如说全拼+首字母检索时,全拼必须在前面【输入“guanz”,可以检索到“关注我”,但是输入“gzhu”,是不能检索到结果的】;

至于为什么会有如此限制,个人猜测是考虑检索性能(PS:欢迎留言讨论)。

1.2 检索需求描述

参考QQ,列出“用户检索系统”的需求如下:

  • 1)支持首字母检索;

  • 2)支持首字母+全拼检索;

  • 3)支持中文+首字母+全拼混合检索;

  • 4)检索词有中文,则必须包含;

  • 5)高亮显示检索命中词。

1.3 需求分析

从需求1,可知,需要建立【首字母的倒排索引】;

从需求2,可知,需要建立【全拼的倒排索引】;

02 项目开发

2.1 第一个版本

根据上面的分析,参考 analysis-pinyin 官网,创建了第一版index:

ps:关于 analysis-pinyin 各个配置项的含义可参考官网PUT /user_index/{  "settings": {    "index": {      "number_of_shards": 1,      "number_of_replicas": 1    },    "analysis": {      "analyzer": {        "pinyin_analyzer": {          "tokenizer": "my_pinyin"        }      },      "tokenizer": {        "my_pinyin": {          "type": "pinyin",          "keep_first_letter": true,          "keep_separate_first_letter": true,          "keep_full_pinyin": true,          "keep_original": false,          "limit_first_letter_length": 16,          "lowercase": true        }      }    }  },  "mappings": {    "dynamic": false,    "properties": {      "nickName": {        "type": "keyword",        "fields": {          "pinyin": {            "type": "text",            "store": false,            "analyzer": "pinyin_analyzer"          }        }      }    }  }}

使用_analyze接口,看下分词效果:

GET user_index/_analyze{  "field": "nickName.pinyin",  "text": [    "关注我"  ]}# 结果如下:{  "tokens" : [    {      "token" : "g",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 0    },    {      "token" : "guan",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 0    },    {      "token" : "gzw",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 0    },    {      "token" : "z",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 1    },    {      "token" : "zhu",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 1    },    {      "token" : "w",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 2    },    {      "token" : "wo",      "start_offset" : 0,      "end_offset" : 0,      "type" : "word",      "position" : 2    }  ]}

一切都ok,好像能满足需求,插入几条数据,验证下:

POST _bulk{"index":{"_index":"user_index","_id":"1"}}{"nickName":"关注我"}{"index":{"_index":"user_index","_id":"2"}}{"nickName":"我关注"}{"index":{"_index":"user_index","_id":"3"}}{"nickName":"系统学ES就关注我"}{"index":{"_index":"user_index","_id":"4"}}{"nickName":"系统学ES"}

试试检索效果:

GET /user_index/_search{  "query": {    "match_phrase": {      "nickName.pinyin": "guanz我"    }  }}结果如下:    "hits" : [      {        "_index" : "user_index",        "_type" : "_doc",        "_id" : "1",        "_score" : 1.9991971,        "_source" : {          "nickName" : "关注我"        }      },      {        "_index" : "user_index",        "_type" : "_doc",        "_id" : "3",        "_score" : 1.4875543,        "_source" : {          "nickName" : "系统学ES就关注我"        }      }    ]

经过测试,发现是可以满足需求1、2、3的(有兴趣的小伙伴可以自己试试哟)。

但别忘了,我们还有需求4和5,关于需求4,可以简单的使用 post_filter 后置过滤完成需求。

对于高亮显示,ES本身是提供了 highlight 语法的,写个DSL验证一下:

# 检索语句GET /user_index/_search{  "query": {    "match_phrase": {      "nickName.pinyin": "guanz我"    }  },  "highlight": {    "fields": {      "nickName.pinyin": {}    }  }}# 部分结果           {        "_index" : "user_index",        "_type" : "_doc",        "_id" : "1",        "_score" : 1.9991971,        "_source" : {          "nickName" : "关注我"        },        "highlight" : {          "nickName.pinyin" : [            "<em></em><em></em><em></em>关注我"          ]        }      }

发现居然没办法高亮!这可不行呀,这么简单的需求,必须实现了!

通过阅读 ES官方文档 + 不断尝试,终于找到原因,完美解决。

2.2 第二版

解决方案:

ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

ElasticSearch实战系列02 SpringBoot + ElasticSearch 7.7 实现高仿QQ用户搜索:中文+拼音混合检索,并高亮显示相关推荐

  1. ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

     点击上方"方才编程",即可关注我! 本文导读 本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段.全文共分为以下几部分: 1.项目简介,包括需求描述与分 ...

  2. ElasticSearch实战系列十一: ElasticSearch错误问题解决方案

    前言 本文主要介绍ElasticSearch在使用过程中出现的各种问题解决思路和办法. ElasticSearch环境安装问题 1,max virtual memory areas vm.max_ma ...

  3. ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合

    Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合 前言 在上上一篇中介绍了ElasticSearch实战系列三: Elas ...

  4. 高仿QQ即时聊天软件开发系列之三登录窗口用户选择下拉框

    上一篇高仿QQ即时聊天软件开发系列之二登录窗口界面写了一个大概的布局和原理 这一篇详细说下拉框的实现原理 先上最终效果图 一开始其实只是想给下拉框加一个placeholder效果,让下拉框在未选择未输 ...

  5. 商城模块java_Java商城秒杀系统实战系列~构建SpringBoot多模块项目

    摘要:本篇博文是"Java秒杀系统实战系列文章"的第二篇,主要分享介绍如何采用IDEA,基于SpringBoot+SpringMVC+Mybatis+分布式中间件构建一个多模块的项 ...

  6. java 模块 分工_Java秒杀系统实战系列~构建SpringBoot多模块项目

    摘要:本篇博文是"Java秒杀系统实战系列文章"的第二篇,主要分享介绍如何采用IDEA,基于SpringBoot+SpringMVC+Mybatis+分布式中间件构建一个多模块的项 ...

  7. Java秒杀系统实战系列~构建SpringBoot多模块项目

    摘要:本篇博文是"Java秒杀系统实战系列文章"的第二篇,主要分享介绍如何采用IDEA,基于SpringBoot+SpringMVC+Mybatis+分布式中间件构建一个多模块的项 ...

  8. Excel技能树系列02:公式中单元格的绝对引用、相对引用和混合引用

    这是Excel技能树系列的第二篇,正式开始Excel技能树知识的讲解了.如果对电子表格的起源和发展感兴趣,可以查看已经发布的Excel技能树系列01篇.本系列写给想要进阶的高频电子表格用户,本系列不适 ...

  9. 搜索推荐系统[10]项目实战系列Z7:FAQ保险问答系统搭建包含训练,优化,部署上线;检索式的问答可应用在搜索引擎,智能音响等智能硬件,政府,金融,银行,电信等领域

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...

最新文章

  1. 根据名字,获取线程,进程。
  2. 设计模式 -行为型模式_ 观察者模式Observer Pattern 之 JDK内置的实现
  3. zabbix应用之短信报警
  4. 推荐系统的构建:从经典到深度学习方法
  5. 函数声明指令(stdcall, cdecl,pascal,register)
  6. 通州区机器人比赛活动总结_马驹桥镇中心小学在2017通州区青少年机器人竞赛中勇创佳绩...
  7. python 最快 因式分解_Python实现的对一个数进行因式分解操作示例
  8. C#LeetCode刷题-蓄水池抽样
  9. TEN网格数据导入oracle,开源-Solidity 分散的oracle网络的示例链链接。-糯米PHP
  10. 自然常数e相关数列收敛
  11. 惠普HP Photosmart C4200 打印机驱动
  12. Qt开发之路——基于RedfishAPI的服务器管理小应用
  13. 单机html游戏修改数据,星露谷物语存档修改图文教程 怎么修改游戏数据
  14. Altium 怎么设置鼠标滚轮放大缩小
  15. Linux下,基于EETI触屏控制器的触屏失灵解决方法
  16. ansible-playbook 通过mail模块发送邮件
  17. *sql注入实战--记一次绕过WTS-WAF拦截注入**
  18. 如何正确回复审稿意见
  19. 导出excel 并且处理长数字,处理科学计数法,以文本形式存储的数字
  20. 我有200台摄像机4MB/s,后端防火墙吞吐量多少G够用?应用层1G够用吗?

热门文章

  1. hexo的Matery主题优化(二)
  2. ak47怎么得 rust_翻一翻历史书 里面有一把叫做AK47的枪 关于基里连科的有趣数据...
  3. 7天学会NodeJs(里面讲了很多,最后一个大例子,更是讲了一些工程开发流程,很有收获)
  4. 凌云版c语言程序设计与实践答案,C语言程序设计与实践 凌云,吴海燕,谢满德著 9787111310075...
  5. 西湖大学马丽佳博士: CRISPR遗传筛选中的细胞分子表型鉴定(多组学系列webinar)...
  6. 推荐COOLSHELL
  7. dubbo扩展点-Activate注解
  8. 学生管理系统分离版本调整--我是最靓的仔
  9. jquery-contextmenu插件
  10. bash 调用python文件