文章目录

  • 概述
  • 官网
  • 示例

概述

继续跟中华石杉老师学习ES,第十四篇

课程地址: https://www.roncoo.com/view/55


官网

https://www.elastic.co/guide/en/elasticsearch/reference/7.2/query-dsl-multi-match-query.html

cross-fields搜索,一个唯一标识,跨了多个field。

比如一个人,标识,是姓名;一个建筑,它的标识是地址。

姓名可以散落在多个field中,比如first_name和last_name中,地址可以散落在country,province,city中。

跨多个field搜索一个标识,比如搜索一个人名,或者一个地址,就是cross-fields搜索

初步来说,如果要实现,可能用most_fields比较合适。因为best_fields是优先搜索单个field最匹配的结果,cross-fields本身就不是一个field的问题了。


示例

构造数据

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"author_first_name" : "Peter", "author_last_name" : "Smith"} }
{ "update": { "_id": "2"} }
{ "doc" : {"author_first_name" : "Smith", "author_last_name" : "Williams"} }
{ "update": { "_id": "3"} }
{ "doc" : {"author_first_name" : "Jack", "author_last_name" : "Ma"} }
{ "update": { "_id": "4"} }
{ "doc" : {"author_first_name" : "Robbin", "author_last_name" : "Li"} }
{ "update": { "_id": "5"} }
{ "doc" : {"author_first_name" : "Tonny", "author_last_name" : "Peter Smith"} }

执行查询

GET /forum/article/_search
{"query": {"multi_match": {"query": "Peter Smith","type": "cross_fields","fields": ["author_first_name","author_last_name"]}}
}

等同于 most_fileds


GET /forum/article/_search
{"query": {"multi_match": {"query": "Peter Smith","type": "most_fields","fields": ["author_first_name","author_last_name"]}}
}

返回结果

{"took": 2,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": 3,"max_score": 2.3258216,"hits": [{"_index": "forum","_type": "article","_id": "1","_score": 2.3258216,"_source": {"articleID": "XHDK-A-1293-#fJ3","userID": 1,"hidden": false,"postDate": "2017-01-01","tag": ["java","hadoop"],"tag_cnt": 2,"view_cnt": 30,"title": "this is java and elasticsearch blog","content": "i like to write best elasticsearch article","sub_title": "learning more courses","author_first_name": "Peter","author_last_name": "Smith"}},{"_index": "forum","_type": "article","_id": "5","_score": 1.7770995,"_source": {"articleID": "DHJK-B-1395-#Ky5","userID": 3,"hidden": false,"postDate": "2019-05-01","tag": ["elasticsearch"],"tag_cnt": 1,"view_cnt": 10,"title": "this is spark blog","content": "spark is best big data solution based on scala ,an programming language similar to java","sub_title": "haha, hello world","author_first_name": "Tonny","author_last_name": "Peter Smith"}},{"_index": "forum","_type": "article","_id": "2","_score": 0.5389965,"_source": {"articleID": "KDKE-B-9947-#kL5","userID": 1,"hidden": false,"postDate": "2017-01-02","tag": ["java"],"tag_cnt": 1,"view_cnt": 50,"title": "this is java blog","content": "i think java is the best programming language","sub_title": "learned a lot of course","author_first_name": "Smith","author_last_name": "Williams"}}]}
}

5.x版本中可能会出现: Peter Smith,匹配author_first_name,匹配到了Smith,这时候它的分数很高,为什么???
因为IDF分数高,IDF分数要高,那么这个匹配到的term(Smith),在所有doc中的出现频率要低,author_first_name field中,Smith就出现过1次
Peter Smith这个人,doc 1,Smith在author_last_name中,但是author_last_name出现了两次Smith,所以导致doc 1的IDF分数较低


cross-fields弊端

  • 问题1:只是找到尽可能多的field匹配的doc,而不是某个field完全匹配的doc
  • 问题2:most_fields,没办法用minimum_should_match去掉长尾数据,就是匹配的特别少的结果
  • 问题3:TF/IDF算法,比如Peter Smith和Smith Williams,搜索Peter Smith的时候,由于first_name中很少有Smith的,所以query在所有document中的频率很低,得到的分数很高,可能Smith Williams反而会排在Peter Smith前面

白话Elasticsearch14-深度探秘搜索技术之基于multi_match 使用most_fields策略进行cross-fields search弊端相关推荐

  1. 白话Elasticsearch13-深度探秘搜索技术之基于multi_match+most fields策略进行multi-field搜索

    文章目录 概述 官网 示例 构造模拟数据 普通查询 使用 multi_match + most fileds查询 best fields VS most fields 概述 继续跟中华石杉老师学习ES ...

  2. 白话Elasticsearch12-深度探秘搜索技术之基于multi_match + best fields语法实现dis_max+tie_breaker

    文章目录 概述 官网 示例 概述 继续跟中华石杉老师学习ES,第十二篇 课程地址: https://www.roncoo.com/view/55 官网 https://www.elastic.co/g ...

  3. 白话Elasticsearch10-深度探秘搜索技术之基于dis_max实现best fields策略进行多字段搜索

    文章目录 概述 TF/IDF 链接 示例 DSL 普通查询 dis_max 查询 best fields策略-dis_max 概述 继续跟中华石杉老师学习ES,第十篇 课程地址: https://ww ...

  4. 白话Elasticsearch18-深度探秘搜索技术之基于slop参数实现近似匹配以及原理剖析

    文章目录 概述 官网 slop 含义 例子 示例一 示例二 示例三 概述 继续跟中华石杉老师学习ES,第18篇 课程地址: https://www.roncoo.com/view/55 接上篇博客 白 ...

  5. 白话Elasticsearch08-深度探秘搜索技术之基于boost的细粒度搜索条件权重控制

    文章目录 概述 boost 示例 概述 继续跟中华石杉老师学习ES,第八篇 课程地址: https://www.roncoo.com/view/55 boost https://www.elastic ...

  6. 白话Elasticsearch11-深度探秘搜索技术之基于tie_breaker参数优化dis_max搜索效果

    文章目录 概述 官方文档 例子 tie_breaker 概述 继续跟中华石杉老师学习ES,第十一篇 课程地址: https://www.roncoo.com/view/55 官方文档 https:// ...

  7. 白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端

    文章目录 概述 例子 概述 继续跟中华石杉老师学习ES,第15篇 课程地址: https://www.roncoo.com/view/55 白话Elasticsearch14-基于multi_matc ...

  8. Elasticsearch深度探秘搜索技术基于multi_match语法实现dis_max+tie_breaker

    直接上代码 GET /post/_search {"query": {"multi_match": {"query": "java ...

  9. 白话Elasticsearch27-深度探秘搜索技术之误拼写时的fuzzy模糊搜索技术

    文章目录 概述 官方指导 例子 推荐写法 概述 继续跟中华石杉老师学习ES,第27篇 课程地址: https://www.roncoo.com/view/55 官方指导 https://www.ela ...

最新文章

  1. python清空字典保留变量方法_python学习day06--02字典增删差改以及字符串的一些方法...
  2. T25健身视频全集+课表
  3. MySQL for Mac 安装和基本操作
  4. Python:基础操作(2)
  5. 无风扇网站服务器,这款服务器采用无风扇设计
  6. MongoDB与python 交互
  7. layui上传报错会有哪些原因_一到冬天,为什么会比别人更怕冷?有哪些原因?...
  8. mysql yintint类型_MySQL服务器2 被嫌弃的胖子
  9. mongodb mysql配置_Nosql_MongoDB数据库配置以及基本指令
  10. C++基础:第五章 表达式基础与详述
  11. VS2019配置opencv-4.5.2-vc14_vc15
  12. 电脑版QQ更换透明背景教程(真的透明)
  13. Vue脚手架H5公众号微信登陆问题及解决方式
  14. 外贸怎么开发客户?这些你不一定知道
  15. php天气预报接口,利用中国天气预报接口实现简单天气预报
  16. 常见的各种字幕内容总结(字幕基础、字幕介绍、字幕种类及常见格式、SRT+ASS+LYC等等)
  17. pdfbox pdf转图片,图片长宽大小与pdf保持一致
  18. 肝脏~卧则回血,坐立向外供血
  19. STM32 | C语言对寄存器的封装
  20. [Codewar练习-java]Snail Sort(蜗牛型排序)

热门文章

  1. python获取当前服务器ip_Python实现获取域名所用服务器的真实IP
  2. Python 量化(四)计算股票的移动平均线
  3. 圆弧与直线相切画法_数控编程基础,相切圆弧的基点计算方法
  4. 带负荷测试要求二次最小电流_带负荷检查
  5. g460 bios 白名单_深睛高清车牌识别相机白名单,智能管理车辆进出_深睛车牌识别...
  6. 102. Leetcode 198. 打家劫舍 (动态规划-打家劫舍)
  7. Leetcode 435.无重叠区间 (每日一题 20210708 同类型题)
  8. pytorch笔记:Dataloader
  9. R语言应用实战-基于R的C4.5算法和C5.0算法原理解析及应用案例
  10. 数据可视化高级部分:如何使用轨迹地图对路径数据进行分析