文章目录

  • 概述
  • 例子

概述

继续跟中华石杉老师学习ES,第15篇

课程地址: https://www.roncoo.com/view/55

白话Elasticsearch14-基于multi_match 使用most_fields策略进行cross-fields search弊端

白话Elasticsearch15-使用copy_to定制组合field解决cross-fields搜索弊端

承接上两篇, 接下来看下如何使用原生cross-fiels技术解决搜索的弊端


例子

使用DSL如下,可以解决 "operator": "and",

GET /forum/article/_search
{"query": {"multi_match": {"query": "Peter Smith","type": "cross_fields", "operator": "and","fields": ["author_first_name", "author_last_name"]}}
}

返回结果:

{"took": 3,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": 2,"max_score": 2.3258216,"hits": [{"_index": "forum","_type": "article","_id": "1","_score": 2.3258216,"_source": {"articleID": "XHDK-A-1293-#fJ3","userID": 1,"hidden": false,"postDate": "2017-01-01","tag": ["java","hadoop"],"tag_cnt": 2,"view_cnt": 30,"title": "this is java and elasticsearch blog","content": "i like to write best elasticsearch article","sub_title": "learning more courses","author_first_name": "Peter","author_last_name": "Smith","new_author_last_name": "Smith","new_author_first_name": "Peter"}},{"_index": "forum","_type": "article","_id": "5","_score": 1.7770995,"_source": {"articleID": "DHJK-B-1395-#Ky5","userID": 3,"hidden": false,"postDate": "2019-05-01","tag": ["elasticsearch"],"tag_cnt": 1,"view_cnt": 10,"title": "this is spark blog","content": "spark is best big data solution based on scala ,an programming language similar to java","sub_title": "haha, hello world","author_first_name": "Tonny","author_last_name": "Peter Smith","new_author_last_name": "Peter Smith","new_author_first_name": "Tonny"}}]}
}

那是如何解决cromss fields的弊端的呢? 我们来分析下

  • 问题1:只是找到尽可能多的field匹配的doc,而不是某个field完全匹配的doc

    答: 解决,要求每个term都必须在任何一个field中出现

    Peter,Smith

    要求Peter必须在author_first_name或author_last_name中出现
    要求Smith必须在author_first_name或author_last_name中出现

    Peter Smith可能是横跨在多个field中的,所以必须要求每个term都在某个field中出现,组合起来才能组成我们想要的标识,完整的人名

    原来most_fiels,可能像Smith Williams也可能会出现,因为most_fields要求只是任何一个field匹配了就可以,匹配的field越多,分数越高


  • 问题2:most_fields,没办法用minimum_should_match去掉长尾数据,就是匹配的特别少的结果 --> 解决,既然每个term都要求出现,长尾肯定被去除掉了

答:java hadoop spark --> 这3个term都必须在任何一个field出现了

比如有的document,只有一个field中包含一个java,那就被干掉了,作为长尾就没了


  • 问题3:TF/IDF算法,比如Peter Smith和Smith Williams,搜索Peter Smith的时候,由于first_name中很少有Smith的,所以query在所有document中的频率很低,得到的分数很高,可能Smith Williams反而会排在Peter Smith前面

答:计算IDF的时候,将每个query在每个field中的IDF都取出来,取最小值,就不会出现极端情况下的极大值了

Peter Smith

Peter
Smith

Smith,在author_first_name这个field中,在所有doc的这个Field中,出现的频率很低,导致IDF分数很高;Smith在所有doc的author_last_name field中的频率算出一个IDF分数,因为一般来说last_name中的Smith频率都较高,所以IDF分数是正常的,不会太高;然后对于Smith来说,会取两个IDF分数中,较小的那个分数。就不会出现IDF分过高的情况。

白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端相关推荐

  1. 白话Elasticsearch27-深度探秘搜索技术之误拼写时的fuzzy模糊搜索技术

    文章目录 概述 官方指导 例子 推荐写法 概述 继续跟中华石杉老师学习ES,第27篇 课程地址: https://www.roncoo.com/view/55 官方指导 https://www.ela ...

  2. Elasticsearch深度探秘搜索技术如何手动控制全文检索结果的精准度

    为帖子数据增加标题字段 #插入数据 POST /post/_doc/_bulk { "update": { "_id": "1"} } { ...

  3. 22_深度探秘搜索技术_手动控制全文检索(match)结果的精准度、基于boost的细粒度搜索条件实现权重控制...

    本文章收录于[Elasticsearch 系列],将详细的讲解 Elasticsearch 整个大体系,包括但不限于ELK讲解.ES调优.海量数据处理等 本博客以例子为主线,来说明在elasticse ...

  4. 深度学习表征的不合理有效性——从头开始构建图像搜索服务(二)

    摘要:还在为搜索引擎的工作原理感到困惑吗?看完本篇就可以自己动手构建搜图服务了. 接着上篇<深度学习表征的不合理有效性--从头开始构建图像搜索服务(一)>的内容,上次遇到的问题是搜索相似图 ...

  5. 深度学习表征的不合理有效性——从头开始构建图像搜索服务(一)

    摘要:还在为搜索引擎的工作原理感到困惑吗?看完本篇就可以自己动手构建搜图服务了. 教会计算机以人的方式看图 为什么是相似搜索? 一张图片胜过千言万语,甚至N行代码.网友们经常使用的一句留言是,no p ...

  6. Keras深度学习实战(3)——神经网络性能优化技术详解

    Keras深度学习实战(3)--神经网络性能优化技术详解 0. 前言 1. 缩放输入数据集 1.1 数据集缩放的合理性解释 1.2 使用缩放后的数据集训练模型 2. 输入值分布对模型性能的影响 3. ...

  7. 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程

    网站通过SEO优化会有哪些好处       SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...

  8. TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书

    作者:蒋子阳 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-01-01 TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书 ISBN:97875170682 ...

  9. 【深度好文】过了30岁,做技术开发、工程师还有前途吗?

    岁月是把杀猪刀,这话确实不假:80后工程师大部分已开始奔四,90后工程师群体已人到中年,然后00后奔袭而来...在这样一个充满变化.机遇.挑战.竞争的时代,我们每个人仿佛都被卷入历史的滚滚洪流,很难独 ...

最新文章

  1. 电子设计搜索引擎引入分析和见解
  2. 逆水寒服务器新消息,游戏新消息:逆水寒太火爆服务器爆满王思聪都挤不进去...
  3. ENAS加载自己的数据集之路
  4. 深入理解Kubelet核心执行框架
  5. Quarkus 0.12.0 发布,下一代 K8s 原生 Java 框架
  6. ArrayBlockingQueue原理分析
  7. 【HDU】2795 Billboard
  8. ABP VNext 微服务演示,项目状态和路线图
  9. SpringBoot整合springDataJPA
  10. postman使用之四:设置读取变量和切换环境
  11. Spring 中的事务处理
  12. 【渝粤教育】国家开放大学2018年春季 0680-22T会计基础知识 参考试题
  13. Windows Phone 7开发人员向导已经发布
  14. 2021-11-16-小甲鱼python教学视频总结
  15. matlab 双音多频 接收端检测到的号码,实验一数字信号处理在双音多频拨号系统中的应用.doc...
  16. 基于 Apache APISIX,爱奇艺 API 网关的更新与落地实践
  17. 美国犹他大学计算机专业怎么样,2018美国计算机工程专业排名一览表
  18. FART脱壳机的使用与进阶(1)_FART的安装与使用(pixel为例)
  19. osg for android 学习之五:场景漫游
  20. IntellIdea 注册码

热门文章

  1. android 图片变量,Android开发实现ImageView加载摄像头拍摄的大图功能
  2. 什么从什么写短句_结婚纪念日发朋友圈说说 致自己结婚纪念日短句 一句话经典...
  3. 点云格式解读 PCD
  4. 定义一个结构体指针需要分配存储空间
  5. 朴素贝叶斯 python 实现
  6. linux 编程博客,Linux系统编程博客参考
  7. sklearn 笔记整理:sklearn.mertics
  8. 阿里数据中台系列之Apsara Stack控制台报警管理(三)
  9. UBUNTU衍生版制作,系统的封装
  10. url如何定位到Servlet项目