白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端
文章目录
- 概述
- 例子
概述
继续跟中华石杉老师学习ES,第15篇
课程地址: https://www.roncoo.com/view/55
白话Elasticsearch14-基于multi_match 使用most_fields策略进行cross-fields search弊端
白话Elasticsearch15-使用copy_to定制组合field解决cross-fields搜索弊端
承接上两篇, 接下来看下如何使用原生cross-fiels技术解决搜索的弊端
例子
使用DSL如下,可以解决 "operator": "and",
GET /forum/article/_search
{"query": {"multi_match": {"query": "Peter Smith","type": "cross_fields", "operator": "and","fields": ["author_first_name", "author_last_name"]}}
}
返回结果:
{"took": 3,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": 2,"max_score": 2.3258216,"hits": [{"_index": "forum","_type": "article","_id": "1","_score": 2.3258216,"_source": {"articleID": "XHDK-A-1293-#fJ3","userID": 1,"hidden": false,"postDate": "2017-01-01","tag": ["java","hadoop"],"tag_cnt": 2,"view_cnt": 30,"title": "this is java and elasticsearch blog","content": "i like to write best elasticsearch article","sub_title": "learning more courses","author_first_name": "Peter","author_last_name": "Smith","new_author_last_name": "Smith","new_author_first_name": "Peter"}},{"_index": "forum","_type": "article","_id": "5","_score": 1.7770995,"_source": {"articleID": "DHJK-B-1395-#Ky5","userID": 3,"hidden": false,"postDate": "2019-05-01","tag": ["elasticsearch"],"tag_cnt": 1,"view_cnt": 10,"title": "this is spark blog","content": "spark is best big data solution based on scala ,an programming language similar to java","sub_title": "haha, hello world","author_first_name": "Tonny","author_last_name": "Peter Smith","new_author_last_name": "Peter Smith","new_author_first_name": "Tonny"}}]}
}
那是如何解决cromss fields的弊端的呢? 我们来分析下
问题1:只是找到尽可能多的field匹配的doc,而不是某个field完全匹配的doc
答: 解决,要求每个term都必须在任何一个field中出现
Peter,Smith
要求Peter必须在author_first_name或author_last_name中出现
要求Smith必须在author_first_name或author_last_name中出现Peter Smith可能是横跨在多个field中的,所以必须要求每个term都在某个field中出现,组合起来才能组成我们想要的标识,完整的人名
原来most_fiels,可能像Smith Williams也可能会出现,因为most_fields要求只是任何一个field匹配了就可以,匹配的field越多,分数越高
- 问题2:most_fields,没办法用minimum_should_match去掉长尾数据,就是匹配的特别少的结果 --> 解决,既然每个term都要求出现,长尾肯定被去除掉了
答:java hadoop spark --> 这3个term都必须在任何一个field出现了
比如有的document,只有一个field中包含一个java,那就被干掉了,作为长尾就没了
- 问题3:TF/IDF算法,比如Peter Smith和Smith Williams,搜索Peter Smith的时候,由于first_name中很少有Smith的,所以query在所有document中的频率很低,得到的分数很高,可能Smith Williams反而会排在Peter Smith前面
答:计算IDF的时候,将每个query在每个field中的IDF都取出来,取最小值,就不会出现极端情况下的极大值了
Peter Smith
Peter
Smith
Smith,在author_first_name这个field中,在所有doc的这个Field中,出现的频率很低,导致IDF分数很高;Smith在所有doc的author_last_name field中的频率算出一个IDF分数,因为一般来说last_name中的Smith频率都较高,所以IDF分数是正常的,不会太高;然后对于Smith来说,会取两个IDF分数中,较小的那个分数。就不会出现IDF分过高的情况。
白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端相关推荐
- 白话Elasticsearch27-深度探秘搜索技术之误拼写时的fuzzy模糊搜索技术
文章目录 概述 官方指导 例子 推荐写法 概述 继续跟中华石杉老师学习ES,第27篇 课程地址: https://www.roncoo.com/view/55 官方指导 https://www.ela ...
- Elasticsearch深度探秘搜索技术如何手动控制全文检索结果的精准度
为帖子数据增加标题字段 #插入数据 POST /post/_doc/_bulk { "update": { "_id": "1"} } { ...
- 22_深度探秘搜索技术_手动控制全文检索(match)结果的精准度、基于boost的细粒度搜索条件实现权重控制...
本文章收录于[Elasticsearch 系列],将详细的讲解 Elasticsearch 整个大体系,包括但不限于ELK讲解.ES调优.海量数据处理等 本博客以例子为主线,来说明在elasticse ...
- 深度学习表征的不合理有效性——从头开始构建图像搜索服务(二)
摘要:还在为搜索引擎的工作原理感到困惑吗?看完本篇就可以自己动手构建搜图服务了. 接着上篇<深度学习表征的不合理有效性--从头开始构建图像搜索服务(一)>的内容,上次遇到的问题是搜索相似图 ...
- 深度学习表征的不合理有效性——从头开始构建图像搜索服务(一)
摘要:还在为搜索引擎的工作原理感到困惑吗?看完本篇就可以自己动手构建搜图服务了. 教会计算机以人的方式看图 为什么是相似搜索? 一张图片胜过千言万语,甚至N行代码.网友们经常使用的一句留言是,no p ...
- Keras深度学习实战(3)——神经网络性能优化技术详解
Keras深度学习实战(3)--神经网络性能优化技术详解 0. 前言 1. 缩放输入数据集 1.1 数据集缩放的合理性解释 1.2 使用缩放后的数据集训练模型 2. 输入值分布对模型性能的影响 3. ...
- 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程
网站通过SEO优化会有哪些好处 SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...
- TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书
作者:蒋子阳 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-01-01 TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书 ISBN:97875170682 ...
- 【深度好文】过了30岁,做技术开发、工程师还有前途吗?
岁月是把杀猪刀,这话确实不假:80后工程师大部分已开始奔四,90后工程师群体已人到中年,然后00后奔袭而来...在这样一个充满变化.机遇.挑战.竞争的时代,我们每个人仿佛都被卷入历史的滚滚洪流,很难独 ...
最新文章
- 电子设计搜索引擎引入分析和见解
- 逆水寒服务器新消息,游戏新消息:逆水寒太火爆服务器爆满王思聪都挤不进去...
- ENAS加载自己的数据集之路
- 深入理解Kubelet核心执行框架
- Quarkus 0.12.0 发布,下一代 K8s 原生 Java 框架
- ArrayBlockingQueue原理分析
- 【HDU】2795 Billboard
- ABP VNext 微服务演示,项目状态和路线图
- SpringBoot整合springDataJPA
- postman使用之四:设置读取变量和切换环境
- Spring 中的事务处理
- 【渝粤教育】国家开放大学2018年春季 0680-22T会计基础知识 参考试题
- Windows Phone 7开发人员向导已经发布
- 2021-11-16-小甲鱼python教学视频总结
- matlab 双音多频 接收端检测到的号码,实验一数字信号处理在双音多频拨号系统中的应用.doc...
- 基于 Apache APISIX,爱奇艺 API 网关的更新与落地实践
- 美国犹他大学计算机专业怎么样,2018美国计算机工程专业排名一览表
- FART脱壳机的使用与进阶(1)_FART的安装与使用(pixel为例)
- osg for android 学习之五:场景漫游
- IntellIdea 注册码
热门文章
- android 图片变量,Android开发实现ImageView加载摄像头拍摄的大图功能
- 什么从什么写短句_结婚纪念日发朋友圈说说 致自己结婚纪念日短句 一句话经典...
- 点云格式解读 PCD
- 定义一个结构体指针需要分配存储空间
- 朴素贝叶斯 python 实现
- linux 编程博客,Linux系统编程博客参考
- sklearn 笔记整理:sklearn.mertics
- 阿里数据中台系列之Apsara Stack控制台报警管理(三)
- UBUNTU衍生版制作,系统的封装
- url如何定位到Servlet项目