ElasticSearch 相关性
1、相关性
ElasticSearch检索结果是按照相关性倒序排列的,相关性是什么,相关性又是如何计算的?每个文档都有相关性评分,用一个正浮点数字段 _score
来表示 。 _score
的评分越高,相关性越高。
查询语句会为每个文档生成一个 _score
字段。评分的计算方式取决于查询类型不同的查询语句用于不同的目的:
terms
查询会计算 找到的内容与关键词组成部分匹配的百分比
但是通常我们说的 relevance 是我们用来计算全文本字段的值相对于全文本检索词相似程度的算法。
Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率, TF/IDF ,包括以下内容:
- 检索词频率
- 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。
- 反向文档频率每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。 字段长度准则
- 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。
单个查询可以联合使用 TF/IDF 和其他方式,比如短语查询中检索词的距离或模糊查询里的检索词相似度。
相关性并不只是全文本检索的专利。也适用于 yes|no 的子句,匹配的子句越多,相关性评分越高。
如果多条查询子句被合并为一条复合查询语句 ,比如 bool 查询,则每个查询子句计算得出的评分会被合并到总的相关性评分中。
转载于:https://www.cnblogs.com/shaosks/p/7542879.html
ElasticSearch 相关性相关推荐
- Elasticsearch中的Multi Match Query
在Elasticsearch全文检索中,我们用的比较多的就是Multi Match Query,其支持对多个字段进行匹配.Elasticsearch支持5种类型的Multi Match,我们一起来深入 ...
- 【Elasticsearch】Elasticsearch自定义评分的N种方法
1.概述 首先参考文章:[Elasticsearch]Elasticsearch 相关度评分 TF&IDF 然后转载文章:实战 | Elasticsearch自定义评分的N种方法 2.三个问题 ...
- ElasticSearch 使用教程之_score(评分)介绍
前言 使用ES时,对于查询出的文档无疑会有文档相似度之别.而理想的排序是和查询条件相关性越高排序越靠前,而这个排序的依据就是_score.本文就是详解_score有关的信息,希望能对排序评分的理解 ...
- Elasticsearch 搜索的高级功能学习
在文章 Elasticsearch 入门学习 中介绍了 Elasticsearch 的基础概念以及一些常用的 API.这篇文章是继续对 Elasticsearch 中一些高级的搜索功能的学习和总结: ...
- Elastic 发布 Elasticsearch Relevance Engine™ — 为 AI 革命提供高级搜索能力
作者:Matt Riley 今天我们将向大家介绍 Elasticsearch Relevance Engine™(ESRE™),这是一种创建高度相关的 AI 搜索应用程序的新功能.ESRE 建立在 E ...
- 2021华为杯数学建模D题完整思路
题目:D 抗乳腺癌候选药物的优化建模 这道题就是分类问题,解决的方法基本都是机器学习(含深度学习.强化学习)的方法,来看第一问 第一问,ERα_activity中一般采用pIC50来表示生物活性值,看 ...
- 剖析Elasticsearch集群系列第三篇 近实时搜索、深层分页问题和搜索相关性权衡之道...
http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03?utm_source=infoq&utm ...
- 深入理解ElasticSearch(六)排序与相关性
排序与相关性 默认情况下,返回的结果是按照 相关性 进行排序的--最相关的文档排在最前. 在本章的后面部分,我们会解释 相关性 意味着什么以及它是如何计算的, 不过让我们首先看看 sort 参数以及如 ...
- 【Elasticsearch】改进布尔查询的搜索相关性
1.概述 翻译:Improving search relevance with boolean queries 有人翻译:Elasticsearch:使用布尔查询提高搜索的相关性 当你在Elastic ...
最新文章
- 如何定制视频业务- ramdisk 内存文件系统
- 活动目录在Windows Server 2008 中的改进:总体概览
- ejb生命周期_EJB 3.x:生命周期和并发模型(第2部分)
- 蚂蚁员工人均都能买一套杭州的房子了?!加油啊,打工人!
- 华为S5024p交换机配端口镜像
- chage 修改用户密码的有效期限
- GTK真不容易,资料少,学得人也少!
- matlab可以仿真液压系统,基于Matlab计算机仿真在液压系统中的应用
- 快手用户群体分析_报告称快手用户分布与移动互联网人群分布一致
- 关于Android Pie(Android 9.0),你想知道的都在这了
- 汇编语言浮点数指令集
- 对抗神经网络(python-一维数据)
- 修改网络设备在路由器中显示名称
- linux redis 远程访问
- “Internet来宾帐户”的设置的问题
- 职场中干好工作的18准则
- 每日一题pwnable.kr bof
- 新零售时代下,物流行业迎来新机遇
- LIMIT 10000,10会发生什么?
- html 遮罩层实现