elasticsearch控制查询精准度

1、使用minimum_should_match参数

elasticsearch query中的minimum_should_match ，字面意思就很清晰了，就是最小匹配度，但是它却有很多种配置方式。
正向匹配度比如 "minimum_should_match":3 官方原文解释是：Indicates a fixed value regardless of the number of optional clauses.
这里要说明一下为什么是optional clauses（翻译为可选的子句），因为对于被analyzer分解出来的每一个term都会构造成一个should的bool query的查询,每个term变成一个term query子句。
例如"query": "how not to be"，被解析成：
{
"bool": {
"should": [
{ "term": { "body": "how"}},
{ "term": { "body": "not"}},
{ "term": { "body": "to"}},
{ "term": { "body": "be"}}
],
"minimum_should_match": 3
}
}
（注：在bool query中minimum_should_match只能紧跟在should的后面，放其他地方会出异常）

或者 "minimum_should_match":75%，可以配置一个一个百分比，至少optional clauses至少满足75%，这里是向下取整的。
比如有5个clause,5*75%=3.75,向下取整为3，也就是至少需要match 3个clause。

逆向匹配和正向匹配相反，比如我们可以近似理解为-25%和75%表示的是一个意思，但是有些小小的差异，比如有5个clause，逆向匹配-25%，5*25%=1.25，取整是1,5-1=4，即要匹配4个clause，而75%算出来是3个clause。

例如：

term(job,“”销售经理“”)结果可能会出现：促销员或者是4S店经理/维修站经理等

如果使用：QueryBuilders.matchQuery(job,“”销售经理“”).minimumShouldMatch("90%") 则不会出现。

因为销售经理经过分词会出现：

{
tokens: [
{
token: "销售",
start_offset: 0,
end_offset: 2,
type: "CN_WORD",
position: 0
},
{
token: "销",
start_offset: 0,
end_offset: 1,
type: "CN_WORD",
position: 1
},
{
token: "售",
start_offset: 1,
end_offset: 2,
type: "CN_WORD",
position: 2
},
{
token: "经理",
start_offset: 2,
end_offset: 4,
type: "CN_WORD",
position: 3
}
]
}

配置了匹配度最少为90% 意味着召回的doc中至少有 4*0.9=3.6向下取整3个词条才可以。

2、使用短语查询

QueryBuilders.matchPhraseQuery(field, value).slop(2)

表示将value分词后中间允许存在两个分词结果的词条；如原句子是：

我是你们公司部门的经理

经过分词后：

{
tokens: [
{
token: "我",
start_offset: 0,
end_offset: 1,
type: "CN_CHAR",
position: 0
},
{
token: "你们",
start_offset: 2,
end_offset: 4,
type: "CN_WORD",
position: 1
},
{
token: "公司",
start_offset: 4,
end_offset: 6,
type: "CN_WORD",
position: 2
},
{
token: "部门",
start_offset: 6,
end_offset: 8,
type: "CN_WORD",
position: 3
},
{
token: "经理",
start_offset: 9,
end_offset: 11,
type: "CN_WORD",
position: 4
}
]
}

QueryBuilders.matchPhraseQuery(field, "我是经理").slop(2)

那么查不到，因为‘我是经理’分词后是我经理；在这两个中间最多允许2个分词的词条。但是我是你们‘’我是你们公司部门的经理"在我经理中间有3个词条，索引搜索不到。
QueryBuilders.matchPhraseQuery(field, "我是经理").slop(3)或者大于3也可以。

elasticsearch控制查询精准度相关推荐

Elasticsearch学习之深入搜索一 --- 提高查询的精准度
为帖子增加标题字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { &quo ...
Elasticsearch系列——全文搜索控制精准度
作者专注于Java.架构.Linux.小程序.爬虫.自动化等技术. 工作期间含泪整理出一些资料,微信搜索[程序员高手之路],回复 [java][黑客][爬虫][小程序][面试]等关键字免费获取资料. ...
22_深度探秘搜索技术_手动控制全文检索（match）结果的精准度、基于boost的细粒度搜索条件实现权重控制...
本文章收录于[Elasticsearch 系列],将详细的讲解 Elasticsearch 整个大体系,包括但不限于ELK讲解.ES调优.海量数据处理等本博客以例子为主线,来说明在elasticse ...
elasticsearch控制match执行过程的低级查询处理规则
本篇文章主要说明match执行过程中的低级查询(bool term)以及涉及到评分规则(包括同义词).elasticsearch一些较复杂业务查询中 match 多词和同义词搜索可能会遇到的问题. ...
Elasticsearch深度探秘搜索技术如何手动控制全文检索结果的精准度
为帖子数据增加标题字段 #插入数据 POST /post/_doc/_bulk { "update": { "_id": "1"} } { ...
19_ElasticSearch 使用match和近似匹配实现召回率与精准度的平衡
19_ElasticSearch 使用match和近似匹配实现召回率与精准度的平衡更多干货分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring b ...
白话Elasticsearch06- 深度探秘搜索技术之手动控制全文检索结果的精准度
文章目录概述数据小例子搜索标题中包含java或elasticsearch的blog 搜索标题中包含java和elasticsearch的blog 搜索包含java,elasticsearch, ...
【Elasticsearch】Elasticsearch中的相似度评分介绍
1.概述转载:Elasticsearch中的相似度评分介绍本文要点相关性得分是一个搜索引擎的核心,了解它的工作原理对创建一个好的搜索引擎至关重要. Elasticsearch 使用了两种相似度评 ...
ElasticSearch 高级查询语法
ElasticSearch 高级查询语法Query DSL ES倒排索引 ES高级查询Query DSL 查询所有 match_all 分页查询form 深分页查询Scroll 指定字段排序sort ...

elasticsearch控制查询精准度

elasticsearch控制查询精准度相关推荐

最新文章

热门文章