【Elasticsearch】打分策略详解与explain手把手计算
一、目的
一个搜索引擎使用的时候必定需要排序这个模块,一般情况下在不选择按照某一字段排序的情况下,都是按照打分的高低进行一个默认排序的,所以如果正式使用的话,必须对默认排序的打分策略有一个详细的了解才可以,否则被问起来为什么这个在前面,那个在后面不好办,因此对Elasticsearch的打分策略详细的看了下,虽然说还不是了解的很全部,但是大部分都看的差不多了,结合理论以及搜索的结果,做一个简单的介绍
二、Elasticsearch的打分公式
Elasticsearch的默认打分公式是lucene的打分公式,主要分为两部分的计算,一部分是计算query部分的得分,另一部分是计算field部分的得分,下面给出ES官网给出的打分公式:
score(q,d) =
queryNorm(q)
· coord(q,d)
· ∑ (
tf(t in d)
· idf(t)²
· t.getBoost()
· norm(t,d)
) (t in q)
在此给每一个部分做一个解释
queryNorm(q):
对查询进行一个归一化,不影响排序,因为对于同一个查询这个值是相同的,但是对term于ES来说,必须在分片是1的时候才不影响排序,否则的话,还是会有一些细小的区别,有几个分片就会有几个不同的queryNorm值
queryNorm(q)=1 / √sumOfSquaredWeights
上述公式是ES官网的公式,这是在默认query boost为1,并且在默认term boost为1 的情况下的打分,其中
sumOfSquaredWeights =idf(t1)*idf(t1)+idf(t2)*idf(t2)+...+idf(tn)*idf(tn)
其中n为在query里面切成term的个数,但是上面全部是在默认为1的情况下的计算,实际上的计算公式如下所示:
coord(q,d):
coord(q,d)是一个协调因子它的值如下:
coord(q,d)=overlap/maxoverlap
其中overlap是检索命中query中term的个数,maxoverlap是query中总共的term个数,例如查询词为“无线通信”,使用默认分词器,如果文档为“通知他们开会”,只会有一个“通”命中,这个时候它的值就是1/4=0.25
tf(t in d):
即term t在文档中出现的个数,它的计算公式官网给出的是:
tf(t in d) = √frequency
即出现的个数进行开方,这个没什么可以讲述的,实际打分也是如此
idf(t):
这个的意思是出现的逆词频数,即召回的文档在总文档中出现过多少次,这个的计算在ES中与lucene中有些区别,只有在分片数为1的情况下,与lucene的计算是一致的,如果不唯一,那么每一个分片都有一个不同的idf的值,它的计算方式如下所示:
idf(t) = 1 + log ( numDocs / (docFreq + 1))
其中,log是以e为底的,不是以10或者以2为底,这点需要注意,numDocs是指所有的文档个数,如果有分片的话,就是指的是在当前分片下总的文档个数,docFreq是指召回文档的个数,如果有分片对应的也是在当前分片下召回的个数,这点是计算的时候与lucene不同之处,如果想验证是否正确,只需将分片shard的个数设置为1即可。
t.getboost():
对于每一个term的权值,没仔细研究这个项,个人理解的是,如果对一个field设置boost,那么如果在这个boost召回的话,每一个term的boost都是该field的boost
norm(t,d):
对于field的标准化因子,在官方给的解释是field越短,如果召回的话权重越大,例如搜索无线通信,一个是很长的内容,但都是包含这几个字,但是并不是我们想要的,另外一个内容很短,但是完整包含了无线通信,我们不能因为后面的只出现了一次就认为权重是低的,相反,权重应当是更高的,其计算公式如下所示:
其中d.getboost表明如果该文档权重越大那么久越重要
f.getboost表明该field的权值越大,越重要
lengthnorm表示该field越长,越不重要,越短,越重要,在官方文档给出的公式中,默认boost全部为1,在此给出官方文档的打分公式:
norm(d) = 1 / √numTerms
该值在计算的时候总是无法对上,查询网上的资料说是在打分的时候将结果先进行压缩,然后解压缩,所以结果跟原始值对不上,个人理解有点像量化的过程,因为在实际explain的时候发现该值有一定的规律性
三、实际的打分explain
在实际的时候,例如搜索“无线通信”,如下图所示,因为一些私人原因,将一些字段打码,查询的时候设置explain为true,如下图所示:
因为使用的是默认的分词器,所以最后的结果是将“无线通信”分成了四个字,并且认为是四个term来进行计算,最后将计算的结果进行相加得到最后的得分0.7605926,这个分数是“无”的得分+“线”的得分+“通”的得分+“信”的得分,四个term的得分如下图所示:
最后的得分是0.7605926=0.118954286+0.1808154+0.14515185+0.31567,与上述符合,因为四个词都出现了所以在这里面的coord=1,总分数的计算知道后,我们单看每一部分的得分的计算,以“无”为例进行介绍:
其中每一个term内部分为两部分的分数,一部分是queryweight,一部分是fieldweight,其中总分数=queryweight*fieldweight
例如此处queryweight=0.51195854,fieldWeight=0.2323514,所以总的分数就是0.118954286
queryweigth计算:
对于queryweight部分的计算分为两个部分idf和querynorm,其中idf的值是2.8618271,这个值是如何计算的呢
idf=1+ln(1995/(309+1))=2.8618271,说明在分片四里面共有1995个文档,召回了包含“无”的309个文档,因此为这个值
querynorm部分的计算:根据上面“无”“线”“通”“信”四个的分数计算,可以看到,idf的值分别为
无:2.8618271
线:3.1053379
通:2.235371
信:2.901306
所以按照计算公式
querynorm=1 / √2.8618271*2.8618271+3.1053379*3.1053379+2.235371*2.235371+2.901306*2.901306=0.1788922
所以queryweight部分的值是0.1788922*2.8618271=0.51195854
再次总结下此处的公式:queryweight=idf*queryNorm(d)
fieldweight部分计算:
idf的计算上边已经算过,在此不详细叙述
tf的值是在此处出现3次,所以为√3=1.7320508
fieldnorm的值不知道如何计算,按照公式计算不出来explain的值,网上资料说是编解码导致的,哪位朋友知道如何计算麻烦回复下,多谢
总结下fieldweight部分的计算公式:fieldweight=idf*tf*fieldnorm=1.7320508*2.8618271*0.046875=0.2323514
所以总体的计算就是
score=queryweight*fieldweight=idf*queryNorm(d)*idf*tf*fieldnorm=coord*queryNorm(d)*tf*idf^2*fieldnorm
四、参考文档
http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html
https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html#field-norm
【Elasticsearch】打分策略详解与explain手把手计算相关推荐
- Spring Data JPA 从入门到精通~Naming命名策略详解及其实践
Naming 命名策略详解及其实践 用 JPA 离不开 @Entity 实体,我都知道实体里面有字段映射,而字段映射的方法有两种: 显式命名:在映射配置时,设置的数据库表名.列名等,就是进行显式命名, ...
- CentOS7下的软件安装方法及策略详解
CentOS7下的软件安装方法及策略详解 互联网 01-24 15:15:09 作者:佚名 我要评论 今天小编为大家带来的是CentOS7下的软件安装方法及策略详解:希望对大家安装Cent ...
- php操作ElasticSearch搜索引擎流程详解
更多python.php教程请到友情连接: 菜鸟教程https://www.piaodoo.com 茂名一技http://www.enechn.com ppt制作教程步骤 http://www.tpy ...
- Elasticsearch之Template详解
Elasticsearch之Template详解 一.Index Template 示例1 示例2 示例3 二.Dynamic Template 示例1 在ES中我们可以通过设置 Index Temp ...
- Firewalld防火墙策略详解
Firewalld防火墙策略详解 一.Firewalld firewalld防火墙是Centos7系统默认的防火墙管理工具,取代了之前的iptables防火墙,也是工作在网络层,属于包过滤防火墙. f ...
- Iptables防火墙策略详解
Iptables防火墙策略详解 一.iptables Linux 系统的防火墙--netfilter/iptables IP信息包过滤系统,它实际上由两个组件netfilter 和 iptables组 ...
- Redis的淘汰策略详解
接上一篇Redis的过期策略详解 Redis的过期策略详解 所谓的淘汰策略就是: 我们redis中的数据都没有过期,但是内存有大小,所以我们得淘汰一些没有过期的数据!! 那么怎么去淘汰了,我们上一篇讲 ...
- 回撤率 python 平台_详解如何使用python计算一只股票的最大回撤率?
详解如何使用python计算一只股票的最大回撤率? 一.什么是最大回撤率? 最大回撤率:在选定周期内任一历史时点往后推,产品净值走到最低点时的收益率回撤幅度的最大值.最大回撤用来描述买入产品后可能出现 ...
- 详解如何使用python计算一只股票的最大回撤率?
详解如何使用python计算一只股票的最大回撤率? 一.什么是最大回撤率? 最大回撤率:在选定周期内任一历史时点往后推,产品净值走到最低点时的收益率回撤幅度的最大值.最大回撤用来描述买入产品后可能出现 ...
最新文章
- 对相机所看的视角截屏保存为图片
- 超全超实用的Javascript类库和jQuery插件大全之一:图片,地图和图形
- RSA公钥文件(PEM)解析
- Linux debian 11上安装 Google Chrome浏览器教程
- C++中建立对象间消息连接的系统方法
- 真正优秀的人,都有这3种习惯
- python变量图片_在Python中向3D图添加第4个变量
- 【交通流预测】基于matlab小波神经网络短时交通流预测【含Matlab源码 400期】
- .pdf文件通过java拷贝,java复制pdf而且往pdf文件中添加内容
- Server responded “Algorithm negotiation failed“错误解决方法
- NHibernate]集合类(Collections)映射
- [源码解读]一文彻底搞懂Events模块
- OCR文字识别谁最好?4款拍照扫描应用横向对比
- java念整数 你的程序要读入一个整数,范围是[-100000,100000]。然后,用汉语拼音将这个整数的每一位输出出来。 如输入1234,则输出: yi er san si
- 名图怎么弄云服务器_名图怎么弄云服务器
- Spring核心思想,IoC与DI详解(如果还不明白,放弃java吧)
- 咖啡在手,指数我有——指数咖啡
- Python 多位数字写入CSV文件,避免科学计数法显示,超长数字,超大数字,精度保留
- 如何提取图片中文字?安利这几个图片转文字提取的方法
- 邓应海:4.20今日黄金原油走势分析,附精准黄金原油策略布局
热门文章
- 从txt导入10个数据c语言,怎么将txt中带逗号的数据导入定义好的数据结构中
- post postman 传递数组对象_PostMan Post方式传递数组数据参数 OK_go
- python中元组可以比较大小吗_python元组比较
- python程序运行时间计算公式_Python执行时间的计算方法小结
- 关于 $ Super $ $ 和 $ Sub $ $ 的用法
- md5会重复吗_自媒体平台视频重复审查机制,如何避免自己做的视频和别人的重复...
- 微x怎么设置主题_红人堂:抖音直播预告文案怎么写?5个小技巧提高你的文案吸引力!...
- docker export_docker构建python3.7镜像
- hbase 可视化工具_Hadoop工具TOP 9:
- 计算机 课题学科代码,学科分类与代码表课题.doc