BM25-nlp经典算法

前两天老师给我们讲解了BM25算法，其中包括由来解释，以及算法推导，这里我再将其整理，这里我不讲解之前的BIM模型，大家有兴趣可以自行了解。
Okapi BM25:一个非二值的模型
bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。
举个例子：我们查询关键词red apple ，将其分词为red 和apple，我们在我们的1000个文档中分别索引这两个词，但是我们发现red的似乎经常出现，然而apple出现频率不高，那我们将这一千个文档进行得分排序，如果某个文档中red出现的次数很高，而apple出现次数很少，安装普通的得分排序的话（出现一次算一分）那我们red出现越多，它的分数就会越高，但是这却违背了我们所需要，因为我们检索的是red apple，所以，BM25就是来消除这种相关性不高的问题，即为我们所查询的词有一个权值比重，即为idf（这里我们后面会讲解）。
1.BM25模型

其实，这个公式不难理解，他只有三个部分
1.计算单词权重：
2.单词和文档的相关度：
3.单词和query（关键词）的相关性：

2.idf解释（单词权重计算）
在上面我们已经看到了公式，但是还不是很理解是什么意思，所以这里我们慢慢理解体会：
N：是所有的文档数目.
dft:是我们的关键词通过倒排算法得出的包含t的文档数目（即为上述例子中，red 在1000个文档中出现的文档次数）
例如，我们在1000个文档中出现red的次数为10，那么N/dft=100，即可算出他的权重。
3.tf解释（单词和文档相关度）
其实，BM25最主要的方面在于 idftf，就是查询词的权重查询词和文档的相关性。
tftd：tftd 是词项 t 在文档 d 中的权重。
Ld 和 Lave ：分别是文档 d 的长度及整个文档集中文档的平均长度。
k1：是一个取正值的调优参数，用于对文档中的词项频率进行缩放控制。如果 k 1 取 0，则相当于不考虑词频，如果 k 1取较大的值，那么对应于使用原始词项频率。
b ：是另外一个调节参数（0≤ b≤ 1），决定文档长度的缩放程度：b = 1 表示基于文档长度对词项权重进行完全的缩放，b = 0 表示归一化时不考虑文档长度因素。
4.单词和query（关键词）的相关性解释
tftq：是词项t在查询q中的权重。
k3：是另一个取正值的调优参数，用于对查询中的词项tq 频率进行缩放控制。

下面是调用AP90跑出来的数据结果（BM25）：

BM25-nlp经典算法相关推荐

NLP经典算法复现！CRF原理及实现代码
Datawhale 作者:丁媛媛,Datawhale优秀学习者寄语:本文先对马尔可夫过程及隐马尔可夫算法进行了简单的介绍:然后,对条件随机场的定义及其三种形式进行了详细推导:最后,介绍了条件随机场的 ...
Algorithm之PrA：PrA之nLP非线性规划算法经典案例剖析+Matlab编程实现
Algorithm之PrA:PrA之nLP整数规划算法经典案例剖析+Matlab编程实现目录有约束非线性规划案例分析 1.投资决策问题 2.利用Matlab实现求解下列非线性规划无约束极值问题 ...
NLP经典论文：Sequence to Sequence、Encoder-Decoder 、GRU 笔记
NLP经典论文:Sequence to Sequence.Encoder-Decoder.GRU 笔记论文介绍特点模型结构整体结构输入输出整体流程流程维度 GRU 模型结构 GRU单 ...
NLP经典论文：Layer Normalization 笔记
NLP经典论文:Layer Normalization 笔记论文介绍模型结构 batch normalization 和 layer normalization 的相同点 batch norma ...
NLP经典论文：Word2vec、CBOW、Skip-gram 笔记
NLP经典论文:Word2vec.CBOW.Skip-gram 笔记论文介绍模型结构 CBOW模型整体模型输入输出整体流程整体维度输入层与投影层输入输出输出层输入输出原本 ...
NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记
NLP经典论文:Attention.Self-Attention.Multi-Head Attention.Transformer 笔记论文介绍特点模型结构整体结构输入输出 Attent ...
【总结】自然语言处理（NLP）算法：概述与分类
摘要:NLP概述.主要参考自然语言处理(NLP)知识结构总结和知乎上的一些问答. 目录 NLP界神级人物 NLP知识结构 1.概述 2.形式语言与自动机 3.语言模型 4.概率图模型,生成模型与判别模 ...
NLP经典模型复现之开宗明义
文章目录 1. 为什么要写这个专栏 2. 专栏的主要内容 3. 阅读论文的正确姿势 1. 为什么要写这个专栏大家好,我是herosunly,从985院校硕士毕业,现担任算法研究员一职.CSDN博 ...
数据挖掘的一些经典算法
数据挖掘能做以下七种不同事情 (分析方法): 数据挖掘能做以下七种不同事情 · 分类 (Classification) · 估计(Estimation) · 预测(Prediction) · 相关性分 ...
经典算法研究系列：二、Dijkstra 算法初探
经典算法研究系列:二.Dijkstra 算法初探 July 二零一一年一月 ====================== 本文主要参考:算法导论第二版.维基百科. 写的不好之处,还望见谅. 本 ...

BM25-nlp经典算法

BM25-nlp经典算法相关推荐

最新文章

热门文章