TFIDF与BM25

TFIDF

先复习一下 tfidf，tf是词频，即某个词 i 在文章 j 中出现的频率。分母是文章中所有词的个数，分母是词 i 出现的次数。tf越高说明该词越重要，对于短文本匹配，每个词一般只出现一次，tf 的大小就取决于分母，即文章的长度。
tfi,j=ni,j∑knk,jtf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} tfi,j=∑knk,jni,j
idf是逆文档频率，计算该词出现在所有文章中的频率，此时，分母是包含该关键字 i 的文章数，分子是所有文章数 N。用log相当于趋势不变，数值变小了。该词出现越多，分子越大，idf值越小，比如：“的” 经常出现，因此不是关键词。当词 i 在文章 j 中完全不出现，分母为0，因此给分母加 1。
idfi=logNdfi+1idf_i=log\frac{N}{df_i+1} idfi=logdfi+1N
tf和idf的乘积就是词 i 在文章 j 中的重要性。
tfidfi,j=tfi,j×idfitfidf_{i,j}=tf_{i,j} \times idf_itfidfi,j=tfi,j×idfi
在搜索中，计算搜索串中的多个关键词与文章 j 的相似度：将各词的 tfidf 相加：
similarity=∑itfidfi,jsimilarity = \sum_{i} tfidf_{i,j} similarity=i∑tfidfi,j
搜索之前，需要知道各个词在已知文章集中的分布。

BM25

BM25是基于TF-IDF的改进算法，BM 是Best Match最佳匹配的缩写，25指的是第25次算法迭代。

idf 部分只做了微调：
idfi=logN−dfi+0.5dfi+0.5idf_i=log\frac{N-df_i+0.5}{df_i+0.5} idfi=logdfi+0.5N−dfi+0.5
其中分母部分从所有文章中减去了包含 i 的文章，0.5用于平滑。

接下来，又对 tf 做了如下调整：
tfscore=(k+1)×tfk×(1−b+b×LdLavg)+tftfscore= \frac {(k + 1) \times tf} { k \times (1 - b + b \times \frac{L_d}{L_{avg}}) + tf}tfscore=k×(1−b+b×LavgLd)+tf(k+1)×tf
这里引入了超参数 k 和 b。

先看分母中的括号，Ld是文章长度，Lavg是所有文章的平均长度，当文章长度与平均长度一致时，括号里值为 1，相当于未乘系数；当文章比平均长度短时，括号里的值小于1，分母越小，上式结果越大，也就是说文章越短，每一个词越重要，这也与直觉一致。另外，长度的影响与b有关，b越大，影响越大，b的取值在0-1之间，当b为0时，完全不考虑长度的影响，b 一般取值为 0.75。

k 用于标准化词频的范围，将 tf 值压缩到 0~k+1 之间，其函数曲线如下：
tfscore=(k+1)×tfk+tftfscore = \frac{(k + 1) \times tf}{k + tf} tfscore=k+tf(k+1)×tf

其横轴为 tf，纵轴为 tfscore，分别针对 k=0,1,2,3,4 画图。当k=0时，tfscore为 1，不考虑词频的影响，而 k 越大词频越趋近于原始词频。因此，如果文章只包含短文本，或者无需关注词出现几次，则可将其设成 k=0。

有时还考虑到词 i 在搜索文本中的频率，上式扩展成：
∑t∈qlog[N−dfi+0.5dfi+0.5]×(k1+1)tftdk1(1−b+b×LdLavg)+tftd×(k2+1)tftqk2+tftq\sum_{t \in q} log[\frac{N-df_i+0.5}{df_i+0.5}] \times \frac{(k_1+1)tf_{td}}{k_1(1-b+b \times \frac{L_d}{L_{avg}})+tf_{td}} \times \frac{(k_2+1)tf_{tq}}{k_2+tf_{tq}} t∈q∑log[dfi+0.5N−dfi+0.5]×k1(1−b+b×LavgLd)+tftd(k1+1)tftd×k2+tftq(k2+1)tftq
其中td指被搜索文本，tq指搜索文本。

这样我们就可以细化的控制 tf 的占比，以及文章长度的影响，以适应各种不同情况下的搜索和匹配任务。注意设置参数k和b。

之前的BM25算法集成在gensim里，最新的版本没有了，如果想使用，可以从旧版本里抽出来。

TFIDF与BM25相关推荐

利用python进行tf-idf算法绘制词云图_利用python实现通过TF-IDF和BM25提取文章关键词...
使用TF-IDF和BM25提取文章关键词评估方法: 人工从文章中提取1-5个关键词,和机器提取的关键词做比较召回 = 机器提词∩人工提词 / 人工提词准确 = 机器提词∩人工提词 / 机器提词 ...
【自然语言处理】文本相似度算法：TF-IDF与BM25
文本相似度算法:TF-IDF与BM25 1.TF-IDF TF(Term Frequency)是指归一化后的词频,IDF(Inverse Document Frequency)是指逆文档频率.给定一个 ...
TF-IDF和BM25算法原理及python实现
目录前言一.TF-IDF TF定义: 逆文本频率指数(Inverse Document Frequency,IDF) TF-IDF(Term Frequency-inverse Document ...
搜索相关度算法 TF-IDF与BM25
TF-IDF VS BM25 在ES5.0版本之前,ES一直用的是TF-IDF来进行相关度算分:在5.0后的版本,ES换成了BM25版本.本文将从算法设计的角度,先介绍两个算法,再结合ES来尝试分析一 ...
TF-IDF与BM25算法原理
1. TF-IDF原理 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比 ...
NLP篇【01】tfidf与bm25介绍与对比
上一篇:自然语言处理[NLP]遇上电商--专栏导读下一篇:NLP篇[02]白话Word2vec原理以及层softmax.负采样的实现一.tfidf介绍词频(TF) = 某个词在文章中的出现次数 ...
搜索算法相似度问题之BM25
在实践中,无论是搜索问题,还是文本问题,如何找到相似的文本都是一个常见的场景,但TFIDF文本相似度计算用多了,年轻人往往会不记得曾经的经典. 毕业快4年了,最近准备梳理一下<我毕业这4年> ...
啥？！BM25 比语义向量检索效果好？
NewBeeNLP公众号原创出品公众号专栏作者 @Maple小七北京邮电大学·模式识别与智能系统 TL;DR 虽然以SentenceBERT为代表的语义向量检索展现出了超越传统的以BM25为代表的 ...
bm25算法Java代码_搜索引擎相关度算法 -BM25 JAVA实现
bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法. 它的出现主要是解决TF-IDF算法中 TF的影响可无限增大的不足,本质上 BM25是基于TF-IDF并做了改 ...
检索 - BM25 vs 语义向量
虽然以SentenceBERT为代表的语义向量检索展现出了超越传统的以BM25为代表的稀疏向量检索的性能,但是还没有人研究过索引量和向量维数对稠密向量检索性能的影响. 本文作者通过理论和实验来证明了随 ...

TFIDF与BM25

TFIDF

BM25

TFIDF与BM25相关推荐

最新文章

热门文章