信息检索——向量空间模型(Vector Space Model)
TF:
tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理
w1= log10(tf+1)
这样做就是要弱化次数对于相关度的影响
DF/IDF:
df 即 document frequency,表示一个 term 在整个文档集中出现的频率。与 tf 相反,一个 term 的重要程度是随着它在语料库中出现的频率成反比的。比如 and,or 等词在几乎所有文档中都出现,那么这些词的意义就很弱,而一些专业词汇只在几篇文档中出现过,显然意义更加重要。idf 就是 df 取倒数,这里只是为了表示方便。
同样,为了弱化频率的效果,我们也做如下处理
w2= log10(N/df) 其中N为文档总数,df是文档term在所有文档集合中出现的次数。
有了上面的tfidf作为权重,我们可以很简单的计算所有词的权重,然后用一个N维的向量来表示一个文档,同样用N维的向量来表示query,query中如果没有对应的term,则该维权重为0。
于是,利用我们的数据知识,我们可以知道,在同样的空间中,如果两个向量的夹角越小,说明两个向量越相似,反之两个向量越无关。因此使用cosine定理,我们可以很简单地得到向量之间的相似度
Worked example. We now consider the query best car insurance on a fictitious collection with documents where the document frequencies of auto, best, car and insurance are respectively 5000, 50000, 10000 and 1000.
term | query | document | product | |||||
tf | df | idf | tf | wf | ||||
auto | 0 | 5000 |
2.3 math.log(1000000/5000, 10) |
0 0 * 2.3 |
1 | 1 | 0.41 | 0 |
best | 1 | 50000 |
1.3 math.log(1000000/50000, 10) |
1.3 1 * 1.3 |
0 | 0 | 0 | 0 |
car | 1 | 10000 | 2.0 |
2.0 1 * 2.0 |
1 | 1 | 0.41 | 0.82 |
insurance | 1 | 1000 | 3.0 |
3.0 1 * 3.0 |
2 | 2 | 0.82 | 2.46 |
ref: http://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html
信息检索——向量空间模型(Vector Space Model)相关推荐
- 向量空间模型(Vector Space Model)的理解
https://www.cnblogs.com/hapjin/p/8687527.html
- 自然语言处理(NLP)-1.3 向量空间模型(Vector Space Models)
1.向量空间模型(Vector Space Models) 1.1 基本概念 定义:向量空间模型将单词或文本用向量表示,通过上下文来获取其语义信息 功能:识别两文本/两类文档间的相似度和独立性 例: ...
- 大数据入门10:向量空间模型(Vector Space Model)
文章目录 向量空间模型(Vector Space Model) 0. 概述 1. TF(Term frequency ,TF) 2. IDF(Inverse document frequency,ID ...
- NLP --- 文本分类(向量空间模型(Vector Space Model)VSM)
本节主要介绍文本分类中的一种算法即向量空间模型,这个算法很经典,包含文本预处理.特征选择.特征权值计算.分类算法.这是VSM的几个主要步骤,在宗老师的书里都有详细的讲解,这里也会进行深入的讲解,浅显易 ...
- 向量空间模型算法( Vector Space Model )
概念介绍 向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功 地应用于文本检索系统. VSM概念简单,把对文本内容的处理简化为向量空间中的向量 ...
- [MCT01] 状态空间模型 State Space Model
文章目录 1.1 状态变量 What is a State 1.2 空间状态表达式 State Space Representation 1.2.1 Python代码实现State Space Mod ...
- 向量与向量空间(vector space)
在维基百科关于 向量空间 的介绍中,并未提及构成向量空间的「向量」的具体形态,即它未必是我们通常理解的3维或者 nn 维的实数空间,只是提及对加法和数乘封闭. 0. 向量的使用 向量:大小和方向: 方 ...
- 线性代数 --- 向量空间(vector space)与子空间(subspace)
Part I --- 向量空间: 向量空间就是由包含n个分量的列向量所组成的Rn的空间,其中R表示实数.例如,R2就代表了一般的x-y平面,其中包含两个分量的向量表示坐标系中的一个点(x,y).同理 ...
- 向量空间模型简介及算法
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统.把对文本内容的处理简化为向量空间中的向量运算,并且它以 ...
最新文章
- MFC程序的框架理解
- python在线读-Python测试之道
- python做电脑软件-作为一个Python程序员,电脑上应该具备哪些软件?
- c#样条曲线命令_如何定制CAD功能区界面中的命令?
- linux指令popd,Linux切换目录pushd、popd、dirs命令
- Linux下的Cacti网络管理系统---安装(二)
- [jQuery] jQuery与jQuery UI有啥区别?
- java模块_Java 9 揭秘(2. 模块化系统)
- html 响应式布局 九宫格,两种方法实现响应式九宫格布局
- 东风科技php,东风科技(600081)违规记录_新浪财经_新浪网
- Leetcode 30.串联所有单词的子串
- [EntLib]UAB(Updater Application Block)下载
- simulink中嵌入m文件
- #python#生物信息学 提取文本某列信息 #提取氨基酸序列并且提取氨基酸结构序列与之对应
- idea下配置tomcat运行jpress
- OPC Server
- 英国几个有名的英语考试总结
- 微信号码开通状态检测
- android 全景拍照 sdk,Android全景SDK | 百度地图API SDK
- 苹果手机怎么设置录屏功能_苹果手机怎么录屏 苹果手机录屏功能开启/使用教程...