TF:

tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理

w1= log10(tf+1)

这样做就是要弱化次数对于相关度的影响

DF/IDF:

df 即 document frequency,表示一个 term 在整个文档集中出现的频率。与 tf 相反,一个 term 的重要程度是随着它在语料库中出现的频率成反比的。比如 and,or 等词在几乎所有文档中都出现,那么这些词的意义就很弱,而一些专业词汇只在几篇文档中出现过,显然意义更加重要。idf 就是 df 取倒数,这里只是为了表示方便。

同样,为了弱化频率的效果,我们也做如下处理

w2= log10(N/df) 其中N为文档总数,df是文档term在所有文档集合中出现的次数。

有了上面的tfidf作为权重,我们可以很简单的计算所有词的权重,然后用一个N维的向量来表示一个文档,同样用N维的向量来表示query,query中如果没有对应的term,则该维权重为0。

于是,利用我们的数据知识,我们可以知道,在同样的空间中,如果两个向量的夹角越小,说明两个向量越相似,反之两个向量越无关。因此使用cosine定理,我们可以很简单地得到向量之间的相似度

Worked example. We now consider the query best car insurance on a fictitious collection with  documents where the document frequencies of auto, best, car and insurance are respectively 5000, 50000, 10000 and 1000.

term query document product
  tf df idf tf wf  
auto 0 5000 2.3
math.log(1000000/5000, 10)
0
0 * 2.3
1 1 0.41 0
best 1 50000 1.3
math.log(1000000/50000, 10)
1.3
1 * 1.3
0 0 0 0
car 1 10000 2.0 2.0
1 * 2.0
1 1 0.41 0.82
insurance 1 1000 3.0 3.0
1 * 3.0
2 2 0.82 2.46

ref: http://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html

信息检索——向量空间模型(Vector Space Model)相关推荐

  1. 向量空间模型(Vector Space Model)的理解

    https://www.cnblogs.com/hapjin/p/8687527.html

  2. 自然语言处理(NLP)-1.3 向量空间模型(Vector Space Models)

    1.向量空间模型(Vector Space Models) 1.1 基本概念 定义:向量空间模型将单词或文本用向量表示,通过上下文来获取其语义信息 功能:识别两文本/两类文档间的相似度和独立性 例: ...

  3. 大数据入门10:向量空间模型(Vector Space Model)

    文章目录 向量空间模型(Vector Space Model) 0. 概述 1. TF(Term frequency ,TF) 2. IDF(Inverse document frequency,ID ...

  4. NLP --- 文本分类(向量空间模型(Vector Space Model)VSM)

    本节主要介绍文本分类中的一种算法即向量空间模型,这个算法很经典,包含文本预处理.特征选择.特征权值计算.分类算法.这是VSM的几个主要步骤,在宗老师的书里都有详细的讲解,这里也会进行深入的讲解,浅显易 ...

  5. 向量空间模型算法( Vector Space Model )

    概念介绍 向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功 地应用于文本检索系统. VSM概念简单,把对文本内容的处理简化为向量空间中的向量 ...

  6. [MCT01] 状态空间模型 State Space Model

    文章目录 1.1 状态变量 What is a State 1.2 空间状态表达式 State Space Representation 1.2.1 Python代码实现State Space Mod ...

  7. 向量与向量空间(vector space)

    在维基百科关于 向量空间 的介绍中,并未提及构成向量空间的「向量」的具体形态,即它未必是我们通常理解的3维或者 nn 维的实数空间,只是提及对加法和数乘封闭. 0. 向量的使用 向量:大小和方向: 方 ...

  8. 线性代数 --- 向量空间(vector space)与子空间(subspace)

     Part I --- 向量空间: 向量空间就是由包含n个分量的列向量所组成的Rn的空间,其中R表示实数.例如,R2就代表了一般的x-y平面,其中包含两个分量的向量表示坐标系中的一个点(x,y).同理 ...

  9. 向量空间模型简介及算法

    向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统.把对文本内容的处理简化为向量空间中的向量运算,并且它以 ...

最新文章

  1. MFC程序的框架理解
  2. python在线读-Python测试之道
  3. python做电脑软件-作为一个Python程序员,电脑上应该具备哪些软件?
  4. c#样条曲线命令_如何定制CAD功能区界面中的命令?
  5. linux指令popd,Linux切换目录pushd、popd、dirs命令
  6. Linux下的Cacti网络管理系统---安装(二)
  7. [jQuery] jQuery与jQuery UI有啥区别?
  8. java模块_Java 9 揭秘(2. 模块化系统)
  9. html 响应式布局 九宫格,两种方法实现响应式九宫格布局
  10. 东风科技php,东风科技(600081)违规记录_新浪财经_新浪网
  11. Leetcode 30.串联所有单词的子串
  12. [EntLib]UAB(Updater Application Block)下载
  13. simulink中嵌入m文件
  14. #python#生物信息学 提取文本某列信息 #提取氨基酸序列并且提取氨基酸结构序列与之对应
  15. idea下配置tomcat运行jpress
  16. OPC Server
  17. 英国几个有名的英语考试总结
  18. 微信号码开通状态检测
  19. android 全景拍照 sdk,Android全景SDK | 百度地图API SDK
  20. 苹果手机怎么设置录屏功能_苹果手机怎么录屏 苹果手机录屏功能开启/使用教程...

热门文章

  1. 基于WIN10的JAVA11环境配置
  2. win11打开移动热点显示“我们无法设置移动热点”
  3. 【matlab】数值积分公式的程序实现
  4. 如何在一台电脑上同时安装Windows和Linux双操作系统
  5. Agisoft Metashape 电力线检测
  6. java函数式编程好处_Java8的函数式编程怎么样?
  7. [iOS开发] 电子书下载链接
  8. php秒杀防重复中奖_PHP如何应对秒杀抢购高并发思路
  9. php防止sql注入代码
  10. 加入语聊房失败:804 processGeneralRESTResponseError