VSM概念介绍
VSM概念简单来说,就是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间
的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

下面首先给出VSM涉及的一些基本概念。

文档(document):通常是文章中具有一定规模的片段,如句子、句群、段落、段落组直至整篇文章。
项/特征项(term/feature term):特征项是VSM中最小的不可分的语言单元,可以是字、词、词组或短语等。一个文档的内容被看成是它含有的特征项所组成的集合,表示为:,其中是特征项 0≤K≤1。
项的权重(term weight):对于含有个特征项的文档,每一特征项都依据一定的原则被赋予一个权重,表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示:,简记为,其中就是特征项的权重0≤K≤1。

算法原理

1. 计算权重(Term weight)的过程。
影响一个词(Term)在一篇文档中的重要性主要有两个因素:
Term Frequency (tf):即此Term在此文档中出现了多少次。tf 越大说明越重要。
Document Frequency (df):即有多少文档包含次Term。df 越大说明越不重要。
词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要,如“搜索”这个词,在
本文档中出现的次数很多,说明本文档主要就是讲这方面的事的。然而在一篇英语文档中,
this出现的次数更多,就说明越重要吗?不是的,这是由第二个因素进行调整,第二个因素说明,有越多的文档包含此词(Term), 说明此词(Term)太普通,不足以区分这些文档,因而重要
性越低。
我们来看一下模型公式:

这仅仅只term weight计算公式的简单典型实现。实现全文检索系统的人会有自己的实现,
Lucene就与此稍有不同。
2. 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)。
我们把文档看作一系列词(Term),每一个词(Term)都有一个权重(Term weight),不同的词
(Term)根据自己在文档中的权重来影响文档相关性的打分计算。
于是我们把所有此文档中词(Term)的权重(Term weight) 看作一个向量。
Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}
同样我们把查询语句看作一个简单的文档,也用向量来表示。
Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2, …… , weight N}
我们把所有搜索出的文档向量及查询向量放到一个N维空间中,每个词(term)是一维。

如图:

我们认为两个向量之间的夹角越小,相关性越大。
所以我们计算夹角的余弦值作为相关性的打分,夹角越小,余弦值越大,打分越高,相关性越
大。
相关性打分公式如下:

举个例子,查询语句有11个Term,共有三篇文档搜索出来。其中各自的权重(Term weight),
如下表格。

 
于是计算,三篇文档同查询语句的相关性打分分别为:

于是文档二相关性最高,先返回,其次是文档三,最后是文档一。
到此为止,我们可以找到我们最想要的文档了。

参考文章:向量空间模型算法( Vector Space Model )_摸鱼大侠的博客-CSDN博客_向量空间模型

向量空间模型原理(VSM)相关推荐

  1. 经典检索模型——向量空间模型(VSM)的简单理解

    笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享. 向量空间模型(VSM) 向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型. ...

  2. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  3. 向量的夹角余弦公式_向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)...

    相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑.. 因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图: ...

  4. 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

    参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html 在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断. 1.  向量空间模 ...

  5. 向量空间模型(VSM)与TF-IDF

    向量空间模型,可用于计算文本相似度. 首先我们希望将文章向量化.可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量. 但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档 ...

  6. 向量空间模型(VSM)算法

    (转载他人 以备自己查阅) 在该方法中,我们把一篇文章抽象成一个向量. 假设向量由n个词组成,每个词的权重是kn.假设文章D是你喜欢的文章,那么     文章 D=(k1,k2,k3,k4,k5... ...

  7. 向量空间模型(VSM)在文档相似度计算上的简单介绍

      向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...

  8. vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍

    C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...

  9. NLP --- 文本分类(向量空间模型(Vector Space Model)VSM)

    本节主要介绍文本分类中的一种算法即向量空间模型,这个算法很经典,包含文本预处理.特征选择.特征权值计算.分类算法.这是VSM的几个主要步骤,在宗老师的书里都有详细的讲解,这里也会进行深入的讲解,浅显易 ...

最新文章

  1. 2011年8月51CTO壁纸点评活动获奖名单【已结束】
  2. android:sharedUserId作用
  3. oracle递归用法
  4. volatile关键字有什么用
  5. 将 Palo Alto Networks 连接到 Azure Sentinel
  6. 申请实习生,你准备好了吗?
  7. 事务未提交导致记录被锁的解决方法
  8. 5月20日,GaussDB将有大事发生
  9. 小白设计模式:责任链模式
  10. P2 人体姿态估计的过去、现在和未来
  11. 我的世界java骷髅马_我的世界:骷髅马材质更新,老MC教你获得骷髅马技巧,萌新:真好...
  12. BERT4GCN:利用BERT中间层特征增强GCN进行基于方面的情感分类
  13. 阿里云云服务器 ECS基础知识
  14. 亚马逊入驻商用户画像分析
  15. 图像测量技术:面积测量
  16. [YOLO专题-11]:YOLO V5 - ultralytics/train基于自定义图片数据集重新训练网络, 完成自己的目标检测
  17. 【POJ】1819.Disks
  18. 数字人民币解决中小企收付难点
  19. 南加大计算机游戏专业,南加州大学游戏设计项目有哪些课程?
  20. 一文读懂微信身份证和背后的技术

热门文章

  1. including用法
  2. QT - 创建UDP Socket通信
  3. [原]Wap push over sms 实践
  4. 解决iOS下拉回弹方法二
  5. Java 压缩/混淆 JavaScript 代码
  6. matlab中使用simulink标准化输出图片
  7. 系统监控——prometheus(普罗米修斯)的部署
  8. 从零开始学架构——异地多活架构
  9. LDK3读书笔记(第一章:LINUX内核简史)
  10. 跳台阶算法的三种实现方案(PHP)