向量空间模型VSM及余弦计算

向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。

在向量空间模型中,文本泛指各种机器可读的记录。

用D(Document)表示文本,特征项(Term,用t表示)指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,要求满足1<=k<=N。

下面是向量空间模型(特指权值向量空间)的解释。

假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为

D(a,b,c,d)

对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即

D=D(T1,W1;T2,W2;…,Tn,Wn)

简记为

D=D(W1,W2,…,Wn)

我们把它叫做文本D的权值向量表示,其中Wk是Tk的权重,1<=k<=N。

在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为

D(30,20,20,10)

在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。

下面是利用模型进行余弦计算的示例。

在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。

假设文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为

D1(30,20,20,10,0)

C1的向量表示为

C1(40,0,30,20,10)

则根据上式计算出来的文本D1与类目C1相关度是0.86。

那么0.86具体是怎么推导出来的呢?

在数学当中,n维向量是

V{v1,v2,v3,...,vn}

模为

|v|=sqrt(v1*v1+v2*v2+…+vn*vn)

两个向量的点积

m*n=n1*m1+n2*m2+......+nn*mn

相似度

sim=(m*n)/(|m|*|n|)

它的物理意义就是两个向量的空间夹角的余弦数值。

下面是代入公式的过程:

d1*c1=30*40+20*0+20*30+10*20+0*10=2000

|d1|=sqrt(30*30+20*20+20*20+10*10+0*0)=sqrt(1800)

|c1|=sqrt(40*40+0*0+30*30+20*20+10*10)=sqrt(3000)

sim=d1*c1/(|d1|*|c1|)=2000/sqrt(1800*3000)=0.86066

完毕。

【转载】向量空间模型VSM及余弦计算相关推荐

  1. vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍

    C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...

  2. 向量空间模型(VSM)在文档相似度计算上的简单介绍

      向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...

  3. 向量空间模型(VSM)--用于计算文本相似度

    向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d):-:tn, ωn(d)),其中ti(i=1,2, -,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d ...

  4. 向量空间模型(VSM)的余弦定理公式(cos)

    相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑.. 因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图: ...

  5. 新手学信息检索4:向量空间模型与相似度计算

    相似度从字面上理解就是两个事物的相似程度.在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度. 首先回想一下检索过程: 1:首先用户输入查询词. 2:搜索引擎根据查询词查找相应 ...

  6. 向量空间模型 java_相似度计算举例-----空间向量模型

    2.1.1 相似度计算举例 下面我们考虑一个固定的查询和文档集,包含一个查询Q和三篇文档组成的文档集: Q:"gold silver truck" D1:"Shipmen ...

  7. 向量空间模型VSM—特征抽取算法—TF-IDF

    原文作者:lucky小东西 原文地址:基于tf-idf的小说主题特征抽取算​法 1.主题特征抽取做什么 在当前个性化推荐大行其道的时候,那就不得不提用户画像.用户画像的主要工作内容就是将用户标签化,对 ...

  8. 向量空间模型(VSM)与TF-IDF

    向量空间模型,可用于计算文本相似度. 首先我们希望将文章向量化.可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量. 但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档 ...

  9. spacevector=[] matlab,向量空间模型(vectorspacemodel)

    向量空间模型(vector space model) 向量空间模型概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量 ...

最新文章

  1. Web服务器记录中查找***踪迹
  2. 中国风力发电行业需求前景预测与投资战略规划分析报告2022-2028年版
  3. 中国科学院深圳先进技术研究院为Banana Pi团队提供活动场地
  4. php语言 电商网站,电商网站如何做多语言架构
  5. Web前端主要学什么?这些知识要掌握
  6. apache不能解析php文件_Web中间件漏洞之Apache篇
  7. Spring Boot Admin的使用
  8. 微型计算机惠普1hm20av,微型计算机原理及应用(答案).doc
  9. c#连接数据库SqlHelper报错
  10. Qemu-6.1.0多热补丁管理
  11. 读书笔记∣世界是数字的
  12. mimics软件怎么恢复原来默认的窗口设置
  13. web前端开发面试题(六)
  14. 怎样把IPv4转换成IPv6?
  15. MUI框架学习(2)-页面间传值
  16. 北京车展:长城、高合、现代、东风悦达起亚等知名车企展示行业最新产品和技术...
  17. Android 取消蓝牙消息通知流程分析(一)
  18. android sku 库存管理,建议收藏!为什么合理的SKU设置对有效库存管理与销售至关重要?...
  19. Word中批量更新域的两个小方法
  20. Access根据出生日期计算年龄_不好意思,Power Query里根据出生日期计算年龄有点儿繁琐!...

热门文章

  1. 计算机PPT03,南京大学计算机网络课件03.ppt
  2. 现代程序设计 (课程设计中, 征求意见稿)
  3. 2008 年 十大预测的总结 (只对了一半左右)
  4. linux nginx 安装stream,Centos7-64bit-编译安装配置Nginx stream四层负载均衡 动态加载
  5. mysql存储过程中as_mysql - 存储过程mySQL语法错误意外“ AS” - 堆栈内存溢出
  6. c语言 空格_C语言100题集合-ex003
  7. 用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?
  8. java ldap添加用户名密码_java ldap用户密码md5加密
  9. asp.net 将bmp格式图片怎么转换为jpg_Heic图片转换精灵-Heic图片高清转换JPG/PNG/BMP方法...
  10. kubectl apply -f_广州车展捷豹路虎参展阵容 全新F-PACE 路虎卫士90