相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑..

因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图:

但是,初中那条公式是只适用于直角三角形的,而在非直角三角形中,余弦定理的公式是:

cosA=(c2 + b2 - a2)/2bc

不过这条公式也和向量空间模型中的余弦定理公式不沾边,迷惑..

引用吴军老师的数学之美系列的余弦定理和新闻的分类里面的一段:

-------------------引用开始分界线------------------------

假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦

如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。

举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是x1,x2,...,x64000 和y1,y2,...,y64000,

那么它们夹角的余弦等于

-------------------引用完毕分界线------------------------

高中那条公式又怎么会等价于向量那条公式呢?

原来它从高中的平面几何跳跃到大学的线性代数的向量计算..

关于线性代数中的向量和向量空间,可以参考下面两个页面:

Egwald Mathematics: Linear Algebra

Linear Algebra: Direction Cosines

在线性代数的向量计算的余弦定理中,

* 分子是两个向量的点积(wiki),点积的定理和计算公式:

The dot product of two vectors a = [a1, a2, … , an] and b = [b1, b2, … , bn] is defined as:

点积(dot product),又叫内积,数量积..(Clotho注: product常见的是产品的意思,但在数学上是乘积的意思.)

* 分母是两个向量的长度相乘.这里的向量长度的计算公式也比较难理解.

假设是二维向量或者三维向量,可以抽象地理解为在直角坐标轴中的有向线段,如图:

d2 = x2 + y2   ->   d = sprt(x2 + y2)

d2 = x2 + y2 + z2   ->   d = sprt(x2 + y2 + z2)

三维以上的维度很难用图来表示,但是再多维度的向量,也仍然可以用这条公式来计算:

dn2 = x12 + x22 + .. + xn2   ->   dn = sprt(x12 + x22 + .. + xn2)

在文本相似度计算中,向量中的维度x1,x2..xn其实就是词项(term)的权重,一般就是词项的tf-idf值.

而这条看上去很抽象的公式,其实就是为了计算两篇文章的相似度.

文本相似度计算的处理流程是:

1.对所有文章进行分词

2.分词的同时计算各个词的tf值

3.所有文章分词完毕后计算idf值

4.生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的tf-idf值)

5.对文章的向量两篇两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了

转载于:https://www.cnblogs.com/live41/archive/2009/12/30/1635786.html

向量空间模型(VSM)的余弦定理公式(cos)相关推荐

  1. 【转载】向量空间模型VSM及余弦计算

    向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示. 这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的 ...

  2. vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍

    C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...

  3. 向量空间模型(VSM)在文档相似度计算上的简单介绍

      向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...

  4. 向量空间模型(VSM)--用于计算文本相似度

    向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d):-:tn, ωn(d)),其中ti(i=1,2, -,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d ...

  5. 向量空间模型VSM—特征抽取算法—TF-IDF

    原文作者:lucky小东西 原文地址:基于tf-idf的小说主题特征抽取算​法 1.主题特征抽取做什么 在当前个性化推荐大行其道的时候,那就不得不提用户画像.用户画像的主要工作内容就是将用户标签化,对 ...

  6. 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

    参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html 在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断. 1.  向量空间模 ...

  7. 向量的夹角余弦公式_向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)...

    相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑.. 因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图: ...

  8. 大数据入门10:向量空间模型(Vector Space Model)

    文章目录 向量空间模型(Vector Space Model) 0. 概述 1. TF(Term frequency ,TF) 2. IDF(Inverse document frequency,ID ...

  9. spacevector=[] matlab,向量空间模型(vectorspacemodel)

    向量空间模型(vector space model) 向量空间模型概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量 ...

最新文章

  1. 【数据库】MySQL的C语言接口学习
  2. 未来人们获取收入的几个途径
  3. 七、linux驱动注册
  4. Java面试题:在一个递增的数组里面,找出任意两个数的和等于100,编写程序输出这些数对,可以假设数组中不存在重复元素
  5. C#中dynamic的正确用法 以及 typeof(DynamicSample).GetMethod(Add);
  6. Mysql日期差函数,Mysql选择两个日期字段相差大于或小于一定时间
  7. HTML加固5——汇总
  8. 富士通大数据架构解决方案闪耀存储峰会
  9. 记忆碎片---搭建php+apache+eclipse中的问题
  10. RaiDrive通过WebDAV挂载阿里云盘
  11. GJB 150.10军用设备环境试验方法霉菌试验
  12. linux内核 print,自定义linux内核调试print
  13. 全国海选第四期:北京和海外赛区(视频)
  14. 适合手机页面微信页面pc页面用的幻灯片
  15. openmv底层算法剖析---梦飞openmv前传
  16. 山石防火墙命令查看配置_Hillstone常用配置命令整理
  17. RHCA-RH436 V1.1.12-PCS集群
  18. 错误 C4996 ‘stricmp‘: The POSIX name for this item is deprecated. Instead,use the ISO C and C++解决方案
  19. 《区块链革命》读书笔记3 新商业模式:在区块链上寻找新机会
  20. 苹果六电池_2340mAh!让iPhone 7重获新生,华严苛大容量手机电池评测

热门文章

  1. #边学边记 必修5 高项:对人管理 第2章 项目沟通管理和干系人管理 2-1 沟通的基本概念
  2. 孩子说“妈妈,我好害怕,这位妈妈的做法刷爆朋友圈
  3. 收藏 | 30张经典的企业业务架构图
  4. Karplus-Strong 算法合成音符
  5. 使用cf_nise_installer安装CloudFoundry出现not monitored问题
  6. 入门图像处理与图像识别的知识框架
  7. 百度地图坐标拾取系统html,请问百度地图拾取坐标系统中的这个效果是怎么实现的?...
  8. WiFi Direct详解(p2p使能,扫描,连接流程)基于Android8.1.0
  9. linux下PHP安装gd库
  10. 三菱FX系列源码,C#上位机FX系列源码,串口485.232通讯