相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑..

因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图:

但是,初中那条公式是只适用于直角三角形的,而在非直角三角形中,余弦定理的公式是:

cosA=(c2 + b2 - a2)/2bc

不过这条公式也和向量空间模型中的余弦定理公式不沾边,迷惑..

引用吴军老师的数学之美系列的余弦定理和新闻的分类里面的一段:

-------------------引用开始分界线------------------------

假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦

如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

其中分母表示两个向量 b 和 c

的长度,分子表示两个向量的内积。

举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是x1,x2,...,x64000

和y1,y2,...,y64000,

那么它们夹角的余弦等于

-------------------引用完毕分界线------------------------

高中那条公式又怎么会等价于向量那条公式呢?

原来它从高中的平面几何跳跃到大学的线性代数的向量计算..

关于线性代数中的向量和向量空间,可以参考下面两个页面:

在线性代数的向量计算的余弦定理中,

* 分子是两个向量的点积(wiki),点积的定理和计算公式:

The dot product of two vectors a =

[a1,

a2, … ,

an] and

b = [b1,

b2, … ,

bn] is defined

as:

点积(dot product),又叫内积,数量积..(Clotho注:

product常见的是产品的意思,但在数学上是乘积的意思.)

* 分母是两个向量的长度相乘.这里的向量长度的计算公式也比较难理解.

假设是二维向量或者三维向量,可以抽象地理解为在直角坐标轴中的有向线段,如图:

d2

= x2 + y2 -> d =

sprt(x2 + y2)

d2

= x2 + y2 + z2

->  d =

sprt(x2 + y2 + z2)

三维以上的维度很难用图来表示,但是再多维度的向量,也仍然可以用这条公式来计算:

dn2 = x12 + x22 + .. + xn2  -> dn = sprt(x12 + x22 + .. + xn2)

在文本相似度计算中,向量中的维度x1,x2..xn其实就是词项(term)的权重,一般就是词项的tf-idf值.

而这条看上去很抽象的公式,其实就是为了计算两篇文章的相似度.

文本相似度计算的处理流程是:

1.对所有文章进行分词

2.分词的同时计算各个词的tf值

3.所有文章分词完毕后计算idf值

4.生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的tf-idf值)

5.对文章的向量两篇两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。

余弦定理是常见的相似度衡量方法之一,见博文“机器学习中的相似性度量 (多种几何距离定义)”

7.

夹角余弦(Cosine)

有没有搞错,又不是学几何,怎么扯到夹角余弦了?各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(2)

两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

即:

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

例如 在TF-IDF上的应用,见博文“tf-idf”

在向量空间模型里的应用

TF-IDF权重计算方法经常会和余弦相似度(cosine

similarity)一同使用於向量空间模型中,用以判断两份文件之间的相似性。

向量的夹角余弦公式_向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)...相关推荐

  1. 向量的夹角余弦公式_文本相似度 之余弦夹角 度量算法

    相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大. 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何 ...

  2. 向量的夹角余弦公式_两个向量的夹角的余弦值怎么求过程!! – 手机爱问

    2006-04-02 急急急急!!! 求向量2a+3b与向量3a-b的夹角的余弦值 只要把两个(2a+3b)和(3a-b)相乘,再除以它们模的积就OK了 具体如下: cosθ=(2a+3b)·(3a- ...

  3. 【转载】向量空间模型VSM及余弦计算

    向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示. 这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的 ...

  4. 向量空间模型(VSM)--用于计算文本相似度

    向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d):-:tn, ωn(d)),其中ti(i=1,2, -,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d ...

  5. vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍

    C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...

  6. 向量空间模型(VSM)在文档相似度计算上的简单介绍

      向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...

  7. 向量空间模型(VSM)的余弦定理公式(cos)

    相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑.. 因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图: ...

  8. 向量的方向余弦公式_定位中方向余弦矩阵(DCM)简介

    1   前言 这篇文章是翻译Starlino_DCM_Tutorial.pdf而来, 链接为:http://www.starlino.com/dcm_tutorial.html 这篇文章主要是介绍无人 ...

  9. 向量空间模型VSM—特征抽取算法—TF-IDF

    原文作者:lucky小东西 原文地址:基于tf-idf的小说主题特征抽取算​法 1.主题特征抽取做什么 在当前个性化推荐大行其道的时候,那就不得不提用户画像.用户画像的主要工作内容就是将用户标签化,对 ...

最新文章

  1. 想学图像分割,强烈建议从这5篇图像分割算法综述
  2. 花了我一个晚上浓缩了一整套阿里资深技术专家设计教程整理出的java架构设计方法
  3. vue transition动画
  4. 第六章 贪心 【完结】
  5. JavaScript 温故知新 00
  6. 启动Nginx 出现 nginx: [emerg] unknown directive 锘?user 错误
  7. Channel使用技巧
  8. postgresql存图片字段类型_PostgreSQL 入门
  9. 九型人格,工作中的好帮手.
  10. 广州大学锐捷认证协议安全性研究
  11. java long精度问题_解决Long类型超过16位丢失精度问题的两种方法
  12. html5页面蒙版原理,js如何实现蒙版效果
  13. VC中GDI绘图技术基础知识:hdc设备环境句柄,坐标系
  14. c语言 教学大纲,C语言教学大纲 ).doc
  15. 推荐低保真原型设计软件 Balsamiq Mockup
  16. 变压器直流电阻测试仪RS485串口数据采集接入数据库及MESERP系统方案
  17. 怎么解决缺少java.doc_阿里代码规范检测中方法缺少javadoc注释怎么办
  18. 芋道 Spring Boot 安全框架 Spring Security 入门
  19. 移动通信原理,第一章相关习题
  20. 能效最大化准则下的星地融合网络的安全波束成形算法

热门文章

  1. 扫码支付 (基于微信)
  2. MacW编辑部的电脑都装了哪些苹果应用?
  3. 使用Hutool工具完成发(带模板)邮件功能
  4. 爱宝A-1180热转印条码打印机 打印乱码,对不齐的问题
  5. 对camera的计划
  6. 用API网关把API管起来
  7. MySQL主从复制和读写分离
  8. python交易是什么意思_Py交易是什么意思?Py交易是什么梗?
  9. php vip卡,vip.php
  10. 指纹测试天赋测试软件,指纹也能测天赋 10分钟出结果(图)