欧几里德距离

欧几里德距离(Euclidean Distance)是机器学习中常见的相似度的计算方式。它被用来求两个向量间的距离,取值范围为0至正无穷。两个向量间的距离较小,两个向量越相似。欧几里德距离计算时默认对每一个维度给予相同的权重,如果某一维度较之其它维度而要取值范围差别很大,结果很容易被某个维度所决定。因此,可以使用加权欧几里德距离,给不同维度赋予不同权重。

欧几里德距离的计算公式如下,其中表示用户X对物品i的评价,表示用户Y对物品i的评价:

现有数据集如下:

critics={

冯小刚: {复仇者联盟: 4.3,哈利波特: 1.1},

张艺谋: {复仇者联盟: 1.8,哈利波特: 3.2},

}

欧几里德距离以用户共同评价的物品为坐标轴,将参与评价的用户共同绘制到图中,以此考察彼此远近的方式。将上述数据集映射到偏好空间中,如图1-1所示:

图1-1 二维向量空间的欧式距离表示

余弦距离

余弦距离,也称余弦相似度。它用向量空间中两个向量夹角的余弦值度量两个个体间差异的大小。余弦距离不关心向量的长度,只关心向量的夹角余弦值。余弦距离的应用场景为文本分类时计算两篇文本之间的距离。

余弦距离比皮尔逊相关系数更加严格。对于皮尔逊相关系数而言,即便两个向量之间有夹角,只要其同升同降,那么皮尔逊相关系数就是1,即距离为0。而对于余弦距离而言,其距离是他们之间的夹角余弦值。通俗来说,皮尔逊相关系数只跟向量间是否同升同降有关,而余弦距离除了跟向量间是否同升同降有关系外,还跟向量间升降的程度有关。

余弦距离的计算公式如下:

 

表2-1中所示用户a对物品X的评价为5分,Y的评价为4分,Z的评价为1分,R的评价为5分。用户b对物品X的评价为4分,Y的评价为3分,Z的评价为1分,R的评价为未评分。用户c对物品X的评价为2分,对物品Y的评价为2分,对物品Z的评价为5分,对物品R的评价为1分。如果计算用户a和用户b的余弦距离,可以将a表示为a=(5,4,1),b表示为b=(4,3,1)。

表2-1 用户-物品评价

用户/物品

X

Y

Z

R

a

5

4

1

5

b

4

3

1

?

c

2

2

5

1

皮尔逊相关系数

皮尔逊相关系数(Pearson Correlation)是衡量向量相似度的一种方式。输出范围为-1到+1,其中0代表无相关性,负值代表负相关,正值代表正相关。皮尔逊相关系数在欧几里德距离上做出了优化,对向量的值做了中心化处理,即对两个向量中的所有维度都减去元素的平均值,中心化后所有维度的平均值基本为0;然后对中心化结果求余弦距离,但余弦距离的计算要求每个向量中所有的值都必须非空,若两个向量v1=(3,2,4)、v2=(-1,2,null),则无法进行余弦距离计算的。皮尔逊相关系数把向量中所有null维度赋值为0,再对结果进行余弦计算。

皮尔逊相关系数的计算公式如下:

两个向量X、Y,计算出的皮尔逊相关系数含义做如下理解:

  1. 当相关系数为0时,X和Y两向量不相关
  2. 当X的值增大(减小),Y值减小(增大),X和Y两向量负相关,相关系数在-1.0到0.0之间。
  3. 当X的值增大(减小),Y值增大(减小),X和Y两向量正相关,相关系数在0.0到+1.0之间。

通常通过以下取值范围判断向量的相关程度:

  1. 0.8-1.0 极度相关
  2. 0.6-0.8 强相关
  3. 0.4-0.6 中等程度相关
  4. 0.2-0.4 弱相关
  5. 0.0-0.2 极弱相关或无相关

结论:皮尔逊相关系数既是欧几里德距离的升级,即它提供了对于变量取值范围不同的处理步骤,不同变量量纲上的差别在计算过程中去掉了;又是余弦相似度在维度值缺失情况下的一种改进。

皮尔逊相关系数(Pearson Correlation)相关推荐

  1. ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

    ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...

  2. ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略

    ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介.案例应用(与spearman相关系数对比及其代码实现)之详细攻略 目录 PCC/PPMCC皮尔 ...

  3. 皮尔逊相关系数 Pearson correlation coefficient

    在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coeff ...

  4. 计算相关系数 皮尔逊相关系数 Pearson、Spearman

    数据探索 计算相关系数 为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系统来进行相关分析. 在二元变量的相关分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系 ...

  5. Python--如何计算皮尔逊相关系数(Pearson correlation coefficient)

    皮尔逊系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation ...

  6. 机器学习笔记——皮尔逊相关系数

    在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,其实在统计学的时候就已经学过了,只是当时不知道还能用到机器学习中来,这更加让我觉得机器学习离不开统计学了. 皮尔逊相关 ...

  7. rust(25)-皮尔逊相关系数

    皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient ...

  8. 相似度计算(2)——皮尔逊相关系数

    皮尔逊相关系数 一.定义   皮尔逊相关系数( Pearson correlation coefficient,PC),又称皮尔逊积矩相关系数(Pearson product-moment corre ...

  9. python怎么计算相关系数_Python三种方法计算皮尔逊相关系数

    1.皮尔逊相关系数在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlat ...

  10. MATLAB学习笔记 皮尔逊相关系数和模板匹配

    一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correla ...

最新文章

  1. 栈溢出原理 小记 基础中的基础~~
  2. EasyTable.js,令html的table布局变得非常简单!
  3. 【JSON】JSON入门详解(二)
  4. LeetCode输入字符串,倒序输出---C语言
  5. 原型与继承学习笔记3
  6. 【POJ2007】Scrambled Polygon(点集逆时针排序--极角排序/凸包--只适用于凸多边形)
  7. JVM 核心技术 22 讲
  8. 智遥工作流为Sap报工时(实例)
  9. Classics Sentence Excerpt
  10. 阿里巴巴矢量图引入步骤
  11. 运维派 企业面试题2 创建10个 十个随机字母_test.html 文件
  12. angular cli + primeNG
  13. 使用JS-SDK自定义微信分享效果
  14. 浅谈Java反射的实现原理
  15. 碳基计算机电路,碳基CMOS集成电路技术
  16. 第三章微分中值定理与导数应用
  17. (转)如来是怎样从燃灯佛那里取得接班人资格的
  18. android 9华为p20,华为P20PRO升级EMUI9.0(安卓9.0)的一些感受
  19. 三相半波可控整流电路matlab仿真,三相桥式可控整流电路的MATLAB仿真
  20. 服务器硬盘UBAD,u盘启动盘中FBDISK(fixed bad disk)坏盘分区器使用教程

热门文章

  1. 离散分布——泊松分布、指数分布
  2. 【网络】路由器集成锐捷认证
  3. [opencv4]——fatal error: opencv2/opencv.hpp: No such file or directory #include <opencv2/opencv.hpp>
  4. 亚马逊商品详情API接口(item_get-获得AMAZON商品详情接口),亚马逊API接口
  5. MAC系统中安装labelme
  6. #10098. 「一本通 3.6 例 1」分离的路径
  7. 4个很 丝滑 的 Veu 路由过渡动效
  8. Excel知识技能汇总
  9. linux装回windows系统,装linux后怎样装回windows?(Linux系统清除Grub的几种方法)
  10. 计算机音频视频格式名,MP3/MP4播放器固件知识常见问题解决