皮尔逊相关系数(Pearson Correlation)
一、欧几里德距离
欧几里德距离(Euclidean Distance)是机器学习中常见的相似度的计算方式。它被用来求两个向量间的距离,取值范围为0至正无穷。两个向量间的距离较小,两个向量越相似。欧几里德距离计算时默认对每一个维度给予相同的权重,如果某一维度较之其它维度而要取值范围差别很大,结果很容易被某个维度所决定。因此,可以使用加权欧几里德距离,给不同维度赋予不同权重。
欧几里德距离的计算公式如下,其中表示用户X对物品i的评价,表示用户Y对物品i的评价:
现有数据集如下:
critics={
冯小刚: {复仇者联盟: 4.3,哈利波特: 1.1},
张艺谋: {复仇者联盟: 1.8,哈利波特: 3.2},
}
欧几里德距离以用户共同评价的物品为坐标轴,将参与评价的用户共同绘制到图中,以此考察彼此远近的方式。将上述数据集映射到偏好空间中,如图1-1所示:
二、余弦距离
余弦距离,也称余弦相似度。它用向量空间中两个向量夹角的余弦值度量两个个体间差异的大小。余弦距离不关心向量的长度,只关心向量的夹角余弦值。余弦距离的应用场景为文本分类时计算两篇文本之间的距离。
余弦距离比皮尔逊相关系数更加严格。对于皮尔逊相关系数而言,即便两个向量之间有夹角,只要其同升同降,那么皮尔逊相关系数就是1,即距离为0。而对于余弦距离而言,其距离是他们之间的夹角余弦值。通俗来说,皮尔逊相关系数只跟向量间是否同升同降有关,而余弦距离除了跟向量间是否同升同降有关系外,还跟向量间升降的程度有关。
余弦距离的计算公式如下:
表2-1中所示用户a对物品X的评价为5分,Y的评价为4分,Z的评价为1分,R的评价为5分。用户b对物品X的评价为4分,Y的评价为3分,Z的评价为1分,R的评价为未评分。用户c对物品X的评价为2分,对物品Y的评价为2分,对物品Z的评价为5分,对物品R的评价为1分。如果计算用户a和用户b的余弦距离,可以将a表示为a=(5,4,1),b表示为b=(4,3,1)。
用户/物品 |
X |
Y |
Z |
R |
a |
5 |
4 |
1 |
5 |
b |
4 |
3 |
1 |
? |
c |
2 |
2 |
5 |
1 |
三、皮尔逊相关系数
皮尔逊相关系数(Pearson Correlation)是衡量向量相似度的一种方式。输出范围为-1到+1,其中0代表无相关性,负值代表负相关,正值代表正相关。皮尔逊相关系数在欧几里德距离上做出了优化,对向量的值做了中心化处理,即对两个向量中的所有维度都减去元素的平均值,中心化后所有维度的平均值基本为0;然后对中心化结果求余弦距离,但余弦距离的计算要求每个向量中所有的值都必须非空,若两个向量v1=(3,2,4)、v2=(-1,2,null),则无法进行余弦距离计算的。皮尔逊相关系数把向量中所有null维度赋值为0,再对结果进行余弦计算。
皮尔逊相关系数的计算公式如下:
两个向量X、Y,计算出的皮尔逊相关系数含义做如下理解:
- 当相关系数为0时,X和Y两向量不相关
- 当X的值增大(减小),Y值减小(增大),X和Y两向量负相关,相关系数在-1.0到0.0之间。
- 当X的值增大(减小),Y值增大(减小),X和Y两向量正相关,相关系数在0.0到+1.0之间。
通常通过以下取值范围判断向量的相关程度:
- 0.8-1.0 极度相关
- 0.6-0.8 强相关
- 0.4-0.6 中等程度相关
- 0.2-0.4 弱相关
- 0.0-0.2 极弱相关或无相关
结论:皮尔逊相关系数既是欧几里德距离的升级,即它提供了对于变量取值范围不同的处理步骤,不同变量量纲上的差别在计算过程中去掉了;又是余弦相似度在维度值缺失情况下的一种改进。
皮尔逊相关系数(Pearson Correlation)相关推荐
- ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略
ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...
- ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略
ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介.案例应用(与spearman相关系数对比及其代码实现)之详细攻略 目录 PCC/PPMCC皮尔 ...
- 皮尔逊相关系数 Pearson correlation coefficient
在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coeff ...
- 计算相关系数 皮尔逊相关系数 Pearson、Spearman
数据探索 计算相关系数 为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系统来进行相关分析. 在二元变量的相关分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系 ...
- Python--如何计算皮尔逊相关系数(Pearson correlation coefficient)
皮尔逊系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation ...
- 机器学习笔记——皮尔逊相关系数
在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,其实在统计学的时候就已经学过了,只是当时不知道还能用到机器学习中来,这更加让我觉得机器学习离不开统计学了. 皮尔逊相关 ...
- rust(25)-皮尔逊相关系数
皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient ...
- 相似度计算(2)——皮尔逊相关系数
皮尔逊相关系数 一.定义 皮尔逊相关系数( Pearson correlation coefficient,PC),又称皮尔逊积矩相关系数(Pearson product-moment corre ...
- python怎么计算相关系数_Python三种方法计算皮尔逊相关系数
1.皮尔逊相关系数在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlat ...
- MATLAB学习笔记 皮尔逊相关系数和模板匹配
一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correla ...
最新文章
- 栈溢出原理 小记 基础中的基础~~
- EasyTable.js,令html的table布局变得非常简单!
- 【JSON】JSON入门详解(二)
- LeetCode输入字符串,倒序输出---C语言
- 原型与继承学习笔记3
- 【POJ2007】Scrambled Polygon(点集逆时针排序--极角排序/凸包--只适用于凸多边形)
- JVM 核心技术 22 讲
- 智遥工作流为Sap报工时(实例)
- Classics Sentence Excerpt
- 阿里巴巴矢量图引入步骤
- 运维派 企业面试题2 创建10个 十个随机字母_test.html 文件
- angular cli + primeNG
- 使用JS-SDK自定义微信分享效果
- 浅谈Java反射的实现原理
- 碳基计算机电路,碳基CMOS集成电路技术
- 第三章微分中值定理与导数应用
- (转)如来是怎样从燃灯佛那里取得接班人资格的
- android 9华为p20,华为P20PRO升级EMUI9.0(安卓9.0)的一些感受
- 三相半波可控整流电路matlab仿真,三相桥式可控整流电路的MATLAB仿真
- 服务器硬盘UBAD,u盘启动盘中FBDISK(fixed bad disk)坏盘分区器使用教程
热门文章
- 离散分布——泊松分布、指数分布
- 【网络】路由器集成锐捷认证
- [opencv4]——fatal error: opencv2/opencv.hpp: No such file or directory #include <opencv2/opencv.hpp>
- 亚马逊商品详情API接口(item_get-获得AMAZON商品详情接口),亚马逊API接口
- MAC系统中安装labelme
- #10098. 「一本通 3.6 例 1」分离的路径
- 4个很 丝滑 的 Veu 路由过渡动效
- Excel知识技能汇总
- linux装回windows系统,装linux后怎样装回windows?(Linux系统清除Grub的几种方法)
- 计算机音频视频格式名,MP3/MP4播放器固件知识常见问题解决