机器学习中的度量——协方差、相关系数(Pearson 相关系数)
一、相关系数第一次理解
概念:Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。[1]
注:
【定距变量】[2][3]
若想理解定距变量,需要与其他变量类型进行比对。
统计学依据数据的计量尺度将数据划分为四大类 ,即定距型数据、定序型数据、定类型数据和定比型数据。
定距型数据是数字型变量,可以求加减平均值等,但不存在基准0值,即当变量值为0时不是表示没有,如温度变量,当温度为0时,并不是表示没有温度,这样温度就为定距变量,而不是定比变量。
定序型数据具有内在固有大小或高低顺序,如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示。有大小或高低顺序,但数据之间却是不等距的,因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的,因此可以排序,但不能加减。
定类型数据是指没有内在固定大小或高低顺序,如性别男和女;
定比型变量就是常说的数值变量,既有测量单位,也有绝对零点。例如职工人数,身高。
线性关系
【线性关系】[4]
两个变量之间存在一次方函数关系,就称它们之间存在线性关系。正比例关系是线性关系中的特例,反比例关系不是线性关系。更通俗一点讲,如果把这两个变量分别作为点的横坐标与纵坐标,其图象是平面上的一条直线,则这两个变量之间的关系就是线性关系。即如果可以用一个二元一次方程来表达两个变量之间关系的话,这两个变量之间的关系称为线性关系。
线性关系的显著特征是图像为过原点的直线(没有常数项的情况下,如:y=kx+jz,(k,j为常数,x,z为变量);而当图像为不过原点的直线时,函数称为直线关系。线性关系与直线关系是不同的,经常被大家混淆。
线性关系的函数具备如下特点:
(1)每一项(常数项除外)的次数必须是一次的(这是最重要的)。如:x=y+z+c+v+b。如果出现平方,这些就肯定不是线性关系。
如果每项的次数不是一次就不是线性关系:x=yz(这里假定y,z是变量而不是常数),那么x与y,或x与z就不是线性关系。
(2)常数对是否构成直线关系没影响(假定常数不为0)如:x=ky+l*z+a。
用途:[5] pearson系数用来描述两组线性的数据一同变化移动的趋势。
公式:[5]
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。
X、Y线性相关时,两个变量的协方差等于两个变量各自标准差的乘积,此时皮尔森相关系数为1。
公式理解:
值域:[-1,1]
使用情况:
Pearson相关系数常用于基于用户的推荐系统,比其他对比用户的方法更胜一筹。(相对的,在基于物品的推荐系统中,常使用余弦相似度方法。)[6]
由于pearson描述的是两组数据变化移动的趋势,所以在基于user-based的协同过滤系统中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则pearson系数趋近于1,也就是我们认为相似的用户。[5]
缺陷:笔者尚未理解明白,所以只粘贴原文了。
(1)存在一些所有人都喜爱的物品,让两个用户对有争议的物品达成共识会比对广受欢迎的物品达成共识更有价值,但Pearson这样的相似度方法无法将这种情况考虑在内。[6] Page10
(2)某博主关于重叠项的思考。 [5]
该部分如有了解的朋友,还请留下指点,不胜感谢。
皮尔森系数与修正余弦相似度的区别:[8]
两者在公式形式上极其相似,所以需要进行对比区分。
由于没有实际应用过,尚且没有明白透彻,所以此处只提几点表面上的理解。
两者计算的形式很类似,但是有具体的细节差别,在分母和分子上都有体现。归纳起来:差别就在去中心化的方式上。
修正余弦公式和皮尔森相关系数公式都是针对item-based CF计算item-item之间相似性的,所以修正余弦公式减去了用户的打分均值,皮尔森相关系数公式减去了item得分均值。(换句话说,修正cosine考虑的是对item i打过分的每个user u,其打分的均值,Pearson考虑的是每个item i 的被打分的均值。)
两者为什么要去中心化呢?(两种方式减去均值)
(1)修正cosine相似度的目的是解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,所以在计算相似度的时候,做了每个维度减去均值的修正操作。
(2)Pearson correlation 相关系数主要考虑线性相关性,定义为两个变量之间的协方差和标准差的商,所以自然的考虑了均值的修正操作。
简便记忆方法
可以看出,公式比较长,可以使用点积进行记忆。公式形式上简单后,也更便于理解。
各种相似度与点积关系的推演:
cosine相似度,其实就是归一化后的点积结果,
Pearson相关系数是去中心化&归一化的点积结果
修正cosine相似度,也是去中心化&归一化的点积结果,与Pearson的差别就在于去中心化的差异(上面描述的)
公式参考如下:
点积:
cosine相似度:
Pearson相关系数:
##参考文献
[1] Pearson相关系数_百度百科
[2] 定距变量_百度百科
[3] 举例说明定类数据,定序数据,定距数据和定比数据的区别_百度知道
[4] 线性关系_百度百科
[5] Pearson 相关系数–最佳理解及相关应用-CSDN博客
[6] 《推荐系统 》书籍 Dietmar Jannach, Markus Zanker etc 蒋帆译
[7] 皮尔森相关系数及原理_smilingflowers
[8] 修正余弦相似度和皮尔森系数什么关系?- 知乎
“度量”主要由两种,分别为距离、相似度和相关系数,距离的研究主体一般是线性空间中点;而相似度研究主体是线性空间中向量;相关系数研究主体主要是分布数据。本文主要介绍相关系数。
1 皮尔逊相关系数——常用的相关系数
机在统计学中,皮尔逊相关系数(earson correlation coefficient)用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。
对于总体(由许多有某种共同性质的事物组成的集合),给定随机变量(X, y),总体皮尔逊相关系数的定义为
ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY
机其中cov(X,Y)是随机变量X和随机变量Y之间的协方差
机σx是随机变量X的方差
机σy是随机变量Y的方差
机μx是随机变量X的均值
机μy是随机变量Y的均值
机对于同样本来说,给定样本对{(x1, y1), (x2,y2), …, (xn, yn)} ,样本皮尔逊相关系数的定义为
rx,y=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2−−−−−−−−−−√∑i=1n(yi−y¯)2−−−−−−−−−−√=n∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nx2i−(∑i=1nxi)2−−−−−−−−−−−−−−−√n∑i=1ny2i−(∑i=1nyi)2−−−−−−−−−−−−−−−√
机其中n是样本数量
机Xi, yi是第i个独立的样本数据
机x是所有xi的均值
机y是所有yi的均值
机器学习中的度量——协方差、相关系数(Pearson 相关系数)相关推荐
- 机器学习中的度量——相关系数
机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量" ...
- 方差、标准差、协方差和Pearson相关系数及其间的关系
方差.协方差和Pearson相关系数在机器学习的理论概念中经常出现,本文主要理一下这几个概念及其相互间的关系. (一)方差: 方差是每个样本值与全体样本值的平均数之差的平方值的平均数,公式如下: 上式 ...
- 机器学习中的度量—— 向量距离
机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量" ...
- 机器学习中的度量——字符串距离
机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量" ...
- 机器学习中的度量指标:ROC曲线,AUC值,K-S曲线
机器学习中的度量指标:ROC曲线,AUC值,K-S曲线 首先,回顾一下二分类问题的一些定义: 预测 1 0 实 1 TP FN 际 0 FP TN 上表中,四个项分别为:TP真阳性:FN假阴性:FP ...
- 【迁移学习(Transfer L)全面指南】方差、协方差和Pearson相关系数的关系
方差用于反应数据的离散程度,期望用于反应数据的聚合情况. 协方差用于反映两个维度之间的数据偏离期望值的相关性,若同时偏离,即为正相关,数据上现象为:(某维度偏离点-均值)*(另一维度-均值)>0 ...
- Pearson 相关系数--最佳理解及相关应用
一 Pearson 相关系数介绍 pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势. 当两个变量的线性关系增强时,相关系数趋于1或-1: 当一个变量增大 ...
- [学习笔记] [机器学习] 8. 聚类算法(聚类算法:K-means、K-means++;聚类算法评估;特征降维:特征选择(Pearson相关系数、Spearman相关系数)、PCA主成分分析)
视频链接 数据集下载地址:无需下载 1. 聚类算法简介 学习目标: 掌握聚类算法实现过程 知道 K-means 算法原理 知道聚类算法中的评估模型 说明 K-means 的优缺点 了解聚类中的算法优化 ...
- 数据分析中Pearson相关系数
[小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] 数据分析中 Pearson相关系数 选择题 对于以下python代码表述错误的一项是? im ...
最新文章
- 封装运动框架多个属性
- Python Mixin技术介绍
- c语言十六进制转换加H,c语言十六进制和十进制间的转换.docx
- Win10 Explorer v1.3 有趣创意WordPress主题
- 安裝linux後的內核調優
- [复习计划]IMS5024
- 52. N皇后 II
- btsync 分享资源
- 神经网络与机器学习导言笔记——网络结构与知识表示
- 华为项目CMO(CIE)的经历,对软件工程敏捷开发的实践
- 【读书笔记】《早起的奇迹》
- CAD查找属性快文字
- 思科模拟器配置默认路由(下一跳使用端口)
- LoadBalancer负载均衡
- Java云同桌学习系列(二十二)——mongoDB数据库
- 巴比特 | 元宇宙每日必读:多路径试水却并未摸清元宇宙的轮廓,互联网大厂对元宇宙的布局仍处于“盲人摸象”的阶段?...
- python去除字符串中表情字符
- kotlin Anko的实际用法
- STM32F103系列芯片的地址和寄存器映射原理、LED轮流闪烁实现
- pstree命令使用