目录

1. 什么是秩相关系数?

2. 单调性,monotonicity

3. 斯皮尔曼秩相关系数

4. 什么时候使用斯皮尔曼秩相关系数呢?

5. 斯皮尔曼秩相关系数计算公式

6. 斯皮尔曼秩相关系数计算例

6.1 手动计算

6.2 scipy函数

6.3 pandas corr()

6.4 简易计算公式能够体现负相关系数?


1. 什么是秩相关系数?

        秩相关系数(Coefficient of Rank Correlation),又称等级相关系数,反映的是两个随机变量的的变化趋势方向和强度之间的关联,是将两个随机变量的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。它是反映等级相关程度的统计分析指标,常用的等级相关分析方法有Spearman相关系数和Kendall秩相关系数等。主要用于数据分析。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。关于皮尔逊相关系数介绍和计算示例请参考:皮尔逊相关(Pearson correlation)系数概述及其计算例https://chenxiaoyuan.blog.csdn.net/article/details/121576303

另一种秩相关系数是肯德尔相关系数,可以参考:

肯德尔(Kendall)相关系数概述及计算例https://chenxiaoyuan.blog.csdn.net/article/details/126919019

这里的秩是啥意思呢?我第一次看到这个词的时候第一感是它跟矩阵的秩(Rank)有啥关系,没有关系。这里是秩序的秩,或者说排名、顺序、等级的意思(写成ranked或者ranking的话就不容易误解了)。

考虑两个随机变量X和Y,如果秩相关系数为正,则Y 随着X的增加而增加;如果秩相关系数为负,则Y随着X的增加而减小;如果秩相关系数为0,则表示随着Y的增减变化跟X的增减变化没啥关系。当Y和X越来越接近严格单调的函数关系时,秩相关系数在数值上就越来越大。当秩相关系数为1或者-1时,就表明Y随着X的增加而严格单调增加或单调减小。

在实际应用中,有时获得的原始资料没有具体的数据表现,只能用等级来描述某种现象,要分析现象之间的相关关系,就只能用秩相关系数。

2. 单调性,monotonicity

为了理解斯皮尔曼相关系数,首先需要了解什么是单调性和单调函数。一个单调函数是指随着它的自变量(independent variable)增大,函数值(因变量)要么总是增大(单调递增)要么总是变小(单调递减),而不会有时变大、有时变小(不是单调函数)。

如上图所示,左图代表的是一个单调递增函数,中间图代表的是一个单调递减函数,而右边的图所代表的函数则不是单调函数。

3. 斯皮尔曼秩相关系数

斯皮尔曼秩相关系数(The Spearman’s rank coefficient of correlation),简称斯皮尔曼相关系数,是秩相关(rank correlation)的一种非参数度量(nonparametric measure)。得名于英国统计学家Charles Spearman,通常记为希腊字母‘ρ’ (rho)( often called Spearman's rho)或者

在讨论斯皮尔曼相关系数之前,首先要理解皮尔逊相关(Pearson’s correlation),斯皮尔曼相关可以看作是皮尔逊相关的非参数版本(nonparametric version)。皮尔逊相关是关于两个随机变量之间的线性关系强度的统计度量(statistical measure),而斯皮尔曼相关考察的是两者单调关系(monotonic relationship)的强度,通俗地说就是两者在变大或变小的趋势上多大程度上保持步调一致,哪怕没有保持比例关系。计算皮尔逊相关系数时使用的是数据样本值本身,而计算斯皮尔曼相关系数使用的是数据样本排位位次值(有时候数据本身就是位次值,有时候数据本身不是位次值,则在计算斯皮尔曼相关系数之前要先计算位次值)。

这里"非参数"有两层含义。首先,当X和Y的关系是由任意单调函数描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次,斯皮尔曼不需要先验知识(也就是说,除了数据本身不需要知道其它参数,比如说关于数据的分布的先验信息)便可以准确获取X和Y的采样概率分布之间的相关性。

4. 什么时候使用斯皮尔曼秩相关系数呢?

能够适用皮尔逊相关的场合当然是优先使用皮尔逊相关,但是在有些场合,皮尔逊相关所需要的前提假设不能得到满足,这是就可以考虑使用斯皮尔曼相关,比如说以下一些情况下:

  1. 如果你的数据展现的是非线性关系,或者不是正态分布的。
  2. 如果至少有一方数据是序数类型(ordinal)而非数值类型。比如说,如果数据的赋值为"第一、第二、第三、... "你就是在处理序数类型数据。更具具体一点的例子就是,比如说你考察两个球队在历年联赛中的战绩之间的关系,那么你得到的数据可能是这样的:A队在2010~2020年间的联赛排名为{1,2,4,5,...,2}, B队在2010~2020年间的联赛排名为{2,1,3,6,...,4}。这两个数据就是序数类型的数据,考察它们的相关性你使用皮尔逊相关系数就不妥当
  3. 如果数据中有明显的异常值(outliers)。与皮尔逊相关不同,斯皮尔曼相关对于异常值不太敏感,因为它基于排序位次进行计算,实际数值之间的差异大小对于计算结果没有直接影响

比如说,你可以利用斯皮尔曼相关来寻找针对以下一些问题的答案:

  1. 受教育水平更高的人更关心环境吗?
  2. 患者的症状数与他们服药的意愿有关系吗?
  3. 球队的联赛成绩(名次)与他们所在城市的经济发展水平有关系吗?

5. 斯皮尔曼秩相关系数计算公式

全版本的计算公式:

其中:

  • R(x) 和 R(y) 分别是x和y的位次
  •  和  分别表示平均位次

更简单易行的计算公式如下所示:

其中:

  •  表示第i个数据对的位次值之差
  • n 总的观测样本数

6. 斯皮尔曼秩相关系数计算例

在很多软件工具或者工具库里都有各种相关系数的计算。在以下Ref1中介绍了在Excel中如何计算斯皮尔曼相关系数,有兴趣的小伙伴可以参考。

6.1 手动计算

在Ref2中给出了一个手动计算例(最低限度的手动计算对于掌握一个新的概念是绝对必要的,手动计算能帮助更加深刻地理解本质),如下表所示:

这是9个学生的历史和地理的成绩和排名,每一行从左到右分别历史科目的分数、历史成绩中的排名、地理科目的分数、地理成绩中的排名,排名位次之差、排名位次的平方。由于数据中没有位次相同的数据,所以可以用简单版本的公式进行计算,如下所示:

这个结果意味着这9个学生历史成绩排名和地理成绩呈现出很强的单调关系,即历史成绩好非常大概率地理成绩也非常好,反之依然。其实目测上表也基本上可以得出这个印象。只不过斯皮尔曼相关系数把这种印象进行精确的量化。

6.2 scipy函数

以下介绍scipy中计算斯皮尔曼相关系数的函数scipy.stats.spearmanr的使用例。

        scipy.stats.spearmanr(ab=Noneaxis=0nan_policy='propagate'alternative='two-sided')

函数调用接口请参阅scipy文档,这里只介绍一些要点。

该函数返回的结果除了相关系数外,还包含一个p值,大致来说就是表示由完全不相关系统所生成的数据能够计算得出跟当前待测数据对所计算结果相当的斯皮尔曼相关系数的概率有多大。P值不是完全可靠的,但是对于大于500的数据集其估计结果基本还是合理的。

计算例1:调用scipy函数计算以上数据的斯皮尔曼相关系数。

import numpy as np
from scipy import statsstats.spearmanr([3,5,1,6,7,2,8,9,4], [5,3,2,6,8,1,7,9,4])

结果:SpearmanrResult(correlation=0.9, pvalue=0.0009430623223403293)

得到了跟手动计算相同的结果,安心ing^-^。

另外p-value仅为0.0009,这说明历史成绩和地理成绩几乎不可能是不相关,反过来说就是它们是非常相关的。

计算例2:两个随机数序列的斯皮尔曼相关系数

rng = np.random.default_rng()
x2n = rng.standard_normal((100, 2))
stats.spearmanr(x2n)

结果:SpearmanrResult(correlation=-0.00876087608760876, pvalue=0.931061841564777)

嗯,相关度极低。。。诚不欺我^-^

6.3 pandas corr()

Pandas也提供了计算斯皮尔曼相关系数的函数,事实上是提供了一个通用的相关系数计算函数接口,通过method参数可以指定是需要计算那种相关系数。如下例所示:

import pandas as pd
import numpy as np
X=pd.Series([3,5,1,6,7,2,8,9,4])
Y=pd.Series([5,3,2,6,8,1,7,9,4])
rho = X.corr(Y,method='spearman')
print(rho)

同样得到结果为0.9,只不过没有像scipy函数那样提供一个p-value。

6.4 简易计算公式能够体现负相关系数?

根据一个读者的提问,追加了本节计算例。

import numpy as np
from scipy import statsx = [3,5,1,6,7,2,8,9,4]
y = [5,3,2,6,8,1,7,9,4]def simpleSpearman(x,y)-> float:"""Assuming np array as input"""d = x - yn = len(x)rho = 1 - 6 * np.sum(np.square(d))/n/(n**2-1)return rho
x0 = np.array(x)
y0 = np.array(y)
print(simpleSpearman(x0,y0))
print(stats.spearmanr(x,y ))# 颠倒x中的排序
x = [3,5,1,6,7,2,8,9,4]
x = [(len(x)+1) - x[k] for k in range(len(x))] # Reverse the x ranking
y = [5,3,2,6,8,1,7,9,4]
print(stats.spearmanr(x,y ))
x0 = np.array(x)
y0 = np.array(y)
print(simpleSpearman(x0,y0))

运行以上代码可以发现,将x中的排序值颠倒以后,计算所得的相关系数也变成的负的了。也就是说,简易计算公式中虽然取得是每对秩的差值的平方,但是并不妨碍它能反映相关的方向(相关系数的正负) 。

关于皮尔逊相关系数介绍和计算示例有兴趣的话可以参考:

皮尔逊相关(Pearson correlation)系数概述及其计算例https://chenxiaoyuan.blog.csdn.net/article/details/121576303

[Reference]

[1] https://www.ablebits.com/office-addins-blog/2019/01/30/spearman-rank-correlation-excel/

[2] Spearman correlation coefficient: Definition, Formula and Calculation with Example | QuestionPro

[3] https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html

斯皮尔曼相关(Spearman correlation)系数概述及其计算例相关推荐

  1. 皮尔逊相关(Pearson correlation)系数概述及其计算例

    目录 1. 前言 2. 皮尔逊相关系数定义 3. 数学性质 3.1 对称性 3.2 位移不变性 3.3 尺度不变性 4. 5个假设 5. 几何解释 6. Some calculation exampl ...

  2. 一文数学数模-相关性分析(二)斯皮尔曼相关(spearman)相关性分析一文详解+python实例代码

    前言 相关性分析算是很多算法以及建模的基础知识之一了,十分经典.关于许多特征关联关系以及相关趋势都可以利用相关性分析计算表达.其中常见的相关性系数就有三种:person相关系数,spearman相关系 ...

  3. 斯皮尔曼(spearman)相关系数python代码实现

    简介 斯皮尔曼等级相关系数(简称等级相关系数,或称秩相关系数,英语:Spearman's rank correlation coefficient或Spearman's ρ).一般用或者表示.它是衡量 ...

  4. SPSS——相关分析——Spearman秩相关系数

    简介 斯皮尔曼等级相关(Spearman's correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题.适用于两列变量,而且具有等级变量 ...

  5. 数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

    目录 前言 一.基本概念及二者适用范围比较 1.什么是相关性分析 2.什么是相关系数 3.适用范围比较 二.相关系数 1.皮尔逊相关系数(Pearson correlation) 1.线性检验 2.正 ...

  6. 三大相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数的联系与区别

    三大统计相关系数:Pearson.Spearman秩相关系数.kendall等级相关系数 统计相关系数简介 Pearson(皮尔逊)相关系数 1.简介 2.适用范围 3.使用方法 Spearman R ...

  7. 相关性检验–Spearman秩相关系数和皮尔森相关系数

    转自: http://www.cnblogs.com/zhangchaoyang/articles/2631907.html 本文给出两种相关系数,系数越大说明越相关. 皮尔森相关系数 皮尔森相关系数 ...

  8. 相关性检验--Spearman秩相关系数和皮尔森相关系数

    本文给出两种相关系数,系数越大说明越相关.你可能会参考另一篇博客独立性检验. 皮尔森相关系数 皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(P ...

  9. Pearson、Spearman秩相关系数、kendall等级相关系数

    p>统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终 ...

  10. 8086CPU相关汇编语言的简单概述

    8086CPU相关汇编语言的简单概述 1.寄存器 通用寄存器 8806CPU给出物理地址的方法 段寄存器 修改CS,IP的指令 2.寄存器(内存访问) 栈机制 3.[BX]和loop指令 [BX] l ...

最新文章

  1. 信号量释放和等待函数sem_post()和sem_wait()
  2. 吴恩达机器学习笔记(二) —— Logistic回归
  3. java自定义异常(Exception、throws、try-catch)
  4. 排序规则在拼音处理中的应用.sql
  5. ExtJs十(ExtJs Mvc用户管理之二)
  6. bzoj2463: [中山市选2009]谁能赢呢?(博弈论)
  7. plc tcp ip通讯怎么只能连一个客户端_Kepware V5如何实现与PLC的通讯
  8. 企业微信开发实战:自建审批流引擎
  9. 房产抵押不良资产如何处置?
  10. selenium滑块拖动验证(携程)
  11. Visual Studio 20052008 各个版本下载
  12. 手机闪存速度排行_带大家了解一下 手机闪存UFS和EMMC的区别(科普)
  13. MySQL的下载与安装详细教程
  14. X86汇编学习小结----cmp 完整版本
  15. 求最大公约数 最大公约数
  16. C语言之__attribute__((visibility(“default“)))等gcc flag讲解(六十二)
  17. DDoS攻击的肉鸡都是哪来的?
  18. 从一个用户expdp导出再impdp导入到另一个用户
  19. 惠普p2055dn怎么停止打印_HP LaserJet P2055dn 通过网络连接打印机用户指南
  20. MFC——添加Gif动画

热门文章

  1. matlab鲍威尔方法求函数,基于MATLAB的鲍威尔法求极值问题
  2. 易买网商城管理系统MySQL+JSP
  3. 2018 CISSP考试一路走来
  4. JAVA架构图的设计与画法
  5. SQLServer 内连接和外连接
  6. php文件改后缀,php如何修改文件后缀名
  7. 编写c#程序,修改文件后缀名
  8. win10进入pe模式系统的操作方法
  9. hough变换检测圆周_hough变换是如何检测出直线和圆的?
  10. sklearn——一元线性回归