复盘:pearson皮尔森相关系数和spearman斯皮尔曼相关系数的区别

提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性

关于互联网大厂的笔试面试,都是需要细心准备的
(1)自己的科研经历,科研内容,学习的相关领域知识,要熟悉熟透了
(2)自己的实习经历,做了什么内容,学习的领域知识,要熟悉熟透了
(3)除了科研,实习之外,平时自己关注的前沿知识,也不要落下,仔细了解,面试官很在乎你是否喜欢追进新科技,跟进创新概念和技术
(4)准备数据结构与算法,有笔试的大厂,第一关就是手撕代码做算法题
面试中,实际上,你准备数据结构与算法时以备不时之需,有足够的信心面对面试官可能问的算法题,很多情况下你的科研经历和实习经历足够跟面试官聊了,就不需要考你算法了。但很多大厂就会面试问你算法题,因此不论为了笔试面试,数据结构与算法必须熟悉熟透了
秋招提前批好多大厂不考笔试,直接面试,能否免笔试去面试,那就看你简历实力有多强了。


文章目录

  • 复盘:pearson皮尔森相关系数和spearman斯皮尔曼相关系数的区别
    • @[TOC](文章目录)
  • pearson和spearman的区别
    • 皮尔森相关系数评估两个连续变量之间的线性关系
    • 斯皮尔曼相关系数评估两个连续变量之间的单调关系。
    • 区别
      • 其他非线性关系
    • 结论
  • 总结

pearson和spearman的区别

相关系数是用以反映变量之间的相关关系程度的统计指标。

其取值范围是[-1,1],
当取值为0时表示不相关,
取值为[-1,0)表示负相关,
取值为(0,1],表示正相关。

目前常用的两种相关性系数为皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)

皮尔森相关系数评估两个连续变量之间的线性关系


其中:

-1 ≤ p ≤ 1
p接近0代表无相关性
p接近1或-1代表强相关性

斯皮尔曼相关系数评估两个连续变量之间的单调关系。

在单调关系中,变量趋于一起变化,但不一定以恒定速率变化。



N是观测值的总数量

斯皮尔曼另一种表达公式:也是最常用的更好理解的表达式

表示二列成对变量的等级差数。

区别

Pearson和Spearman相关系数的范围可以从-1到+1。

当Pearson相关系数为+1时,意味着,当一个变量增加时,另一个变量增加一致量。
这形成了一种递增的直线。
在这种情况下,Spearman相关系数也是+1。


如果关系是一个变量在另一个变量增加时增加,但数量不一致,
则Pearson相关系数为正但小于+1。

但是在这种情况下,斯皮尔曼系数仍然等于+1。

Pearson=+ 0.851,Spearman=+1

当关系是随机的或不存在时,则两个相关系数几乎为零。

Pearson=-0.093,Spearman=-0.093

如果关系递减的直线,那么两个相关系数都是-1。

Pearson=-1,Spearman=-1

如果关系是一个变量在另一个变量增加时减少,但数量不一致,
则Pearson相关系数为负但大于-1。

但是在这种情况下,斯皮尔曼系数仍然等于-1

Pearson=-0.799,Spearman=-1

相关值-1或1意味着精确的线性关系,如圆的半径和圆周之间的关系。

然而,相关值的实际价值在于量化不完美的关系。
发现两个变量是相关的经常通知回归分析,该分析试图更多地描述这种类型的关系。

其他非线性关系

Pearson相关系数仅评估线性关系

Spearman相关系数仅评估单调关系

因此,即使相关系数为0,也可以存在有意义的关系。
检查散点图以确定关系的形式。

系数为0

该图显示了非常强的关系。

Pearson系数和Spearman系数均约为0。

结论

皮尔森评估的是两个变量的线性关系,而斯皮尔曼评估的两变量的单调关系。

Pearson 处理变量的数据原始值,而 Spearman 处理数据排序值(需要先做变换,transform)

因此,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。

如果散点图表明“可能是单调的,可能是线性的”关系,
最好的选择是 Spearman 而不是 Pearson。

即使数据证明是完全线性的,用 Spearman 也不会造成信息丢失。

但是,如果不是完全线性但使用 Pearson 系数,会丢失 Spearman 可以捕获的信息,是否单调。


总结

提示:重要经验:

1)皮尔森评估的是两个变量的线性关系,而斯皮尔曼评估的两变量的单调关系
2)Pearson 处理变量的数据原始值,而 Spearman 处理数据排序值(需要先做变换,transform)
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

复盘:pearson皮尔森相关系数和spearman斯皮尔曼相关系数的区别相关推荐

  1. 数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

    目录 前言 一.基本概念及二者适用范围比较 1.什么是相关性分析 2.什么是相关系数 3.适用范围比较 二.相关系数 1.皮尔逊相关系数(Pearson correlation) 1.线性检验 2.正 ...

  2. [学习笔记] [机器学习] 8. 聚类算法(聚类算法:K-means、K-means++;聚类算法评估;特征降维:特征选择(Pearson相关系数、Spearman相关系数)、PCA主成分分析)

    视频链接 数据集下载地址:无需下载 1. 聚类算法简介 学习目标: 掌握聚类算法实现过程 知道 K-means 算法原理 知道聚类算法中的评估模型 说明 K-means 的优缺点 了解聚类中的算法优化 ...

  3. 相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

    目录 总体皮尔逊Person相关系数: 样本皮尔逊Person相关系数: 两点总结: 假设检验:(可结合概率论课本假设检验部分) 皮尔逊相关系数假设检验: 更好的方法:p值判断方法 皮尔逊相关系数假设 ...

  4. Pearson相关系数和Spearman相关系数的区别

    前言 相关系数是用以反映变量之间的相关关系程度的统计指标.其取值范围是[-1,1],当取值为0时表示不相关,取值为[-1,0)表示负相关,取值为(0,-1],表示负相关. 目前常用的两种相关性系数为皮 ...

  5. 【数据科学】斯皮尔曼的等级相关系数(Spearman's coefficient)

    在统计数据中,斯皮尔曼的等级相关系数或斯皮尔曼的rho,以查尔斯斯皮尔曼命名并经常用希腊字母表示或,是秩相关的非参数度量(两个变量的排名之间的统计依赖性).它评估了使用单调函数描述两个变量之间关系的程 ...

  6. 皮尔森 统计学相关性分析_pearson相关系数和spearman相关系数的区别

    展开全部 区别: 1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,效率没有62616964757a686964616fe78988e69d83 ...

  7. ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略

    ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient).Spearman相关系数的简介.案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 ...

  8. 皮尔逊(Pearson)相关系数与spearman相关系数(Python实现)

    概念介绍 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 相关系数大小解释 相关性 绝对值 无相关 0 - 0.09 弱相关 0.1 - 0.3 中相关 0.3 - 0.5 强相关 ...

  9. 斯皮尔曼(spearman)相关系数python代码实现

    简介 斯皮尔曼等级相关系数(简称等级相关系数,或称秩相关系数,英语:Spearman's rank correlation coefficient或Spearman's ρ).一般用或者表示.它是衡量 ...

  10. pearson相关系数与spearman相关系数

    pearson相关系数 研究变量之间 线性相关 程度的量,一般用r表示. 两个随机变量X,Y之间的pearson相关系数定义为: ρX,Y=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σX ...

最新文章

  1. 关于iostream的效率问题
  2. ListView的使用和数据绑定
  3. Flask爱家租房--发布新房源(保存房屋基本信息)
  4. 搭建LAMP环境的过程详细总结
  5. 在 const 和 non-const 重载的成员函数中避免代码重复
  6. ubuntu下C语言编程的注意点
  7. C4D四视图切换及基本操作
  8. shader02-仿星空粒子
  9. 基于libevent的http客户端,并可以请求https
  10. JavaServer Faces 2.0 can not be installed解决方案
  11. 【微信公众号开发】微信支付-退款通知
  12. 这些前端资源,你值得拥有
  13. 将ip地址转换成一个长整型(日志处理)
  14. Ardunio开发实例-ENC28J60以太网模块实现Web服务器
  15. 视频显示输出接口总结
  16. 查询出每个雇员的姓名,工资,部门名称,工资在公司的等级及其领导的姓名,领导的工资,以及领导所对应的等级
  17. 比尔盖茨是计算机代表人物吗,IBM和比尔盖茨没有的计算机,我有!
  18. Java连接MySQL数据库并进行简单查询
  19. sina微博api:获取24小时内前20条用户的微博信息
  20. Egret 之消除游戏开发 PART 2-张鑫磊-专题视频课程

热门文章

  1. js函数劫持与反劫持
  2. 第一讲 数学方法论引论
  3. 一款音频播放软件设计文档,欢迎提出宝贵
  4. 如何改变报表在页面显示的大小和位置?
  5. 天正如何转为t3_天正插件 t3 天正文件转T3格式CAD图
  6. AD9的PCB技巧——环形焊盘的封装
  7. IOStream读写文件操作
  8. 实战:VM Player导入虚机到ESXi
  9. Epub,Mobi,Azw3电子书格式的区别,有什么好用的epub阅读器
  10. 编译原理实验1——词法分析器设计