欢迎关注"R语言和统计"~~

小编前几天阅读了一篇论文,名为“A guide to appropriate use of correlation coefficient in medical research” [1],写的简单易懂,并且在医学研究的实践中非常有参考价值,因此决定分享给大家。

虽然相关(Correlation)容易计算和解释,但是它的误用在研究者中也非常的普遍,有些统计学家甚至认为:相关的概念一开始就没有被提出可能会更好 [2] 

所以,在最开始,先了解一下到底什么是相关。

相关的定义

在统计学中,相关是一种用于评估两个连续变量之间的线性关系的方法 [2]。

相关系数(Correlation coefficient)可用于评估两个连续变量之间的线性关系的强度,它可以取值 -1 到 +1 之间。

假如相关系数为0,表示两个连续变量之间不存在线性关系;相关系数为 -1或者 +1,表示两者存在完美的线性关系。两者的线性关系越强,数值将会越往 -1 或 + 1 汇聚。

如果相关系数为负数,称为负相关,即当一个变量的数值增加时,另外一个变量的数值将会倾向于下降。而相关系数为正数,称为正相关,即当一个变量的数值增加时,另外一个变量的数值也会倾向于增加。

值得注意的是,如果两个变量之间的关系是非线性,根据统计学的定义,我们不能称它们是相关!

举个例子,假设在线性代数中两个变量之间的关系是:y = 0.5*x^3,可以在R中将其作图:

# 创建数据
x <- -10:10
y <- 0.5*x^3# 作图
plot(x, y, type = "l")
title(main = "y = 0.5*x^3")

如上图:在数学上,x和y当然存在某种联系(y = 0.5*x^3);但是在统计学中,将x和y称为相关就不是非常的恰当,因为统计的相关指的是线性关系

相关系数的类型

主要有两种相关系数:Pearson相关系数和Spearman相关系数[如果觉得不够,可以查看往期文章:涨知识!15种相关分析算法,总有一款适合你!]。

到底该如何选择相应的方法?

这取决于所要研究的变量,如果两个变量都是正态分布,选择Pearson相关;如果其中一个或两个不是正态分布,选择Spearman相关。

Pearson相关系数的公式如下:

Spearman相关系数的公式如下:

注:di 指的是x和y间排序的差别。

相关系数和散点图

论文作者首先创建了两组符合正态分布的数据,使用Pearson相关(相关系数分别为0.2, 0.5, 0.8, -0.8),并且制作了对应的散点图,如下:

Pearson相关系数为 0.2时:

图片来源:[1]的Figure 1

Pearson相关系数为 0.5时:

图片来源:[1]的Figure 2

Pearson相关系数为 0.8时:

图片来源:[1]的Figure 3

Pearson相关系数为 -0.8时:

图片来源:[1]的Figure 4

上述四张图片可以帮助我们了解不同相关系数所对应散点图的样子,有助于在未来仅根据散点图的模样提前大致推测它们的相关系数。

从上述四张图片可知,相关系数越大(绝对值),两个变量之间的线性关系越明显。

实例解析

下面用一个实例,用于解释两种相关系数在实际应用上的差别。

作者使用了产前门诊的数据,共包含了 750 例孕妇,选取了其中两个变量:血液中血红蛋白浓度(呈正态分布)和产次(呈偏态分布),散点图如下:

图片来源:[1]的Figure 5

因为产次(parity)为偏态分布,所以在这个例子中,选择Spearman相关会更加合适,计算所得相关系数为 0.3。

如果使用Pearson相关,它的相关系数为 0.2。

根据下表,它们的相关系数将会得出截然不同的结论:

表格来源:[1]的Table 1

如上表所示,如果根据Spearman相关系数为 0.3,可以认为变量间的相关为弱正相关。而如果根据Pearson相关系数为 0.2,它们间的相关是可以忽略的!所以,不同的方法可能会造成完全不同的结论

好啦,今天的内容就到这里。

如果有帮助,记得分享给需要的人

参考文献

[1]. M.M Mukaka, A guide to appropriate use of Correlation coefficient in medical research, Malawi Medical Journal; 24(3): 69-71 September 2012

[2]. Altman DG. Practical Statistics for Medical Research. Chapman & Hall/CRC

▌本文由R语言和统计首发,如需转载请联系我们

▌编辑:June

▌我们的梦想是让R语言和统计变得简单!

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!相关推荐

  1. 推荐!150篇土壤微生态+60篇根际微生物近两年高影响因子文献合集

    为了助力土壤微生物和植物根际微生物研究,深圳微科盟公司将为大家回顾一下近两年来土壤+根际微生物类文章,本次囊括了2020年至今150篇土壤微生物+60篇根际微生物高影响因子文献合集,涉及多个研究领域, ...

  2. Zotero之多篇文献引用

    前提 需看下我的这篇:Zotero文献在word中的引用 具体操作 Step01 在Word中引用多篇文献 点击"Add/Edit Citation" 在跳出的Zotero搜索框中 ...

  3. Java基础篇 - 强引用、弱引用、软引用和虚引用

    前言 Java执行GC判断对象是否存活有两种方式其中一种是引用计数. 引用计数:Java堆中每一个对象都有一个引用计数属性,引用每新增1次计数加1,引用每释放1次计数减1. 在JDK 1.2以前的版本 ...

  4. 杨老师课堂_Java教程第六篇之引用数据类型_类的运用

    今天主要是讲解以下知识点: 1.自定义类型的定义及使用 2.自定义类的内存图 3.ArrayList集合的基本功能 4.王者荣耀随机迎战案例及库存案例代码优化 01引用数据类型_类 * A: 数据类型 ...

  5. LaTex 连字符多篇连续引用

    将文献 [1, 2, 3, 4] 变成 [1-4] 对elsevier模板而言,在文献部分加入如下代码即可! \biboptions{numbers,sort&compress} 其他情况,可 ...

  6. jq的插件 vue中引用_详解如何在 vue 项目里正确地引用 jquery 和 jquery-ui的插件

    本篇文章主要介绍了详解如何在 vue 项目里正确地引用 jquery 和 jquery-ui的插件,具有一定的参考价值,有兴趣的可以了解一下 使用vue-cli构建的vue项目,webpack的配置文 ...

  7. 交叉引用跳转不到后面_参考文献如何正确标注引用而不会变红?

    最近看到很多人都说参考文献标注了以后,也做了引用,但是引用的地方查重居然标红了,但是没查重的居然是绿的,很费解.原因就是引用做的不对,引用格式都不对,原文又没改,那就是直接复制的句子肯定就标红了啊. ...

  8. 可变参数模板、右值引用带来的移动语义完美转发、lambda表达式的理解

    可变参数模板 可变参数模板对参数进行了高度泛化,可以表示任意数目.任意类型的参数: 语法为:在class或者typename后面带上省略号. Template<class ... T> v ...

  9. 网络协议报文理解刨析篇二(再谈Http和Https), 加上TCP/UDP/IP协议分析(理解着学习), 面试官都惊讶你对网络的见解

    目录 前文链接(系列助学, 也为后文学习做铺垫, 可按需读取) 一. 再谈HTTP再理解 二. HTTP对比学习HTTPS HTTP和HTTPS的区别如下: 三.TCP协议  (三次握手四次挥手细节过 ...

最新文章

  1. 微信怎么at所有人_任正非被遗漏的讲话:怎么做一个谦虚的领导者?
  2. retain copy(浅复制) mutablecopy (深复制)
  3. 杭电1024 Max Sum Plus Plus状压dp(java)
  4. notepad 替换行收尾字符串或在行首尾新增字符
  5. sparkcore写mysql_spark读写mysql
  6. PHP的max_execution_time
  7. 快速解码base64和utf-8的ASCII编码和URL解码
  8. 2600: [Ioi2011]ricehubh
  9. redis nginx session tomcat
  10. Vue-Router中History模式【华为云分享】
  11. udev和mdev hotplug
  12. 计算机d盘给c盘,win10电脑D盘合并分区到c盘的两种方法
  13. Scratch游戏设计——愤怒的小鸟
  14. 程序员跳槽时,如何优雅地谈薪水?
  15. AR涂涂乐⭐三、 C#实现识别图进入扫描框显示绿色,未进入为红色功能
  16. 利用OneDrive网盘建站
  17. 大家一起学数据结构之单链表
  18. 地图可视化“一网打尽“
  19. LeetCode 面试题 峰与谷
  20. js给动态创建出来的元素添加事件

热门文章

  1. 【2016年第6期】科研数据的开放:进展、模式与新探索
  2. 【2016年第4期】大数据应用系统的消息驱动架构
  3. 【UML】用例图中<<extend>>与<<include>>的区别
  4. 【数字逻辑设计】卡诺图
  5. 【计算机网络】重要的Web结构组件总结
  6. 【数据结构与算法】判断两个无环单链表是否相交的算法
  7. 使用maxwell实时同步mysql数据到kafka
  8. 树,森林,二叉树之间的转换
  9. CIO启示:转向数字业务为传统IT带来颠覆性影响
  10. mongodb自动关闭:页面文件太小,无法完成操作