本文转载自“态昌基因”,己获授权。

岁月不仅仅在你的脸上留下痕迹,还使你发胖~

大哥大嫂过年好呀~

春节过得怎么样呀,有没有被亲戚们的热情感动到啊

看着长辈和晚辈们亲切的眼神

此时的小昌只想发自肺腑地说一句:我要工作!

是的,让我们沉浸在学习和工作中吧,忘掉那些不愉快的事。

惯例,先来看一篇2017年发表在Diabetologia(影响因子为6.080)上的文章,标题为《前驱糖尿病患者肠道菌群异常》。

该病例对照研究共分析了134名前驱糖尿病和134名血糖正常的人肠道菌群,发现5个细菌属和36个OTU存在很大差异,对OTU相对丰度和临床生物指标构建相似性矩阵,矩阵热图如下(红色为正相关,蓝色为负相关);方格中的数值为显著性检验的p值。

研究某种疾病与菌群的关系时,往往涉及多个变量,通常包括样本、物种、基因、环境因子、代谢物、蛋白、代谢通路等等。如果能够找到变量之间的关系,并把这种关系用适当的数学模型表达出来,就可以利用这一模型根据给定的变量进行预测。

相关分析即是用来研究变量之间的关系,弄清楚变量之间是否存在关系,他们之间是什么关系,变量之间的关系强度如何,以及样本所反映的变量之间的关系能否代表总体变量之间的关系。

对成对数据进行相关性系数的计算和检验(多重≠多元),主要使用R语言中的cor.test()函数,其中有3种方法可供使用,分别是Spearman检验Kendall检验Pearson检验

(其他方法还包括Hmisc包中的rcorr, 以及psych包中的corr.test;SPSS也是不错的选择)

而三种相关性检验技术中,Pearson相关性的精确度最高,但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广,但精确度较差。具体问题具体分析,下面就来详细了解一下三种相关性检验有什么不同。

划重点

1. Pearson相关系数

2. Spearman秩相关系数(例子)

3. Kendall秩相关系数

 Pearson相关系数

Pearson相关系数,是度量两个变量之间线性关系强度的统计量,记为r,计算公式为:

1.适用条件

① 服从正态分布的定距变量;

② 两个数据序列的数据要一一对应,等间距等比例(观测值是成对的,每对观测值之间相互独立)。数据序列通常来自对同一组样本的多次测量或不同视角的测量。

③极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。

2.性质:

① r的取值范围在-1和+1之间,即-1≤r≤1。r大于0,表示正相关;r小于0,表示负相关;r=0表明x与y之间不存在线性相关关系。

② r具有对称性。x与y之间的相关系数和y与x之间的相关系数相等。

③ r数值的大小与x和y的原点及尺度无关。改变x和y的数据原点或计量尺度,并不改变r数值的大小。

④ r仅仅是x与y之间线性关系的度量,它不能用于描述非线性关系。当变量之间的非线性相关程度较强时,就可能会导致r=0,此时不能轻易得出两个变量之间没有关系的结论,而应结合散点图做出合理解释。

⑤ r虽然是两个变量之间线性关系的度量,却不一定意味着x与y一定有因果关系。

⑥ 对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8.可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。(建立在显著性检验的基础之上才可以这样解释)

3.相关系数的检验

r是根据样本数据计算出来的,它受到样本波动的影响;能否根据样本相关系数说明总体的相关程度,就需要考察样本相关系数的可靠性,也就是显著性检验。

相关系数的显著性检验通常采用R.A.Fisher提出的t分布检验,该检验可以用于小样本,也可用于大样本。

原假设为变量之间不相关,如果统计量P<α,就拒绝原假设,表明总体的两个变量之间存在显著的线性关系。

Spearman秩相关系数

Spearman秩相关系数,也称等级相关系数,属于非参数统计方法,记为rs

当定距数据不满足正态分布,不能使用皮尔逊相关分析,这时,可以在相关分析中引入秩,借助秩实现相关性检验,即先分别计算两个序列的秩,然后以秩代替原始数据,代入到皮尔逊相关系数公式中,得到斯皮尔曼相关系数公式:

1.适用条件

① 不服从双变量正态分布的资料;

② 总体分布类型未知;

③ 两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。

2.性质

① 与Pearson相关系数类似,Spearman秩相关系数的取值范围也为[-1,1], 当检验概率小于0.05时,表示两列数据之间存在相关性。

② Spearman秩相关系数不仅可以直接用秩来计算,也可以将数值型数据转化为秩来计算。

③对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。

3.实例

Table1:为随机森林挑选出的物种相对丰度表格

Table2:为样本对应的环境因子

若想了解物种与物种间的相关性,则只使用Table1计算相关性矩阵,颜色表示相关性的正负及相对大小,“*”表示显著性:

或用圆圈大小表示相关性的相对大小,颜色表示正负,空白为不显著:

  • 更多本图画法见《R相关矩阵可视化包ggcorrplot》

如果想了解物种与环境因子的相关性,则需要合并Table1和Table2:

Kendall秩相关系数

Kendall相关系数与Spearman秩相关系数一样,也是对两个顺序变量之间相关程度的一种度量,属于非参数统计方法,记为τ。

当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。

举例说明:

设所观察的一组样本数据对为(x1 ,y1),(x2, y2),…,(xn ,yn),将 x 的 n 个数据的秩按由小到大排列,y的n个数据的秩也相应地发生变动。 比如,x和y的 秩分别为:

x: 2 4 3 1

y: 3 4 1 2

将x的秩按由小到大排列后,x和y的秩则为下面的形式:

x: 1 2 3 4

y: 2 3 1 4

由于x的秩已按从小到大排列,因此x的观察值每两个之间都是一致对。再看y的情况,第一个秩为2,第二个秩为3,因为2小于3,是按自然顺序增加的,因此这是一个一致对;再看2和1,由于1小于2,不是按自然顺序增加排列,所以是一个非一致对。依次考察下去,凡是一致对记为+1,非一致对记为-1。考察结果如下表所示:

在x的秩按从小到大排列时,y的秩对的最大可能评分也应该是按从小到大排列的秩对的评分,也就是说,只有当y的秩对全部是一致对时,每一数对的秩均为+1,这时y的秩对的评分最大。这样,在x和y的评秩完全一致的情况下,最大可能的评分总数应该是一个组合。比如在上例中是。若有n个观察数对两两秩对之间评分,最大可能的总分为。用实际的评分与最大可能总分相比,就可以测定两组秩之间的相关程度。

用U表示y的一致对数目,V表示y的非一致对数目,则一致对评分与最大可能总分之比为:

非一致对评分与最大可能总分之比为:

Kendall相关系数(记为r)的计算公式为:

数据要求:适用于不明分布的定序数据

小结:

Pearson相关适用于正态分布、连续变量或是等间距测度的数据;Spearman相关适用于不明分布、连续变量;Kendall相关适用于两个分类变量均为有序分类的情况;

②当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关;

③若不恰当用了Kendall等级相关分析则可能得出相关系数偏小的结论;因此对一般情况默认数据服从正态分布的,宜用Pearson分析方法。

今天就到这里啦,记得今天周一要元气满满地上班哦

参考资料:

统计学_第五版_贾俊平_编著

Aberrant intestinal microbiota in individuals with prediabetes

猜你喜欢

  • 热文:1高分文章 2不可或缺的人 3图表规范

  • 一文读懂:1微生物组 2寄生虫益处 3进化树

  • 必备技能:1提问 2搜索  3Endnote

  • 文献阅读 1热心肠 2SemanticScholar 3geenmedical

  • 扩增子分析:1图表解读 2分析流程 3统计绘图  4功能预测

  • 科研经验:1云笔记  2云协作 3公众号

  • 系列教程:1Biostar 2微生物组  3宏基因组

  • 生物科普 1肠道细菌 2人体上的生命 3生命大跃进  4细胞的暗战 5人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外120+ PI,1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

新年开工——相关性分析了解一下?相关推荐

  1. 打开思维,新年开工一定要元气满满!

    春节假期刚过,大家已经从陆续回到了工作岗位上,经过了一个吃吃喝喝的愉快假期,想必还有很多小伙伴不太适应. 心里想着,新年新气象,身体却很诚实,想要继续躺在床上,「这是惰性思维绊住了你的行动」.然而,我 ...

  2. 用spss做多组两两相关性分析_两独立样本T检验及如何利用SPSS实现其操作

    上一篇文章我们讲解了有关单样本T检验的相关内容(如何使用SPSS进行单样本检验),其实论文中除了常用到的单样本T检验以外,还有另外一种T检验的方法也是经常用到的统计方法,也就是两独立样本T检验 说到T ...

  3. 内科学与计算机专业的相关性,急性心肌梗死患者QT间期变异性及心率变异性与室性心律失常的相关性分析-内科学专业论文.docx...

    苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集.保存和使用学位论文的规定, 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集.保存和使用学位论文的规定, 即:学位论文著作权归属苏州 ...

  4. Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图(Correllogram)

    Python使用matplotlib可视化相关性分析热力图图heatmap.使用seaborn中的heatmap函数可视化相关性热力图(Correllogram) 目录

  5. R语言伪相关性分析(Spurious Correlation)、相关关系不是因果关系:以哺乳动物数据集msleep为例

    R语言伪相关性分析(Spurious Correlation):相关关系不是因果关系.相关关系不是因果关系.相关关系不是因果关系 #correlation doesn't means causatio ...

  6. R语言伪相关性分析(Spurious Correlation)、相关关系不是因果关系:以缅因州离婚率数据集为例

    R语言伪相关性分析(Spurious Correlation).相关关系不是因果关系:以缅因州离婚率数据集为例 #correlation doesn't means causation 目录

  7. R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

    R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战 目录 R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

  8. python可视化lassocv特征筛选之后的特征的相关性分析热力图

    python可视化lassocv特征筛选之后的特征的相关性分析热力图 目录 python可视化lassocv特征筛选之后的特征的相关性分析热力图 #lassocv模型

  9. R语言描述性统计分析:相关性分析

    R语言描述性统计分析:相关性分析 相关性分析:pearson.spearman.kendall 相关性系数的显著性检验: 偏相关性分析: library(ISwR) attach(thuesen) c ...

最新文章

  1. SAP QM 内向交货单在完成包装之后就自动触发了检验批?
  2. ZigZag 与 反ZigZag编码
  3. 【python之路24】装饰器
  4. oracle临时表的优点,详解Oracle临时表的几种用法和意义
  5. shell学习笔记二则:统计空间
  6. TensorFlow实战5——TensorFlow实现AlexNet
  7. 【Java从0到架构师】SpringMVC - 返回值
  8. extjs 兼容性问题解决方案
  9. 有/无外网情况下linux安装宋体
  10. ImageJ下载安装使用
  11. 6603网狐棋牌搭建视频教程
  12. vb中线性拟合_#vb调用excel线性拟合#如何在excle表格中做线性回归分析
  13. 为SM30视图创建TCODE
  14. java开发加入购物车功能_java web开发——购物车功能实现
  15. 天空2006年十大国产优秀软件
  16. wordpress网站首页模板主题开发制作
  17. 09数据在内存中的存储
  18. 从真实空间到傅立叶空间
  19. 轴系扭转振动仿真(SIMULINK)
  20. 黑马 ATM 练习题

热门文章

  1. 阿里员工吐槽:我在阿里工作五年,面试一个小公司竟然挂了
  2. 什么是Sprint?
  3. 纯国产敏捷项目管理软件,可基于scrum敏捷开发落地
  4. 相机夜视原理——红外补光
  5. Linux拥有良好的界面
  6. 05 Java程序员面试宝典视频课程之Jquery
  7. 嵌入式学习笔记之四 (uboot启动流程)
  8. IROS 2021 | 具有挑战性的Hilti SLAM数据集
  9. 免费送书啦!《3D计算机视觉:原理、算法及应用》一本全搞定
  10. 12层也能媲美ResNet?邓嘉团队提出最新力作ParNet,ImageNet top1精度直冲80.7%