|撰文:阿拉雷

回想当年,刚踏足科研领域,心中豪气万丈,幻想着努力发发发paper,从此走上人生巅峰......

但当拿到微生物群落研究报告时却瞬间傻了眼,PCA、PCoA、NMDS、CCA、RDA各种长的差不多,细节上却又千差万别的分析方法看得我头晕眼花,更别提还要从中挑选出一个适合自己研究领域的分析方法。

为了让各位不再经历类似的窘境,我在这里为大家详细介绍文章中最常见的几类分析方法的原理及图形解读。

|核心思想-降维

首先我们要明白一个概念:降维。

无论是主成分分析(PCA)、主坐标分析(PCoA)、非度量多维尺度分析(NMDS),还是冗余分析(RDA)、典范对应分析(CCA)都属于降维排序分析方法。

之所以需要降维,是因为我们检测的样本中往往包含着上百种微生物,为了分析样本与样本间的相似性,我们需要将所有物种进行逐一对比,即以一个物种为一个维度进行比较,那么假设样本有100种微生物,我们就需要100维坐标才能够比较获得两个样本间微生物数据整体的相似性。

遗憾的是,我们无法理解100维的数据,因此我们需要借助降维的手段在低维平面上对目标数据进行排序,最大程度上使得相似的目标距离近,相异的目标距离远,方便后续的统计分析。(不禁想起《三体》中,银河系遭受二向箔武器打击,从3维跌落至2维,最终被拍扁成为一幅画的场景)。

该如何实现数据降维?降维过程可以理解为一个投影的过程,举例说明:如图1,共检测6个样本(S1-S6)的微生物数据,每个样本包含3种微生物(Sp.A、B、C),通过将三个物种转换为坐标维度,我们发现,在A轴这个投影维度上,6个样本数据区分效果最强,B轴上稍弱,而在C轴上所有点都在一个位置,区分不开,那么采用A轴和B轴为横纵坐标即可将原先三维的数据降维到二维平面上。

图1 降维原理示意图

主成分分析 | Principal Components Analysis,PCA

PCA分析就是降维思想的具体实践,PCA分析方法在19世纪被提出,并广泛应用于各类数据统计中。

PCA采用降维的思想,将组成复杂的数据信息(样本中包含大量物种信息,没有已知的坐标轴可以解释分布)进行降维排序,寻找能最大程度反应规律的坐标系。

如图2所示,如果将每个样本看成空间中的一个小球,小球在空间中根据相似程度分布,PCA分析就如同拿着一盏灯照向这些小球, 将小球投影在一个平面上。不断调整光源照射角度,找到能够最大程度展示小球在空间中原本分布状态的平面,该平面上小球投影的画面即PCA分析结果。图2 PCA原理示意

然而PCA分析存在着自身的局限性,PCA分析需基于线性模型(linear model)开展,所谓线性模型就是假设物种丰度伴随着环境变量的变化做出线性变化的响应(如图3左图),这种模型使用范围较为有限。

在实际环境中,微生物丰度通常呈现单峰模型(unimodal model),该模型假设在一定范围内微生物丰度随环境因素上升而增加,但到达临界值后,若环境因子指标继续增加,微生物丰度则出现下降。

例如大部分细菌都有一个生长最适温度范围,超过这个最适温度后,细菌的生长会受到抑制。因此,PCA分析不适合用于物种丰度变化范围大,或环境梯度变化大的样本中(自然环境取样通常变化范围较大)。

图3 线性模型(左)、单峰模型(右)示意

主坐标分析 | principal co-ordinates analysis,PCoA

PCoA分析同样采用降维的思想对样本关系进行低维平面的投影,不同的是,PCA分析是对样本中物种丰度数据的直接投影,而PCoA则是将样本数据经过不同距离算法获得样本距离矩阵的投影,在图形中样本点的距离等于距离矩阵中的差异数据距离。

因此,PCA图形是一种同时反映样本与物种信息的biplot,而PCoA图形则是一类仅对样本距离矩阵进行降维的非biplot。

PCoA常用于微生物β多样性分析中,β多样性的衡量指标是样本相似距离值,相似距离值的算法有很多种,常见的距离类型有:Jaccard、Bray-Curtis、Unifrac等。各类距离具体计算原理参考《微生物β多样性常用计算方法比较》。

PCoA分析是将空间中样本间的相似距离映射至二维平面上加以呈现。简单来说就是将样品间的距离在坐标轴上进行不同角度投影,找到最能够反映原始距离分布的前两个坐标轴进行数据输出。

如图4所示,与PCA不同的是,PCoA是对样品间距离(连线)的投影,在二维平面上展示的是样品间距离的信息,而不是样品的位置信息。图4 PCoA原理示意

PCoA是基于样本间相似性距离的分析,它的结果受相似性距离计算方式的影响,因此不同相似性距离计算方式对PCoA结果影响较大。

非度量多维标度分析法 | Non-metric multidimensional scaling,NMDS

NMDS分析与PCoA分析的相同点在于两者都使用样本相似性距离矩阵进行降维排序分析,从而在二维平面上对样本关系做出判断。

不同于PCoA分析,NMDS弱化了对实际距离数值的依赖,更加强调数值间的排名(秩次),例如三个样本的两两相似性距离,(1,2,3)和(10,20,30)在NMDS分析上的排序一致,所呈现的效果相同。

NMDS分析的运行过程如下:

1. 设定分析维度(通常为2维平面);

2. 构建初始结构,放置距离数值(输入数据);

3. 根据设定距离数据与原数据比较,判断模型适合程度(Stress判断):

rij:原始距离矩阵中的距离排名;Rij:数据的2D或者3D图形的样本间距离排名;S(Stress)是判断新建模型与原始数据的一致性情况,s= [0,1)。理想状态下,新建模型距离排名与原数据一致,则S=0。

4. 不断调整对象位置,直至stress数值不再减少,或已达到预定的值。

通过Stress值判断模型的优劣,通常stress<0.1表示模型可以被接受,数值越接近0模型效果越好。

图形解读

1. PCA图形

1)常见分析点:微生物群落研究的样本OTU分析。

2)输入的数据:样本OTU丰度表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间群落差异,通常来自不同环境的样本表现出各自聚集的现象。

5)横纵轴含义:图中的横纵轴分别代表了第一、第二主成分,PCA分析通过降维分析将输入其中的样本OTU信息从高纬度空间降维映射到以第一、第二主成分为坐标轴的二维平面。横纵轴上所标注的百分比即该主成分对样品OTU数据差异的贡献度,通常横轴百分比数值高于纵轴数值。图5 文章中的PCA分析结果图[1]

2. PCoA图形

1)常见分析点:微生物群落研究的β分析。

2)输入的数据:样本相似性距离表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本点距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间样本距离差异,异质性强的样本距离越远。样本相似性距离计算方式对结果有影响,选择输入不同相似性距离值矩阵,得到的结果存在着不同程度的差异。

5)横纵轴含义:图中的横纵轴分别代表了第一、第二主坐标。PCoA分析通过降维分析将输入其中的样本间相似性距离矩阵降维映射到以两个主坐标构成的二维平面。横纵轴上所标注的百分比即该主坐标对样品矩阵矩阵数据差异的贡献度,通常横轴百分比数值高于纵轴数值。图6 文章中的PCoA分析结果图[2]

3. NMDS图形

1)常见分析点:微生物群落研究的β分析。

2)输入的数据:样本相似性距离表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本点距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间样本距离在秩次(数据排名)上的差异。样本相似性距离计算方式对结果有影响,选择输入不同相似性距离值的矩阵,得到的结果存在着不同程度差异。

5)横纵坐标轴含义:NMDS是距离值的秩次(数据排名)信息的评估,图形上样本信息仅反映样本间数据秩次信息的远近,而不反映真实的数值差异,横纵坐标轴并无权重意义,横轴不一定比纵轴更加重要。NMDS整体降维效果由Stress值进行判断。

6)stress值含义:NMDS图形通常会给出该模型的stress值,用于判断该图形是否能准确反映数据排序的真实分布,stress值越接近0则降维效果越好,一般要求该值<0.1。图7 文章中的NMDS分析结果图[3]

小结

PCA、PCoA与NMDS都是以降维思想为核心的排序分析方法。PCA分析是对输入的OTU丰度原始数据的降维,而PCoA与NMDS则是基于各类型样本相似性距离的降维。表1 PCA、PCoA和NMDS的区别

PCA基于线性模型,仅适用于物种少,环境因素、物种丰度波动变化小的情况。PCoA与NMDS用于反映样本距离矩阵关系,不同点在于NMDS更侧重反映距离矩阵中数值的排序关系,弱化数值的绝对差异程度。在多样本、物种数量多的情况下(可进行排序的数量更大),stress值往往随着样本的复杂程度而减小,因此模型能更准确地反映出距离矩阵的数值排序信息。参考文献

[1] Hu, X., Du, J., Xie, Y. et al. Fecal microbiota characteristics of Chinese patients with primary IgA nephropathy: a cross-sectional study. BMC Nephrol 21, 97 (2020).

[2] Dethlefsen L, Huse S M, Sogin M L, et al. The Pervasive Effects of an Antibiotic on the Human Gut Microbiota, as Revealed by Deep 16S rRNA Sequencing[J]. PLOS Biology, 2008, 6(11).

[3] Liang Q, Li Z, Ou M, et al. Hypoimmunity and intestinal bacterial imbalance are closely associated with blue body syndrome in cultured Penaeus vannamei[J]. Aquaculture, 2020.

nmds与mds的区别_常见分析方法 | PCA、PCoA和NMDS有什么区别?相关推荐

  1. 电源并联均流电路的几种最常见分析方法

    并联均流电路的几种最常见分析方法 电源联盟•来源:互联网•作者:佚名 • 2017-11-07 13:51 • 33882次阅读  0 先说说为什么需要均流电路,我们知道,当一个模块无法提供负荷需要的 ...

  2. 数据挖掘常见分析方法

    数据挖掘常见分析方法 一.回归分析 目的: 设法找出变量间的依存(数量)关系, 用函数关系式表达出来. 所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函 ...

  3. 用法与区别_生抽老抽、蚝油味极鲜,总算搞清楚区别了,用法大不同,别用错了...

    生抽老抽.蚝油味极鲜,总算搞清楚区别了,用法大不同,别再用错了 各位读者朋友们大家好,感谢阅读我分享的美食文章,经验和大家一起共享,今天我要和大家分享的内容是:『生抽老抽.蚝油味极鲜,总算搞清楚区别了 ...

  4. leip与mysql数据库_性能分析方法 - osc_xm8bu282的个人空间 - OSCHINA - 中文开源技术交流社区...

    一.性能分析的常用手段 1.空间换时间,利用内存缓存从磁盘上取出的数据,CPU可以直接访问内存,从而比从磁盘读取数据更高的效率. 2.时间换空间,当空间成为瓶颈的时候,切开数据分批次处理,用更少空间完 ...

  5. 【机器学习】主元分析(PCA)以及与SVD的区别联系

    参考文章:如何理解主元分析(PCA)? 主元分析的目的是降低数据的维度.主元分析也就是PCA,主要用于数据降维. 1 什么是降维? 比如说有如下的房价数据: 这种一维数据可以直接放在实数轴上: 不过数 ...

  6. iVMS-4200 Vs区别_杏林早报 | 西芹、水芹、旱芹...功效有区别,吃对才真降血压!...

    打开音乐,开启早报唠嗑的一天~ 昨天说了芹菜能降血压. 祛湿浊.补血安神, 但芹菜有好几种,吃哪个效果更好呢? 今天就来好好说说. (↑ 芹菜种类图) 芹菜其实有很多的品种, 比如根芹.白芹.红芹.空 ...

  7. 可变悬挂与空气悬挂的区别_案例分析:宝马7系F02左后空气悬挂下趴检测与维修...

    车辆概况: 一辆行驶里程约12.6万公里,载型号为B58的发动机,配有空气悬挂的2012年款宝马7系车.车主反应:该车因左后空气悬挂下塌而来我司检修.故障诊断:连接故障检测仪(ISTA)对系统进行检测 ...

  8. request 和require区别_“request”和“require”在法律英语中用法的区别

    request和require是一组近义.看起来区别不明显的词语,但在起草英文合同或中译英时,这两个词语是否可以无差别适用呢?今天我们就来分析一下. request 和 require 的含义 这两个 ...

  9. [转载]编译中的常见分析方法

    原文:https://blog.csdn.net/hczhiyue/article/details/20483209 LL(k) 分析 LL 分析又称为自顶向下的分析(top-down parsing ...

  10. 反向索引和自增索引区别_深度解析 百度收录与百度索引有什么区别?

    在过去的一段时间里,大家一度对收录和索引的概念非常模糊,百度工程师也曾"粗暴"地说过"收录和索引是一回事".但实际工作中,发现,其实收录和索引都有其各自的重要意 ...

最新文章

  1. 自己架设windows升级服务器
  2. Linux6.x修改出eth0网卡的解决方法
  3. 确定多重选择列表控件 (List Control) 中的选定内容
  4. numpy随机生成01矩阵_NumPy数组基本介绍
  5. spring核心:bean工厂的装配 1
  6. 「Newcoder练习赛40D」小A与最大子段和
  7. java blockingqueue_Java多线程进阶(三一)—— J.U.C之collections框架:BlockingQueue接口...
  8. element 增加自由验证
  9. CCNA-Cisco-Packet-Tracerchs(思科官网)安装教程以及使用
  10. 苹果充电线android头断了,苹果充电线又坏了?其实一招就能搞定!还不花1分钱......
  11. 单分子荧光原位杂交(smFISH)
  12. 基于新标注模式的实体和关系联合抽取方法(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)
  13. android 官方增量更新,Android 增量更新全解
  14. 电阻触摸屏和电容触摸屏你更喜欢哪一个?
  15. Struts2概述及与Struts1的对比
  16. Riverbed破解数字性能密码,引领云时代数字变革
  17. Access denied for user 'root'@'localhost'. Account is locked
  18. commit在c语言中的作用,【单选题】SQL语 言 中 COMMIT语句的主要作用是( ) A. 结束程序 B. 返回系统 C. 存储数据 D. 提交事务...
  19. 如何理解DevOps
  20. 战术小队虫族服务器进去后不显示,【星际争霸】飞龙在天——虫族飞龙使用完全手册...

热门文章

  1. python里面的return是什么意思_python中return是什么意思?
  2. 电容式麦克风和动圈式麦克风的工作原理
  3. 普通二极管伏安特性和肖特基二极管电压电流特性
  4. ubuntu18.04设置静态IP地址
  5. 什么是索引回表,如何避免(索引覆盖)
  6. wps画 ui 原型图
  7. 最详细的 tf.cholesky_solve(chol, rhs, name=None)函数和tf.matrix_solve(matrix, rhs, adjoint=None, name=None)
  8. office创建数据透视表
  9. 人力资源管理数据分析
  10. 自制Anki选择题模板(支持桌面版/移动版)