【论文题目】Multivariate analyses in microbial ecology

【期刊名称】FEMS Microbiology Ecology, 2007, 62:142-160

【全文链接】https://doi.org/10.1111/j.1574-6941.2007.00375.x

【第一作者】Alban Ramette

【通讯作者】Alban Ramette

【作者单位】德国马克斯普朗克海洋微生物研究所

摘要

由于越来越多的生物信息和相关环境参数的快速积累,环境微生物学正在经历一场巨大的变革。这不仅可以更好的识别多样性模式,而且可以更多地了解能够解释这种模式的相关环境条件、空间位置和季节变化。现在可以利用多变量统计分析解决复杂的生态问题,这是一项尚未完全开发但存在巨大潜力的技术。本文对行之有效的探索性分析和假说驱动分析的方法进行了评述,从而希望将它们广泛应用到微生物生态学家的研究方法中去。由于这些工具的目的在于降低数据集的复杂性,识别主要模式并推测因果关系,因此它们肯定会广泛地应用于微生物生态学中。

前言

微生物生态学正在经历一场深刻的变革,因为已经开始在小生境、区域,甚至大陆尺度上,对微生物群落结构-功能与它们生活环境之间的关系进行研究。随着大批高通量技术的迅速发展,如焦磷酸测序、单细胞基因组测序或者宏基因组学等,DNA序列正在以前所未有的速度进行积累,未来的挑战很可能是,根据相关环境参数解释所观测到的多样性模式。这将有助于回答微生物生态学中的基本问题,比如说,微生物多样性能否像大型生物多样性那样,对相同因子做出定性和定量的响应。

微生物生态学家试图总结并进一步探索大量数据集所遇到的大多数障碍,与选择合适的数值工具,从而进一步系统直观地分析这些数据有关。这些由群落生态学家开发的用于研究动植物分布和多样性模式的工具,同样可以应用于微生物生态学中。虽然文献中已经对群落多样性模式的多变量分析有充分的描述,但是微生物生态学家很少使用,或者主要是出于探索性分析的目才使用多变量分析。对文献的简要调查证实了这一趋势(表1,图1)。表1表明,在使用多变量分析方法的研究中,细菌研究排在植物和鱼类研究之后,位列第三。复杂的数据集主要是通过主成分分析或聚类分析进行探索,而由假设驱动的分析技术,如冗余分析、典范对应分析(CCA)或Mantel检验,则很少使用(图1)。轴1(水平轴)明确将微型生物(细菌、微生物、真菌)与大型生物(鱼类、鸟类、植物、昆虫)区分开来,这可能与第一组中使用更多的探索性分析方法(如聚类分析、PCA)有关。重要的是要指出,表1和图1中显示的数字必须谨慎使用,因为许多文章的标题或摘要中并不包括对统计方法的描述,因此该表格是存在偏见且不完整的。但是该表格的目的不仅是要确定文献中的一般趋势,还要给出说明多变量分析对数据表进行分析的有效例证。

表1. 多变量分析在不同研究领域的使用率(%)

2006年12月13日,使用Thomson ISI研究工具通过以下参数——文献类型:所有文件类型;语言:所有语言;数据库:SCI-EXPANDED,SSCI,A&HCI;Timespan,1900-2006——对文献(仅限文章的标题和摘要)进行检索;

在每个关键字的末尾加上*,以适应变化。每个关键字还附加了以下内容——技术名称:Cluster,聚类分析;PCA,主成分分析;MDS,多维尺度分析;PCoA,主坐标分析;CCA,典范对应分析;RDA,冗余分析;Mantel,Mantel检验;CVA,典范变量分析。

“Total number”指每个关键字及其所有组合标识的出版物的总数。基于原始数对应分析的排序如图1所示。

图1. 不同科学领域使用的相应分析方法

在CA部分的对称尺度中,前两个轴分别解释了表1的总惯量的47.3%和35.8%。图中绘制了灰色区域进一步解释。表1给出了完整的行名(科学领域:实心圆圈)和列名(方法:白色三角)。彼此靠近的方法(三角形)对应于研究中经常同时出现的方法。科学领域点和方法点之间的距离近似于现场使用方法的概率。

这篇综述旨在介绍一些常见的多变量技术,以促进将它们应用到微生物生态学家的研究工具箱中。实际上,如果不具备多变量分析的知识,就不可能对生态学和系统学有完整全面的理解。或者反过来说,对方法的误解会阻止科学的发展。这样的综述是很有必要的,因为它试图为广泛应用但仍处于发展阶段的学科提供指导。但它不可能毫无遗漏低地悉数概括,也不可能系统深入地介绍所有选定主题。本文主要受启发于多份高度推崇的资料中的描述、评论和建议。

在第一部分,将数据类型和准备工作视为后续多变量分析的必要基础。其次,对于常见的多变量方法(例如聚类分析、主成分分析法、对应分析、多维尺度分析)和一些统计方法,检验组或聚类之间的显著性差异,重点聚焦在方法的主要目标、应用和局限性。第三部分,除了识别多样性模式外,微生物生态学家还希望通过利用测得的环境参数来关联或解释这些模式。重点介绍了一些已经在生态研究中证明有用的方法,如即冗余分析、CCA、线性判别分析以及方差分解。最后一部分提供了实际考虑,以帮助研究者们避开陷阱,选择最合适的分析方法。

数据类型和数据准备

数据集

初始多变量数据集可以由行中的对象表(例如样本、地点、时间范围)和列中的这些对象的测量变量组成。这种表结构是该综述中使用的标准。当后一个变量是生物分类单元时,其列则被指定为“物种”。关键是要清楚识别数据集中所对应的对象和变量。事实上,一项研究中的对象可能是物种或可操作分类单位(OTU),可对其进行分解代谢谱、基因存在或多态性等进行测量。在另一项研究中,例如基于群落印迹技术比较了来自不同站点的样本,此时的研究对象则是样本和物种变量。这种差别很重要,因为分析对象或变量之间关系的过程是不同的。在进行观察和可变测量之前,通过采样策略先验定义对象。此外,大多数多变量分析都假设对象(或样本)之间是独立的,即对一个对象进行的观察不是先验地依赖于对另一个对象进行的观察。然而,可以发现变量在各个程度上是相互关联的,但这不一定是事先已知的。在计算研究对象之间的成对差异时,初始数据集也可以由距离矩阵组成。原始数据的原始表格并非总是可用的(例如DNA-DNA杂交值,系统发育距离),因此必须考虑使用特定的多变量技术来处理数据矩阵。

数据转换

在多变量数据表中,测量变量可以是二进制、定量、定性、等级排序、类别、频率,甚至是这些类型的混合。如果变量没有统一的尺度(例如,以不同单位或尺度测量的环境参数)或适当的格式,则在执行进一步分析之前必须对变量进行转换。每个定性变量都必须重新编码为一组数值变量,以便于在数值计算中替换它。一种方法是创建一系列“虚拟”变量,这些变量与定性变量的所有状态相对应。例如,如果编码“季节”这个变量,要构建四个相关变量,当它发生在某一季节时,赋予该季节的值为1,而其他三个季节的值为0。许多统计软件包可自动完成这个编码。

标准化提供了无量纲的变量,并消除了尺度或单位之间大小差异造成的不良影响。常见的过程是将每个变量的值进行z-score法转换。对于每个变量,它包括:(1)计算原始数值与和所有变量平均值的差值,(2)再将这一差值除以原始变量的标准方差。

标准化转换旨在校正某些偏离正态变量的分布形态。因此,人们试图获得变量的齐次方差,在这种情况下,多变量统计分析的效果更好。可以使用不同的数学变换来标准化变量的x值:例如,可以将反正弦转换应用于百分比或比例数据、将log(x+c)应用于与正态分布强烈背离的变量、可应用于问题较少的变量,其中c为常数,从而避免数学上不确定的计算。通常选择常数c,以便通过在前一个函数中计算x+c来获得最小的非零值。该常数也应同变量具有相同的数量级。

群落组成(有无或丰度)的数据包含许多零值时,适合通过线性统计方法(例如主成分分析和典范冗余分析等)进行分析,五种数据转换方法之一Hellinger转换能提供良好的结果。弦变换也是一种有用的转换,可减少物种表中的稀有物种权重。这些转换公式如下:

式中yij代表样本i中物种j的数值,代表样本yi+所有物种数值的加和(也就是每行的加和),p是表格中物种数(列的数量),yij'代表转换后的物种值。当稀有物种并非真正稀有时,即当它们大多是因为采样是随机进行时(如土壤或海洋微生物生态学中通常进行的采样),特别推荐使用这些转换。在Sokal & Rohlf (1995) 和Legendre & Legendre (1998)中,可以找到更多的数据转换方法。

如何处理缺失数据本身就是一门学科,简单地说,可以删除含有缺失值的行或列,或者尝试通过数据集中其他对象的值,推断估算出缺失值。在后一种情况下,对于这些估算,依旧很难为这些估算值提供具有生态学意义的解释。不论如何,研究者应该对缺失数据的具体处理进行记录。

探索性分析

复杂数据集的可视化和探索

排序和聚类分析的基本目的是基于与对象(样本、位点)相关联的多个变量(列)的值来表示它们之间的相似性或不相似性,因此类似的对象通常被描述得很接近,而相差较大的对象会有很大的分离。因此探索性多变量分析可用于揭示大型数据集中的模式,但是它们不能直接解释为什么存在这些模式,这一点在本文第三部分有所体现。

聚类分析和关联系数

聚类分析包含几种多变量技术,这些技术基于对象的相异性将其分组为不同类别。其目的在于最小化组内变异,同时最大化组间变异,从而揭示对象的明确定义类别,以此减少数据集的维度,使其成为几个排列的分组。因此,在样本(对象)之间预期有明显的不连续而不是连续的差异(即梯度)时,通常建议使用此方法,因为聚类分析主要旨在表示数据集中的分区。

因为以DNA或氨基酸序列差异为基础的距离矩阵,常用于描述微生物多样性,所以聚类分析在微生物生态学中已经变得非常流行(表1;图1)。这并不奇怪,因为基于表型或基因型相似性推断其生物分类位置的生物分组,通常且一直以来都是基于聚类分析(或至少基于树状表示),因此对于生物学和进化至关重要。由聚类分析解决的典型微生物生态问题是,分子序列的聚类模式是否反映样本来源或取样时间,以用于揭示特定的生物地理或时间模式。一般认为这些因素是不连续的,但利用分子序列差异代表间断类群的基本原理,最近开始在微生物生态学和微生物基因组研究中受到质疑。另一种常见的应用包括根据特定标准(例如遗传或表型标记)从环境样本中分离克隆样本,因为推测克隆或变种会在其亲本株系紧密聚成一类,而远离其他株系(Acinas等人,2004)。在微阵列数据分析中,聚类分析有助于确定基因组的常见表达模式,进而有助于阐明功能相关的基因或途径(Eisen等人,1998)。

数据表中的聚类分析过程有两个步骤。首先,选择关联系数测定对象或变量之间的关联性(相似性或相异性)。其次,基于具体规则来聚集对象,用一个横向树(聚类)或间断对象的不同类群(k -均值聚类)来表示计算出的关联矩阵。对于生态学家来说,聚类分析依赖于不同类型的相似性(不相似性)系数。选择适当的和具有生态意义的关联系数是特别重要的,因为它直接影响到的随后的对象分类应用。

对象(行)之间的相似性分析被称为Q模式分析,而研究变量(列)之间关系的分析则被称为R模式分析(Legendre & Legendre,1998)。值得注意的是,这两种分析模式通常不会使用相同的关联系数。尽管此处不可能全面回顾所有关联系数,但已知的是,为了在Q模式分析中基于对象(行)的列属性比较对象(行),可以将系数选择为数据类型的函数( 定量、定性、有序或混合数据、归一化数据、不存在),对稀有物种的重视程度,对每个物体的重视程度以及相关概率水平的计算。对样本-环境表(例如水、土壤化学)中的对象进行比较,选择适当的系数一般取决于数据类型和测量变量单位的均匀性。在R模型分析中,除了之前提到的标准,系数的选择也取决于变量是如何相互关联的(如线性、单调、定性、顺序)以及如何处理物种缺失数据。在大多数生态学研究中,对缺失同一物种的两个地点进行比较,并不是作为这两个地点间相似性度量来考虑。事实上,一个物种在两个地点同时缺失可能是由于不同的原因,例如不同的地点提供的物理化学条件不同或者物种在这两种条件下都不能存在,所以不能简单得出两地点相似性的结论。非对称系数是在地点成对相似性计算中不考虑物种双重缺失('双零')情况的系数。此外,在微生物生态学中,对环境群体的取样一般远远不够,OTU的双重缺失更多被认为是信息的缺乏而不是样本间共有结构的标志,应该优先考虑不对称系数,如Jaccard或Sorensen不对称系数。更多关于相关性系数计算及其适用性的详细说明可以参考第七章(Legendre & Legendre,1998)

当计算一个关联矩阵时,对象或变量之间的关系可以按如下具体规则来表示。三种常用的方法是:系统聚类、K-均值分区、双向联结。在系统聚类中,构成集群的关联规则和最适合数据的集群个数必须事先确定,集群是嵌套的而不是相互排斥的,而且由从高向低的相似临界值(向前集群)的对象逐步聚类构成,或者反向自低向高方式聚类(即把所有的对象组合在一起,并且按从低到高临界值来合并对象和集群(向后集群))。这两种方式不一定产生相同的集群。集群的合并可通过树形图(一般是水平的)来可视化表示,并且当数据集中确定了定义好的集群时,这种可视化效果更好(Sneath & Sokal,1973)。

常见的关联方法,例如最近邻点法(两个集群之间的距离是最近相邻点之间的距离),最远邻点法(两个组之间的距离是最远的两个个体之间的距离),以及广泛使用的未加权类平均法(UPGMA; Sneath & Sokal,1973),其中两个群体之间的距离是所有集群间距离的平均值。当要求集群内部均匀时,推荐使用Ward的方法,只有当集群内均匀变化增加最小时才合并类集(Legendre & Legendre,1998)。最后,对于集群同样需要重视的是,对于不同大小集群可以使用加权算术平均聚类(WPGMA),它不太重视大的群体间原初的相似性(Legendre & Legendre,1998年)。

在K -均值聚类中,根据对象间最近的欧氏距离到集群的平均值,对象被分配到k个集群中(k预先定义)。集群的平均值是经过反复迭代计算的,直到集群的平均值低于预定的临界值或直到达到极限。理想情况下,对于分析中使用的每个维度,每个聚类都会获得不同的平均值,如方差分析中的高F值所示。不同于系统层次聚类,k-均值聚类不需要事先计算对象之间的相异矩阵,因此更适合计算较大的数据集(如有数千个对象的数据集)。但是,该方法对于离群值非常敏感,离群值通常要在进行聚类分析前舍去(Legendre & Legendre,1998)。

当一个或多个变量属于类别式(不间隔或叉状分支)时,两步聚类分析可能对组对象集群更适用。对象首先基于类别分组,其本身作为一个单一的系统层次聚类。由于既不需要近似表,也不需要重复步骤,因此该方法特别适合用于非常大的数据集(Eisen et al,1998)。

主成分分析(PCA)

PCA已应用于众多的表型和基因型数据分析(如印迹图谱),或许是因为在大多数数据分析手册中,该技术通常是第一个被介绍的多变量方法,它是最流行的探索性分析方法之一(表1)。然而,这在生态学中并非完全合理,本文末尾实践考虑部分提供了推荐该方法的合适条件。在微生物生态学中的使用范例注重鉴定微生物群落季节和地理区域的分布模式(例如Merrill & Halverson,2002),这些模式与不同发育阶段的植物区划相关性(Mougel等人,2006),降低数据集的复杂性,包括水文化学数据、细菌和古菌群落图谱,以便在污染场地的二维地理地图中进行可视化和解释复杂的多变量数据(Mouser等人,2005)。

PCA过程主要是计算新的合成变量(主成分),它是原始变量的线性组合(例如,样本物种表中的物种),并且尽可能地解释原始数据的方差(Hotelling,1933)。这样做的目的是在一个新的坐标系中(一般2轴或3轴)表示数据集中的对象(行)和变量(列),该坐标系可以描述出原始数据集的最大变异幅度。在实践中,主成分分析基于方差-协方差矩阵或相关矩阵。当使用相同的单位或数据类型时(例如不同的物种丰度),采取第一种方法。其目的是,在随后缩小的空间中维持并表示对象的相对位置和变量之间的变化幅度。描述变量在具有不同的计量单位或不同的尺度(如不同的环境参数),或当其目的是为了显示(标准化)描述变量的相关性时,主成分分析要利用相关矩阵。这两种方法在对象排序中形成不同的主要成分和距离,因此对关系的解释必须严格(见表2)。事实上,对于相关矩阵来说,变量首先要进行标准化处理(即在原有尺度上转化成的无量纲独立变量),因此对象之间的距离与原来变量的尺度无关。忽略其原始差异,所有变量在同等程度都有助于对象的排列。

PCA结果通常以双标图显示(Jolicoeur & Mosimann,1960),其中坐标轴对应于新的坐标系,同时代表了样本(点)和分类单元(箭头)(图2A)。物种箭头的方向表示丰度的最大变化,而其长度可能与变化率有关。这取决于距离或相关双标图的选定,可以从排序图(表2)得到不同的解释。样本和物种之间关系的解释各不相同,直接受尺度选择的影响,即分析重点主要在样本间关系(尺度1)还是物种间的相关性(尺度2)。例如,在尺度1中,对象之间的距离在多维空间中接近其欧氏距离,但如果选择尺度2,这种距离是无效的(表2)。将一个对象以直角投影在排序图中的箭头上,可以近似这一对象沿该种类描述的位置。该物种描述的长度表明其对排序空间的形成所作出的贡献。对于相关双标图,坐标轴中一物种箭头的正交轴投影长度接近其在各自轴的SD。物种箭头之间的角度反映它们之间的关系,如推测物种之间的相互作用(尺度2)。双标图的一个错误解释是使用对象点的距离和用一个物种的箭头尖端推断它们之间的关系。实际上,只有样本到物种箭头上的直角投影才是正确的,才能得出样本中近似的物种丰度。

表2. 排序图的解释

排序图的解释取决于研究的重点,因为样本得分会根据缩放比例选择进行缩放。双标图和三点图中表示为物种(表示为点或箭头)、样品(点)、环境变量(ENV:箭头)和名义(定性)环境变量(NENV:点)之间的不同元素之间的近似关系。当由于排序分数的不适当缩放比例而产生的非最佳比较时,就会发生无意义的解释(“-”)。

图2. 二维排序图

(a) 在PCA双点表示法中,样本用点表示,物种用箭头表示。箭头指向物种丰度变化最大的方向,其长度与最大变化率成正比。长箭头对应于对数据集变化贡献更大的物种。样本点在物种箭头上的直角投影给出样本中的近似物种丰度。(b) 在以物种距离为中心的CA联合图表示中,样本和物种都被描述为点。物种点对应于它们主要出现的样本的重心(惯性)。样本点和物种点之间的距离表示样本中物种组成的概率(有关图表解释的更多详细信息,请参见表2)。

一般使用主成分分析是在对象(位置或样本)梯度很短时,即当研究区域中各处都可以识别相同物种(也就是在样本的物种丰富度差异达到最大时),并且此时的物种对环境线性响应。但是由于在生态学研究通常不满足这些条件,其他多变量方法优于主成分分析而被广泛推荐(如表1建议),如对应分析或多维尺度分析。

当最大的(一般是前两个或三个)成分占据差异的绝大部分时,主成分分析是适用的。差异中每个主成分占据的份额是通过其特征值表示的。特征值计算步骤的数学描述并不是本研究的主要目的,很容易在大多数线性代数手册中找到。当PCA的特征值大于所有特征值的平均值时,通常认为它们是有意义的(Legendre & Legendre,1998)。最大组成部分所占的累计方差百分比表示实际排序中解析的总变异的比例。合成变量(主要成分)和原始变量之间的高绝对相关值可用于识别哪些变量造成了数据集的主要变化,这被称为给定轴上的变量加载。但是,由于合成变量和原始变量是线性相关的(即它们不是独立的),因此无法使用标准检验确定它们之间相关性统计显著性。

主坐标分析(PCoA)

尽管该技术在减少和表示距离矩阵中显示对象之间存在相似性的模式方面很有用,但微生物生态学家却很少使用该技术(表1)(Gower,1966)。它的目标与PCA的目标非常相似,因为它使用对象之间的距离或差异到排序空间(即笛卡尔空间中的投影)的线性(欧几里得)映射,并且算法尝试解释原始数据集。例如,在微生物生态学中,PCoA已用于测试由致病性菌株引起的毒力谱(即是否存在特定基因)是否可以区分健康或受污染的宿主(Chapman等,2006)。当通过随机扩增的多态性DNA-PCR分析建立了PCoA轴之间的遗传关系时,它们可以将金黄色葡萄球菌分离株分为牛和人宿主(Reinoso等,2004)。

与PCA相对,PCoA可以使用任何相异性度量,因此能够更好地处理数据集中存在多个双零的问题的特定关联系数。此外,PCoA无法提供组成部分和原始变量之间的直接联系,因此,对变量贡献的解释可能会更加困难。这是因为PCoA分量不是PCA中的原始变量的线性组合,而是取决于所选差异度量的原始变量的复杂函数。此外,某些距离度量的非欧几里得性质不允许将提取的变化完整表示为欧几里得排序空间。在这种情况下,不能表示非欧几里得偏差,也不能精确计算总方差的百分比。因此,选择相异性度量非常重要,有时需要对数据进行后续转换以校正负特征值(有关如何校正此类负特征值的信息,请参见Legendre&Legendre,1998)。

对象在排序空间中表示为点。特征值在这里也用于测量每个PCoA合成轴上最大的合成变量所占的方差。虽然组成部分和原始变量之间没有直接的线性关系,但是仍然可以将一个或多个主轴上的对象分数与原始变量之间的相关关系,以评估其对排序的贡献。

对应分析(CA)

某以位点(或物种)面临的基本生态偏好表所要解决的问题是,在某个特定的生态位点上,生态学家所要解决的问题是在某个特定的生境中发生的。CA普遍应用于微生物生态学,以确定微生物OTU分布模式能否反映群落组成随季节、地理来源或栖息地结构的变化而变化(Olapade等人,2005年;Edwards等人,2006a,b;Kent等人,2007年)。该方法的总体目标是比较样本和物种之间的对应关系,从一个计数数据表(或任何维度同质表),并将其表示在一个简化的排序空间上(Hill,1974年)。值得注意的是,CA不是最大化排序所解释的方差量,而是最大化物种值和样本值之间的对应关系。有几种算法,最常见的算法是倒数平均法,它包括:(1)表中的所有物种分配任意数量(这些是初始物种值),(2)对每个样本来说,样本值为所有物种值的加权平均值(这就涉及到每种物种在该位点的丰度和先前确定的物种值),(3)对每种物种来说,新物种值计算为所有样本值的加权平均值,(4)物种值和样本值再次标准化,以获得平均值为0和SD为1,(5)重复步骤2—4,直到物种和地点数值在连续迭代中收敛到稳定解(Hill,1974)。基于距离的总体表方差(惯性)被分解为相互不相关的连续分量,如PCA或PCoA程序中那样。对于每个轴,物种数值和样本数值之间的总体对应关系由一个特征值概括,因此后者相当于物种数值和样本数值之间的相关系数(Gauch,1982)。

这项技术在生态学家中很流行,因为当物种表现出与环境梯度的单峰(钟形或高斯)关系时,尤其推荐使用CA分析(ter Braak,1985),当物种倾向于给定环境变量的特定值或满足最佳条件时,由丰度或存在的峰值进行解释(这可以通过绘制物种丰度与环境参数进行可视化)。支持生态位概念的单峰模型也已被证明在排序大多数生态数据时具有正确的复杂性顺序(ter Braak & Prentice,1988)。尽管有大型生物存在沿变量或环境梯度的单峰分布的例子(ter Braak,1985),但微生物物种丰度沿环境参数或梯度分布的形状尚未得到广泛研究(见Ramette & Tiedje,2007a,b)。这可能是因为,在微生物调查中,环境采样大多是根据环境异质性随机进行的,而目标物种的丰度通常是在没有系统分析相关环境参数的情况下确定的。最后,微生物学生态学家采用CA分析的另一个重要特征是倒数平均算法忽略了物种的双重缺失,因为表的行和列之间的关系使用排除双重缺失的系数进行量化(Legendre & Legendre,1998)。

样本和分类单元往往在排序空间中被共同描述(即联合描绘;图2b),其中数值的惯性中心(质心)对应于所有轴的零值。根据对尺度类型的选择,无论是行(样本)还是列(物种)的排序都是有意义的,可以分别理解为一个样本或物种之间的距离的近似值(有关解释详情见表2)。关于物种相对频率的模式,彼此接近的采样点是相似的。重要的是要记住,在这种联合图中,可以解释采样点之间的距离或物种之间的距离,但不能解释采样点和物种之间的距离。事实上,这些距离不是从相对行或列的频率计算出的简单欧氏距离,而是它们的加权距离。图中样本点和物种点间的接近性可以理解为物种出现的概率或在物种点附近样本中的高丰度概率。

在尺度2上(即侧重物种),在排序空间中心发现的物种点应与原始数据仔细核对,以阐明物种排序是否真的对应最大丰度或出现频率,或者只是错误的以主轴代表物种,比如在其他轴更适合表示物种的情况下。稀有物种对总表惯性的贡献不大(即它们只在整个表方差中起次要作用),因此位于图的边缘位置,靠近着它们出现的位置。一般来说,只有远离排序中心且不靠近排序边缘的物种点,才有更多的机会与排序轴相关,即促成总体方差(Legendre & Legendre,1998)。

当某地点的物种组成沿环境梯度逐渐变化时,样点位置会在排序图中作为非线性排列形成“拱形”(或在PCA中的“马蹄形”)的非线性配置(Gauch,1982),这可能会进一步削弱生态解释。在CA中,拱形效应是可作为CA过程的副作用通过数学来计算得出,CA过程试图获取最大限度分离物种和彼此不相关的轴(ter Braak,1987):当第一条轴能够正确地将样点和物种进行排序时,第二轴(与前者不相关)可通过在中部折叠第一条轴,并将其末端合并在一起来获得,从而形成一个拱形的排列。更多的轴,可通过进一步划分并将第一轴折叠成段来获得(Legendre & Legendre,1998)。为消除CA中的拱形效应,需要使用一个去趋势的数学程序,用于压平沿第一条CA轴线的样点分布而不改变其在第一轴上的序列。后来这种做法被称为去趋势对应分析(DCA)。对不同的去趋势算法的介绍(如使用分段或多项式)超出了本文的论述范围,可在之前的研究中(ter Braak&Prentice,1988;Legendre & Legendre,1998)获得更多资料。有些作者认为,拱效应可能不是人为因素,而是分析的预期特征,尤其是当物种在环境梯度上的更替率非常高时(James & McCulloch,1990年)。在这种情况下,如果样本是沿拱形有意义地定位,那么排序应视为一种有效的结果。

非度量多维尺度(NMDS)

NMDS对找出潜在梯度和代表基于多种类型距离测量的关系是有效的,因此在微生物生态学中被广泛应用(表1)。受到分子印迹技术的影响,该技术已普遍应用于确定多个样本模式中。例如,用NMDS分析和比较不同实验室之间的各种印迹图谱技术,如核糖体基因内部间隔分析(RISA)、终端限制性片段长度多态性(T-RFLP)和变性梯度凝胶电泳(DGGE)等,在盐度梯度中选择样品时的可重复性(Casamayor等人,2002)。在具有不同土地管理措施的样本中,利用NMDS比较微生物群落的多样性模式(基于长度异质性PCR分析)(Mills等人,2006)。另一个例子是,使用DGGE剖面分析了四个不同营养负荷和食物网结构的浅水湖泊中的浮游细菌群落,以确定每个湖中群落特征的特异性(Van der Gucht等人,2005)。

NMDS算法将对象间的距离而非初始距离进行排列,并使用这些排列将对象非线性地映射到简化的二维排序空间中,以便于预先处理它们的排列差异(Shepard,1966)。处理过程如下:首先将对象随机放置在排序空间(须事先定义维度数目),然后通过单调回归将初始配置中的距离与基于应力函数(值介于0和1之间)的原始数据矩阵中的距离进行比较。后者表示顺序配置上的列数与在原始距离矩阵中的列数之间的差异。NMDS过程通常执行多次迭代,以获得基于对象在排序空间中不同随机初始位置的最低应力值(即最佳拟合优度)。样本物种表中的模拟结果显示,在应用NMDS之前,通过最大丰富度对每个物种进行标准化处理,然后根据Steinhaus或Kulczinski相似系数计算样本间距离,获得的排序结果,(Legendre & Legendre, 1998, p. 449)。

在NMDS排序中,对象之间的距离与其相似性相对应,但排序距离与对象之间的原始距离不对应。由于NMDS保留了对象的顺序,NMDS排序轴可以根据需要自由地重新缩放、旋转或反转,以便更好地可视化或解释。由于迭代过程,NMDS比特征分析(如PCoA、PCA或CA)的计算更为复杂。然而,随着计算能力的不断提高,这种限制对于中小型矩阵来说不再是问题。

组间显著性差异的检验

除了在排序图中表示对象或类似对象的聚类外,另一个目标是测试多变量表中的对象组(行)之间的差异是否基于其属性(列)的集合而显著不同,即测试组内的相似性是否高于那些组小组之间。本文简要回顾了标准统计软件包中常见的非参数多变量方差分析(NPMANOVA)和相似性分析(ANOSIM),也可以使用典范分析(检测组间显著性差异)来测试对象组之间的显著性差异。但是,这些统计检验不能用于评估先前对相同变量进行聚类分析得出的各组之间的统计差异,因为在这些条件下,这两种方法是相互联系的。事实上,从聚类分析中得出的组(这些组本身是为了拟合数据)将被用来检验组间没有差异的原假设。这样一来,这个假设就不会独立于用来检验它的数据,而且即使事实并非如此,几乎总是会在两组之间产生显著差异(Legendre & Legendre,1998)。

非参数的多变量方差分析

这种方法可以用来检测两组或多组多变量组数据的平均值之间的显著性差异(Anderson, 2001)。均值相等的零假设检验是基于Wilks’ λ统计分析,它取代了用于单因子方差分析中的F检验。当只比较两组数据时,Hotelling’s T2检验更为合适。T2检验整体上和Wilks显著性检验一样,也可以作为事后验证检验来评估组间成对统计数据之间的差异性。差异性检验通常是用几千个重复,通过组内数据成员的排列来计算的,这样避免了数据的多维正态性。因为要做很多成对数据的比较,成对Hotelling’s检验的显著性水平需要校正。例如采用Bonferroni校正法,通常为组间显著差异检测选择的P值(即0.05)被较小的P值所取代,该值通过将原始P值除以所执行的成对比较的总数来计算。例如,对于10对比较,校正后的P值变为0.005。通常认为这种修正法是相当保守的,因为它会导致较少的成对比较的显著性(Legendre&Legendre,1998)。

相似性分析

这种非参数方法基于任何距离测量来检测两组或更多组之间的显著差异(Clarke,1993)。它比较组间距离的等级和组内距离的等级。比较了这两类等级的平均值,得到的R检验统计量衡量是否存在群落结构分离(R=1),或是否没有分离(R=0)。通常认为R>0.75表示群落能较好的分离;R>0.5发生分离,但出现了重叠;R<0.25,基本没有发生分离(Clarke & Gorley, 2001)。因为该检验是以距离等级为基础,该检验比多变量方差分析有比较少的假设,经常用于样本物种表格中样本组间的比较。为了避免得到虚假的显著结果,所有组的数据应具有可比较的组内离散度(Legendre & Legendre, 1998)。

微生物生态学应用包括空间差异、时间变化、环境影响对微生物类群影响的检验等。例如,Kent 等人(2007)确定了来自同一湖泊中的细菌群落在组成上是否比来自不同湖泊中的细菌菌落有更高的相似性。来自不同地理区域、生境或鸟类宿主的细菌群落组成和多样性也可以通过长度特异性PCR数据的ANOSIM分析来进行比较(Bisson等人, 2007)。另一例子是应用于ANOSIM分析终端限制片段长度多态性(T-RFLP)数据,研究硼和氯化钠对小麦根际土壤微生物群落结构影响。

环境解释

探索性分析能揭示在一个数据中对象的组或群集的存在。当提供对象的环境变量的补充表格或矩阵时,也能辨别出观察到的模式是否和环境梯度有关。例如,典型的目标是揭示群落结构和栖息地异质性之间的关系、群落结构和空间距离之间的关系,或者当存在一个大环境变量组合时,用来辨别影响细菌群落的主要变量。

通常可以用数据排列技术来评价物种模式和环境变量之间关系的显著性,例如能从数据本身推断出统计特异性的Monte Carlo检验。数据的顺序(通常指矩阵的行)可以变换,观测值模式和环境变量之间的关系也可以进行随机评估。当变量不符合正态分布时(对于环境和生态的数据,这是很常见的),这种方法尤其适合。传统的统计程序要求数据正态分布(Legendre & Legendre, 1998)。

间接梯度分析

排序轴或聚类群基于另外的环境变量可以解释(在排序或聚类分析中不使用的变量),这些环境变量可以提供关于研究点或物种生态特征的生态学知识。当在样本物种表中使用探索性排序时,样本是沿着在物种组成主要变量的轴进行排列。这些轴是在没有参考环境特征的情况下建立的,但是它们可以代表潜在的环境梯度(如环境参数、空间或时间变量、化学梯度),随后需要进一步鉴别。这种方法被成为“间接”分析,因为首先建立了合成变量(例如轴),而且在此之后还与环境变量相关。例如,对象在主成分分析或对应分析中的数值也可以通过标准统计程序(如方差分析和回归分析),更进一步与环境变量建立联系。同样,利用Spearman’s等级系数在主坐标分析和非度量多维尺度分析中,可以比较每个轴上的对象级别和附加的环境变量在各对象上的级别(Legendre & Legendre, 1998)。

一种简便的解释方法是将附加的环境变量描绘为箭头直接标在排序图中。通过将变量的数值线性回归到等级轴上,将它们加到已存在的等级中,可使用各种统计程序包来实施计算(如R中的CANOCO包)。因此,也可用于评估多数环境变量快速变化的幅度和方向,并且能够确定它们是否和对象中观测到的模式相对应(Oksanen, 2007)。在聚类分析中,有序聚类结果和环境变量之间相关系数的绝对值大小,能够为环境因素导致数据集出现间断分布的推断提供依据和线索。

显示附加信息以帮助解释排序的另一种简便方法是使用大小与附加变量值成比例的位点符号。所以我们也可以形象化地估计对象(样本、样点)的等级是否与附加变量的特定趋势相符合。例如,利用这种策略可以将DGGE图谱应用在多维尺度变量分析中,在排序图上将五种附加环境变量按数值比例绘制圆圈,目的是辨别四个淡水湖中与细菌群落结构相关的主要环境因子。

直接梯度分析(约束分析)

在约束(典范)排序分析中,仅显示和分析物种表中可由环境变量解释的变化,而不是物种表中的所有变化。梯度被认为是已知的,并由测量变量或它们的组合来表示,而物种丰度或发生率则被认为是对这些梯度的响应。约束排序分析主要基于将主轴与观测环境变量相关联的多变量线性模型,不同的技术也基于不同种数据类型(矩阵或表格)以及物种在梯度中分布的假设(即线性或单峰)。其目的是找到物种组成和测量的环境变量之间的最佳数学关系,并通过排列测试评估这种关系是否在统计学上是由于偶然性而产生的。由此产生的排序图显示了样本、物种和环境变量,因此可以从箭头之间的角度或点和箭头之间的距离来尽可能容易地导出适合“物种×样本”和“物种×环境”之间的关系(表2)。

冗余分析(RDA)

冗余分析在微生物生态学中已有所应用,例如验证具有特定碳源利用特征的生物控制细菌的存在是否与样本的不同来源有关(Folman等人,2003),确定哪些重要的环境因子最能解释未被扰乱的原生态大草原和经过种植的农业耕地的微生物群落组成(McKinley等人, 2005),考察样本采集地(经度、纬度和海拔高度)对植物病原菌遗传多样性的影响(Kolliker等人, 2006),或评估季节、农场管理和土壤化学、物理和生物特性对氮素流动和细菌群落结构的影响(Cookson等人,2006)。

认为这种方法是主成分分析的延伸,在主成分分析中,将主要成分约束在环境变量的线性组合中(Rao,1964)。需要两个表格:一个是物种数据(因变量),另一个是环境变量(自变量)。利用多重线性回归来解释自变量和因变量之间的关系,这种计算方法是用递次求近法来寻找对象最合适的排序。这种方法的好处是不仅最大程度展现了通过测量环境变量所能解释的物种变量的主要模式,而且展现了数据中每个物种和环境变量之间的相关系数。

当数据集中包括对象间距离的矩阵时,可以应用基于距离的RDA确定附加的环境参数可以多大程度上解释矩阵中对象间的变异。该技术首先在距离矩阵上应用主坐标分析,将其转换为包含PCoA坐标行和列的长方形表格。那些新的不相关的坐标相当于合成的“物种”变量,利用传统RDA将这些合成的物种变量与附加的环境参数进行相关分析。例如,基于距离的 RDA已经成功运用于确定环境菌株之间基因组距离矩阵的变化是如何通过土壤参数、寄主植物物种和空间范围等因素来解释的,其中每个因素单独或是组合发挥作用(Ramette & Tiedje, 2007b)。

许多软件提供了由环境坐标轴解释的物种组成的总变化、物种-环境关系的累计方差百分比,以及物种和环境表之间关系的总体统计显著性。RDA可以通过三标图方式来体现,其中样本以点表示,物种以箭头表示,环境变量(箭头指定量变量,点指定性或名义变量的水平)或其中其他组合方式(ter Braak, 1994)。根据选择的尺度,确定分析集中于样本间关系还是物种间相关性,对物种、样本和环境变量之间关系的理解也是不同的(表2)。

典范对应分析(CCA)

该方法与RDA极其相似,区别是CCA以单峰分布描述物种与环境之间的关系,而RDA是以线性模型为基础。可以认为CCA是CA的约束性形式,在CA分析中坐标轴是环境变量的线性组合。CCA使用单峰描述模型,将物种对环境变量的反映简化为数学描述,可以估计大量参数并识别少量排序轴。然而,即使这些物种展示出双峰响应、不等排列或随环境梯度出现不同峰值,这种物种模型仍然非常强大,因此这种方法被很多生态学家广泛采用(ter Braak & Smilauer, 2002)。它尤其适合于对种群丰度和存在表格数据的解释,也适合于数据集中对某个样点物种缺乏的解释。CCA对样本中的稀有物种是很敏感的,适当降低这些物种的权重有助于减少难以解释的问题出现(Legendre & Legendre, 1998)。软件输出的结果和RDA分析结果很相似,三标图和双标图的表示和解释取决于所选尺度类型(表2)。在CA和CCA中有对样本和物种点之间关系的解释是相同的。这些物种点在环境箭头的直角投射产生了随环境变量的物种点等级的正确近似值。

CCA已被越来越多的公众用于研究海洋和土壤生态系统中的微生物组合。解决的典型问题涉及到在同一样本的大量候选环境参数中影响细菌组合多样性的环境因素的识别,当多样性由培养无关性决定时,基因印迹技术,如自动核糖体基因间间隔区分析(ARISA)(Yannarell & Triplett,2005)、DGGE(Salles等人,2004;Sapp等人,2007)或T-RFLP(Cordova Kreylos等人,2006;Klaus等人,2007)。该技术中的另一亮点是,它能确定随特殊环境变量变化而响应的特殊物种或OTUs,进而鉴别可作为候选的指示物种。然后对这些物种进行进一步的实验,确定其指示物种的地位。例如,由CCA确定的威斯康星州 30个湖泊的细菌群落组成与11个环境变量之间的关系表明,细菌群落模式最好是由区域和景观尺度水平因素、特定季节、pH值和水质清澈度来解释的(Yannarell & Triplett, 2005)。CCA也成功地运用于证明以前的土地管理使用比植物物种更能影响土壤中的微生物群落(Salles等人,2004)。另一个有趣的例子是,研究海洋生态系统中非生物因子和浮游植物群落数据之间的相互关系,进而解释北海的浮游细菌动态并鉴别对环境因子有特殊响应的细菌系(Sapp等人,2007)。另一个例子是,利用CCA识别微生物群落作为污染指示物(C´ ordova-Kreylos等人,2006)。

偏排序,方差分解

在消除其他(环境)变量的影响后,需要检验某种特殊环境变量的影响,这时会用到偏排序(例如偏CCA、偏RDA)。这种方法也被称为“分离”或“控制”特定变量的影响,而这些变量在约束分析中被指定为协变量。例如,在一项环境因子和污染物变量对微生物群落影响的研究中,Cordova-Kreylos等人(2006)观察到,相对于污染物来说,微生物群落的变化更多地是因为空间变化。在使用偏CCA解释生物数据空间变异时,发现金属比有机污染物更能影响微生物群落组成。

有关控制特定变量影响效应的概念可以拓展至评估研究中呈现的所有不同环境变量集(因子)的影响,从而确定每个变量集对生物总体方差的相对贡献(解释的变异量)和显著性。所谓的方差分解程序使用标准和部分约束排序分析物种表格中的总方差,划分为每个环境变量各自的贡献量和共同贡献量(图3)。传统的群落划分方法有两种,基于Mantel检验的距离矩阵对应分解和回归分析(Legendre & Legendre, 1998)。已经证明,典范方法更适合于不同地点之间正确划分β多样性并验证关于其变量起源和维持的假设(Legendre等人,2005)。

图3. 将生物变异分为两个因素的影响

大矩形表示生物数据表中的总变化,它被划分为两组解释变量(a,b)。数字4显示了生物变异中无法解释的部分。数字1和3是通过偏约束排序或偏回归得到的,并且可以进行显著性检验。当(a)的变化量(b)可以被单独考虑为(a)的变化量时(b)。数字2,即单独归因于(a)和(b)或(a)和(b)的协变量的变化,是通过从解释的总方差中减去数字1和3部分得到的,并且不能进行统计显著性检验。

方差分解在微生物生态学中的应用包括Ramette & Tiedje (2007b)的研究,该研究在RDA背景下应用该方法解决空间、环境土壤参数和植物物种对Burkholderia 群落丰度和多样性的影响。通过量化在考虑了所有环境变量后仍无法解释的生物变异量,研究表明,与较高的分类学水平相比,在种内水平上可以预测的生物变异量要少得多。另一个有趣的例子是浅水富营养化湖泊细菌群落组成的季节变化研究,其中细菌群落组成的自上而下调节(捕食者下行效应)在计算自下而上的调节(资源上行效应)后进行了检验(Muylaert等人,2002年)。

线性判别分析(LDA)

通过探索分析得到对象的类群集或组之后,LDA可以用于辨别附加环境变量的线性组合,这些环境变量能够最好地区分这些组。这样,可以认为LDA是对于两个组或多个组的多变量方差分析的拓展,分析中可以辨别能够解释对象组的特定环境变量。另外一个应用是,基于判别式函数的计算对新指定的对象或已定义好的组进行预测或分类。例如,Fuhrman等人(2006)使用该技术证明了在4、5年内的海洋浮游细菌的群落组成具有周期重复性时间模式特性。

该项技术适用于多变量正态数据,其中属性数据是线性相关的,且变量的总体方差和协方差具有很好的统计总结。可以图示LDA的结果,在排序结果中坐标轴即是判别式函数。对象之间的差距与Mahalanobis 距离相对应(考虑到描述元之间相关关系),而且与各种描述元的测量尺度无关,经常用来比较样点或对象的组间数据(Legendre & Legendre, 1998)。

回归模型中变量的选择

由于探索性变量之间的交互相关(多重共线性),以前环境变量线性合并的方法,在约束性方法中的应用纳入了过多的解释变量,可能难以解释物种的生态分布,从而降低模型预测能力。多重共线性会使模型中的回归系数方差扩大(膨胀),从而降低了响应变量预测的精确度(Legendre & Legendre, 1998)。为了使模型中只包括对物种变异表贡献最大且显著的环境变量,经常使用自动选择程序(向前选择、向后排除或逐步选择)。选择取决于变量偏相关系数是否低于某一给定的显著性水平,而显著性一般利用Monte Carlo置换进行检验。
    在向前选择时,独立变量(一般的物种因变量表)中回归构建模型从最大解释变量开始。拟合第一个环境变量后,生物变异剩余量(即剩余方差)用于选择第二个环境变量。持续选择下去,直到没有环境变量再能显著地解释剩余方差。在向后排除时,构建回归模型开始于所有的环境变量,最次要的首先被排除,一次一个,直到获得一个显著变量。为了充分利用这两种途径,逐步回归与向前选择组合,向前选择和向后排除结合起来,不包括那些在回归模型中引入了新的变量后不再显著的因子。

尽管这些变量选择策略具有明显优势,仍需要谨慎,研究人员在回归模型中选择相关的环境变量时不应盲目地依赖自动选择程序,因为有可能获得不相关的生态模式,或其他变量的组合也可以产生更好的模型来解释物种变异(Legendre & Legendre,1998)。值得注意的是,这三个选择策略不一定产生相同的显著的环境变量组合,当所有显著性模型都无法进行计算时,它们可能被视为一个用于鉴别显著性模型的启发性方法。因此,另一种方法是将变量结合为有意义的生物或环境集,而不是依赖于自动选择程序,然后提供减少环境变量数据的思路,考察所有可能的回归模型(James & McCulloch, 1990)。比如,在对代表不同空间尺度(15项变量)、宿主物种(4项)与土壤参数(10项)等不同变量组进行方差分解时,Ramette & Tiedje(2007b)应用组内向前选择,在不同分类水平上确定能够解释微生物的多样性和丰度变化的显著变量。

Mantel检验

这个检验适合比较两个来源于相同对象且独立的数据集矩阵,例如相同样本的物种相异性矩阵和环境相异性矩阵(Mantel, 1967)。它计算两个矩阵相应位置之间的相关系数,并根据对象在一个矩阵中的置换评价其重要性。在微生物生态中,Mantel检验已成为流行方法,尤其是在测试同一组生物体之间的分子遗传距离和地理距离矩阵,或考察群落多样性与环境异质性的关系。

另一个应用是一个代表生态假设的矩阵被另外一个矩阵进行检验(称为拟合优度Mantel检验)。举例来说,如果一个分子数据矩阵可用于多种菌株集和它们已知的产地生境,Mantel检验能够确定遗传距离是否与栖息地类型相关(拟合优度)。代表生态假设的矩阵包括一系列的1和0,分别对应于来自同一或不同生境的株系。Mantel检验可以检验生境分布是否能够显著地解释分子矩阵结构。然而这个检验无法用来考察基于聚类分析结果的假设矩阵。正如检验类群之间的显著性差异,该检测方法缺少被检验的独立假设和用来检验假设的数据。

请注意,Mantel检验也用于计算Mantel相关图,这通常发生在生物地理学研究中,例如Mantel相关图通常用于根据响应数据分组到特定的空间距离类来检测物种组合中的空间结构Legendre&Legendre,1998)。

实践考虑

排序方法的选择(图4)

线性方法,如多变量回归、LDA、PCA或RDA,一般都适用于连续数据。因此,它们在环境变量显示为非线性、非单调的生态研究上的应用受到限制(ter Braak & Prentice, 1988; Legendre & Legendre, 1998)。采取不同方法选择最适当的生态模型,对物种丰度沿轴或解释变量进行排序图示化,有助于分清物种响应为线性或是单峰类型(ter Braak & Smilauer, 2002)。此外,根据梯度长度选择线性(PCA、RDA)或单峰(CA、CCA)物种响应模型。基于以第一排序轴SD为单位梯度长度,可通过DCA非限制排序和DCCA限制排序计算,例如可用软件CANOCO(ter Braak & Smilauer, 2002)。梯度长度小于3SD时建议选用线性方法,大于4SD时选用单峰方法,中间梯度长度可选用任何一种方法(ter Braak & Smilauer, 2002)。

图4. 数值方法之间的关系

探索性工具,如PCA、CA、PCoA、NMDS或聚类分析可应用于物种样品表,以提取变异的主要模式,识别样本组或样本群,或特定物种间的相互作用。变异主轴上的样本分数可以通过间接梯度分析与环境变量的变化相关。当需要进行约束分析时(即直接梯度分析)、RDA、db-RDA、CCA或线性判别分析可作为无约束方法的扩展。Mantel检验适用于检验两个距离矩阵之间相关性的显著性(例如,一个基于物种数据,另一个基于环境变量)。在分析之前,可根据需要对原始数据进行转换、标准化或标准化。

另一个重要的标准是数据类型。为了表示绝对丰度值,以线性为基础的方法(PCA、RDA)产生的加权求和是合适的,单峰模型(CCA、CA)用于相对丰度(因为物种分数是样本加权平均值),也就是样本间的相异性模型(β多样性)。它们还适合在物种表中包含许多零值的数据,相对于线性的方法,双零经常导致对样本距离的错误估算。

对象之间关系不连续时,以及期望对对象组或类别进行分析时,可选用聚类分析方法。相反,当假定对象之间变化是连续时,排序分析更为合适。虽然NMDS比PCoA的计算更为细致,但它在将对象之间的距离关系压缩成少量维度空间方面上更有优势。这是因为基本数据会导致欧氏距离代表,即使对非欧氏嵌入距离。NMDS和PCoA可通过Shepard 图表进行比较,来决定哪种能技术能更好代表原始的距离。

如果假设物种对环境梯度没有一个线性响应,NMDS比PCA分析更适合。当数据集中存在许多零点和大的环境梯度时,CA也可替代PCA。由于生态梯度过长,CA可能产生拱形效应,但是可以用DCA进行纠正。就物种模型而言,DCA和NMDS的主要区别是,前者是基于物种分布(单峰模型)的具体模型,而NMDS并非如此。因此,DCA更受生态学家们的青睐,他们认为生态位理论能更好的表示数据。如果物种组成由沿梯度变化因子外其他因素所决定,如沿梯度(如果是已知的破碎化生境),就应该选择NMDS法进行分析。

在有约束和无约束的排序分析中,所有物种对环境变量的同一成分梯度有不同程度的响应,而在多变量回归方法中,可以分别为每个物种建立不同的梯度模型。因为大多数物种对环境梯度并非线性响应,特别是在处理一个庞大的数据时,很难拟合个别物种的非线性模型。约束排序能够很好地总结物种环境关系,顺利地进行生态数据分析(ter Braak & Prentice, 1988)。RDA和MANOVA是非常相似的,但在对比后者,RDA允许考虑任何数量的物种(列)(Legendre & Legendre, 1998)。

约束和无约束(探索)方法应该平行使用(图4)。因为,对于前者来说,主轴只能代表现有环境变量可以解释的生物变异,而无约束方法可以将最高方差变异量从生物数据中提取并用少数轴表示。如果样本(对象)的约束和非约束方法产生相同的排序,这意味着测量的环境变量能够解释生物最大程度的变异。为了比较不同方法的结果,使用Procrustes 分析(Gower, 1975)得到两者最一致的结果,经过旋转、转换、扩大并评估分值的一致性。置换程序也可以用来检验两个排序或矩阵一致性的显著性(Peres-Neto & Jackson, 2001)。

聚类分析和排序技术可以结合使用,从而提供强大的可视化工具。举例来说,系统聚类可以获得更好的排序图(图5)。由于排序图将代表了大多数数据集的变异显示在维数减少的空间,因为只考虑到少数投影轴,所以对象之间的一些关系被扭曲。聚类分析得到的结果可以帮助确定对象是否属于同一集群,即使在它们在图中的相对位置不理想(Legendre & Legendre,1998)。

图5. 排序与聚类分析相结合

在同一距离矩阵上,NMDS或PCoA可以用来表示二维空间中物体之间的变化主轴。将聚类分析结果(主要联系)叠加到排序图上,有助于将数据集中的结构识别为连续空间(排序)中的不连续(聚类)。

排序和多样性指数

一般使用指数对多样性进行检测,如Shannon或Simpson指数。后者通常用来衡量多样性不同的组成部分。如α、β、γ多样性,分别对应在某一特定地点或生态系统的多样性、样点之间在物种组成上差异(即物种更替)以及景观尺度的多样性(Whittaker, 1972)。排序方法类似,样本间的变化是基于样本中的物种类群的组成进行比较,所以α、β多样性在排序图中应该分开描绘。由于多样性指数将多物种信息转化到每次观测的单一数值,因此没有出现复杂的多样性模式并不奇怪。例如,Hartman & Widmer (2006)对不同土壤管理方式下土壤细菌群落的研究表明,多样性指数未发生显著变化,而利用群落印迹分析却发现群落结构发生了变化。

要获得排序技术和多样性指数测量的一致性,这里推荐两种计算策略:物种存在的数据中,稀有种数据占优势时,采用CA -物种丰富度指数;优势种数据占优势时,采用非对称 CA – Simpson指数(Pelissier等人, 2003)。这些策略将赋予物种的数据以特定的权重,这样新物种表的简单或约束排序分析代表总体的α和β多样性,从而与共同多样性指数所得到的数值一致。

多变量分析误区

必须重申,多变量统计可能表示原因或因素,但研究者要记住,合成变量、坐标轴或集类群不一定对应于自然界中的生物或生态实体(James & McCulloch, 1990)。因此,不应该过分依靠数据不合理的因果关系,特别是在缺乏实际验证时。从理论上讲,通过分析新的数据验证推论和模型,进行模式信息和推测原因是必要的,但这很少在实践中进行。此外,无论原来收集的数据是否属于典型的待描述情况,甚至没有人质疑。

另一种常见的误区是多变量分析本身就可以找出解决复杂多变量研究的方案。虽然探索性分析可能有助于揭示数据集的模式,对观测的解释最终依靠研究者的假设和已知的生态状况知识。微生物生态学家需要自己制定合理的生态假设,并进行验证。

结论

生态学中令人兴奋的问题,通常包括确定群落模式是跨空间还是跨时间尺度的,解释这些模式与环境异质性的关系,以及量化在考虑了所有重要的、可测量的变量后仍有多少未被解释。这些问题现在可以在微生物生态学中得到解决,因为数值工具可能有助于探索和检验这些生态假说。这确实是令人兴奋的时刻,因为更大、更复杂的数据库正在被创建,并且在并行的情况下,计算能力也渐渐不再是问题。如果微生物生态学家想要验证数值方法,发展新的生态学理论,或者验证现有的微生物案例,那么获取多样性数据,尤其是相关的环境参数,就成为了核心问题。因此,将这些复杂的数据集公开,例如微生物生态数据库,以便能够在其环境背景下研究微生物多样性,这将是非常有意义的。这确实是朝着使微生物生态学成为生态学的中心学科迈出的一步。

THE

END

翻译:吕宏

校对:杨军、马国琳

***点击下方“

rda冗余分析步骤_FEMS Microbiol Ecol |微生物生态学中的多变量分析相关推荐

  1. rda冗余分析步骤_分子生态网络分析(MENA)构建微生物网络示例

    分子生态网络分析(MENA)构建微生物网络示例续前文"微生物共发生网络",本篇继续简介分子生态网络分析(Molecular Ecological Network Analysis, ...

  2. rda冗余分析步骤_群落分析的典范对应分析(CCA)概述

    典范对应分析(CCA)与去趋势典范对应分析(DCCA)概述典范对应分析(canonical correspondence analysis,CCA)是单峰约束排序方法,是对应分析(CA)与多元回归的结 ...

  3. rda冗余分析步骤_数量生态学笔记||冗余分析(RDA)

    上一节数量生态学笔记||冗余分析(RDA)概述中,我们回顾了RDA的计算过程,不管这个过程我们有没有理解透彻,我希望你能知道的是:RDA是响应变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA ...

  4. rda冗余分析步骤_文献综述,步骤与问题!

    这是 社科学术圈 推送的第1614篇文章 文献综述也称研究综述,是指在全面掌握.分析某一学术问题(或研究领域)相关文献的基础上,对该学术问题(或研究领域)在一定时期内已有研究成果.存在问题进行分析.归 ...

  5. 微生物生态学中的挑战:建立对于群落功能与动态的预测性认识

    本文转自"微生太笔记",已获授权. 标题 Challenges in microbial ecology: building predictive understanding of ...

  6. 相关分析在微生物生态学中的应用与误用

    摘要 生物信息学分析流程中常包含相关分析,用于推断分类单元之间的相互作用.我们重点强调了使用协方差分析和推荐方法分析相互作用的误区,研究了设计考量因素和改进高通量数据相互作用分析的其他数据类型.结论表 ...

  7. canoco5冗余分析步骤_基因富集分析|理解

    Gene Set Enrichment Analysis 基因富集分析 哈罗大家好!ヾ(≧▽≦*)o 年初在和老板研究 Identifying Cell Subpopulations 有关的课题,发现 ...

  8. R语言绘图实战:RDA冗余分析

    #载入vegan包 library(vegan) #读取"样本-物种"文件 sp <- read.table(file=file.choose(),sep="\t& ...

  9. canoco5冗余分析步骤_打造高性能的大数据分析平台

    大数据时代,大数据的应用与挖掘,大数据的分析和决策,大数据在经济社会的运行轨道上发挥着愈来愈重要的作用.对于大数据分析,现在好多互联网金融公司和传统的商业银行.证券基金公司都非常看重.个个都想在大数据 ...

最新文章

  1. C#常用正则表达式总结
  2. 模拟客户端浏览器-1
  3. 代理服务器地址在哪里看_看完这篇还不了解Nginx,那我就没你办法了
  4. mysql mysqladmin 介绍_Mysql—mysqladmin 命令详解
  5. 【转】ITK和VTK比较
  6. 关于c语言的数据类型常量的理解
  7. 消息中间件常见问题汇总
  8. java io 并发编程,JAVA进阶系列 - 并发编程 - 第1篇:进程线程并发并行
  9. Jquery截取中文字符串
  10. python打印日历_Python怎么打印日历?
  11. 人大金仓数据库sql语句_人大金仓数据库问题记录
  12. 总结几款国内外在线的神级抠图工具
  13. 保持精力充沛工作的14个习惯
  14. linux程序图形关不了怎么办,ubuntu下卸载软件 linux关闭图形化界面
  15. 2022山东省安全员C证操作证考试题及答案
  16. word的大表格中自动换页
  17. linux wall命令_如何在Linux上使用wall命令
  18. 学习周报20200216 | 学习计划安排整理
  19. perror 函数用法
  20. BI 前端实践 15:基于语义层的自助查询

热门文章

  1. C#.Net工作笔记016---C#中使用反射对两个对象copy复制内容
  2. python数据结构剑指offer-链表中环的入口结点
  3. Video-Swin-Transformer (二)
  4. 杭电4530小Q系列故事——大笨钟
  5. 西北大学调剂计算机,西北大学信息科学与技术学院2020年硕士考研预调剂公告...
  6. ftk学习记(list篇)
  7. docker源码编译 linux_oracle linux 6 docker 安装(包括编译git源码)
  8. php画弧,php绘制一条弧线的方法
  9. python职位应该叫什么_从事什么职位的人适合学习Python​?
  10. python爬虫更换ip_爬虫务必要改ip吗?