ME：环境DNA（eDNA）宏条形码技术正在转变我们考察动植物群落的方法

关注我们

一起探索微生物领域的奥妙

摘要

基因组革命从根本上改变了我们调查地球生物多样性的方式。高通量测序（HTS）平台现在能够对各种环境样本的DNA（称为“环境DNA”或“eDNA”）进行快速测序。将HTS和我们把eDNA序列与分类学名称相关联的能力结合起来被称为“eDNA宏条形码技术”（eDNA metabarcoding），它提供了一个强大的分子工具，能够非侵入性地调查许多生态系统的物种丰富度。本文回顾了eDNA宏条形码技术在调查动物、植物丰富度中的应用，以及在使用eDNA方法估计物种相对丰度时面临的挑战。重点介绍了eDNA在淡水、海洋和陆地环境中的应用，在这一大背景下，提炼出了不同eDNA样本类型粗略估计物种丰富度时空分布的能力。本文为研究设计提供了指导性原则，并以引物和文库制备方法为重点讨论了eDNA宏条形码技术的工作流程。此外，还讨论了在考虑对数据集进行生物信息过滤时的重要标准，并提出了提高透明度的建议。最后，展望未来，讨论了eDNA在生态学、自然保护、入侵生物学、生物监测方面的新兴应用，以及eDNA宏条形码技术如何为公民科学和生物多样性教育赋能。

关键词：

生物信息学pipeline，生物监测，公民科学，自然保护，生态学，eDNA，入侵物种，大型生物，物种丰富度

英文标题：Environmental DNA metabarcoding: Transforming how we survey animal and plant communities

中文标题：环境DNA（eDNA）宏条形码技术：正在转变我们考察动植物群落的方法

期刊：Molecular Ecology

第一作者：Kristy Deiner

通讯作者：Kristy Deiner

作者单位：Atkinson Center for a Sustainable Future, Department of Ecology and Evolutionary Biology, Cornell University, Ithaca, NY, USA

相关概念

①环境DNA（Environmental DNA）：在没有预先分离任何目标生物的情况下从环境样本中捕获的DNA。DNA的痕迹可以来自粪便、黏液、皮肤细胞、细胞器、配子甚至是细胞外的DNA。环境DNA可以从现代环境（如海水、淡水、土壤或空气）或古代环境（如沉积物、冰或永久冻土中的岩心）取样。

②群落DNA（Community DNA）：从环境样品（如土壤或水）中提取生物体个体，再进行混合后提取的总DNA。

③大型生物环境DNA（Macro-organism environmental DNA）：源自动物和高等植物的环境DNA。

④DNA条形码（Barcoding）：该术语最早由Hebert等人（2003）定义，是指基于诊断条形码标记（如COI、rbcL）单一样本测序的物种分类鉴定。

⑤DNA宏条形码（Metabarcoding）：对从混合样本（群落DNA或eDNA）中提取的多个物种进行分类鉴定，这些物种已在高通量测序平台（如Illumina、Ion Torrent）上进行PCR扩增和测序。

⑥群落DNA宏条形码（Community DNA metabarcoding）：从一起收集的样本或全部生物体中提取的DNA的HTS，但首先从环境样本（如水或土壤）中分离出来。

⑦分子操作分类单元（Molecular Operational Taxonomic Unit, MOTU）：通过使用聚类算法和预定义的序列相似性百分比（例如97%）鉴定的分组。

⑧动植物的群落DNA与环境DNA宏条形码比较

自高通量测序（HTS）兴起以来，宏条形码作为生物多样性检测工具的使用引起了极大的兴趣。然而，目前还不能明确区分何种来源的材料被用于宏条形码分析（例如环境DNA与群落DNA）。在对这两种来源材料没有明确识别的情况下，采样的差异以及实验室程序的差异可能会影响后续用于数据处理的生物信息学pipeline，并使空间和时间生物多样性模式的解释复杂化。在本文，我们试图对所使用的主要来源材料进行明确的区分，并将eDNA与群落DNA宏条形码相比较，来说明这种不同来源材料之间的差异对动植物多样性下游分析和解释的影响。

对于动植物群落DNA宏条形码，最常见的是批量收集目标群体（例如土壤、捕捉陷阱或网），在批量提取DNA之前，从其他样本碎片中收集目标个体，并将其合并在一起。相比之下，大型生物的eDNA是直接从环境材料（如土壤或水）中分离出来的，而不需要事先从样品中分离出单个生物体或植物材料，并且隐含地假设样品中不存在完整的生物体。当然，群落DNA样本可能包含来自其他生物组织、细胞和细胞器的部分DNA（例如，肠道内容物、皮肤细胞内或细胞外的DNA）。同样，大型生物的eDNA样本可能会不经意地捕捉到完整的非目标微生物（如原生生物、细菌）。因此，两者的这种区别在实际中至少可以部分地忽略不计。

群落DNA和大型生物eDNA之间的另一个重要区别是，当样本在提取过程中不被破坏时，群落DNA宏条形码产生的序列可以进行分类学验证。在这里，用于验证的序列可以随后使用Sanger测序从凭证样本中产出。由于eDNA宏条形码的样本缺乏完整的生物体，无法进行这样的原位比较，因此，只能通过将获得的序列（或通过生物信息学生成的可操作分类单元（MOTUs））与经过分类注释的序列（例如NCBI的GenBank核酸数据库、BOLD数据库（全称为Barcode of Life Data System, http://www.barcodinglife.org）或从Sanger测序的DNA中自己生成的参考数据库进行比较，才能建立分类学上的亲缘关系。随后，为了至少部分证实所得到的物种分类清单，将其与同时进行的基于物理、听觉或视觉的传统调查方法的结果进行比较，或者与某一地点的调查历史记录进行比较（见表1）。

因此，群落DNA和eDNA这两种来源的材料之间的差异导致两者对于解释关于检测到的生物多样性的时间和空间推断尺度具有不同的结果。从群落DNA可以清楚地看出，个体物种是在当时那个时间和地点被发现的，但是对于eDNA来说，产生DNA的生物体可能在采样地点的上游，或者DNA可能已经在更具流动性的捕食性物种的排泄物中运输（例如鸟类沉积鱼类的eDNA），或者DNA以前存在，但在现在的群落中不再活跃，检测到的DNA是几年前到几十年前脱落到该采样点的。后者意味着，在根据eDNA推断物种在群落中的存在时，必须仔细考虑空间和时间上的推断尺度。

表1 将某一地理位置的传统采样或历史数据与eDNA宏条形码的丰富度估计值进行比较的代表性研究

注：Complementary意味着两种调查方法检测到不同的多样性，但不排除两种方法都检测到了一些相同的多样性。Higher diversity意味着eDNA与传统方法相比，检测到了更多的多样性，但不排除某些多样性两种方法都没有检测到的情况。与传统方法相比，更好的分类学分辨率意味着基于序列的鉴定可以分类到更低的分类学水平。

引言

人为影响正在使生物多样性丧失速度发生前所未有的改变，并由此导致生态系统功能产生了前所未有的变化。因此，我们需要快速的生物多样性调查工具来衡量物种丰富度的波动，以便为自然保护和管理战略提供信息。利用高通量测序对来自环境样本的DNA进行多物种检测是调查自然群落物种丰富度的一种快速有效的方法。细菌和真菌的分类丰富度（即微生物的丰富度）是使用DNA宏条形码技术进行常规调查的，是对传统培养方法的有力补充。在过去的十年里，人们已经认识到动植物群落可以用类似的方式进行调查。

许多文献综述总结了eDNA如何用于生物多样性的检测，但它们集中在单个物种的检测、基于群落DNA的物种丰富度估计或在特定研究领域使用eDNA检测生物多样性的一般方面（表S1，见原文链接）。为了补充这些最近的综述，我们集中在四个方面：迄今为止关于动植物的eDNA宏条形码研究的总结；eDNA信息在时空尺度上的已知和未知；eDNA研究设计的指导方针和挑战（特别关注引物和文库的制备）；以及eDNA宏条形码技术在基础科学和应用科学中的新兴应用。

利用eDNA宏条形码技术测量物种丰富度和相对丰度

用于测量物种丰富度和相对丰度的传统的基于物理、听觉和视觉的方法一直是我们观察生物多样性的主要方式，然而它们并非没有局限性。例如，尽管专家进行了高度专业化的鉴定，但在一些分类群中，鉴定错误依然常见。传统的物理采样方法也会对环境和生物群落造成破坏性影响，使得它们难以在自然保护的大背景下应用。此外，当一个物种的行为或尺寸使得很难对其进行调查时（例如体型小或行迹难以捉摸的物种），传统方法可能需要专门的设备或特定物种的观察时间，从而使得对整个群落的物种丰富度和相对丰度的估计变得棘手（例如许多两栖动物和爬行动物）。以上原因突显了开发更好的方法来调查全球生物多样性的持续需要，以及eDNA宏条形码可以补充传统方法的独特之处。

2.1 物种丰富度（richness）：eDNA宏条形码与传统方法的比较

eDNA宏条形码可以通过靶向不同物种、采集更大的多样性和提高物种分类学分辨率来补充（并克服局限性）传统方法（见表1）。例如，Valentini等人于2016年的研究表明，对于许多不同的水生系统，使用eDNA宏条形码检测到的两栖动物物种数量等于或大于使用传统方法检测到的数量。当陆地食血水蛭被用作eDNA（宿主的血液）的收集器时，使用eDNA宏条形码检测到了濒危和行迹难以捉摸的脊椎动物物种，并作为偏远地理区域相机陷阱调查有价值的补充。在植物中，Kraaijeveld等人于2015年的研究证明，与目视观察的方法相比，对过滤后的空气样本进行eDNA宏条形码检测能够以更高的分类学分辨率识别花粉。

eDNA可以补充和扩展传统调查方法是有希望的，但推断的空间和时间尺度可能会在传统方法和分子方法之间有所不同。例如，在一条河流中，Deiner、Fronhofer、Machler、Walser和Altermatt（2016）在逐个地点对比的基础上表明，与传统的物理捕获方法（如踢击网采样，见表1）相比，eDNA宏条形码方法有着更高的物种检测率。然而，在这种情况下，eDNA在一个地点检测到了更多的物种可能并不是因为物种本身的存在，而是因为它们的DNA是从采样点上游的另一个地点传输过来的，这给eDNA物种的检测带来了空间和时间推断上的挑战。因此，需要研究来理解各种eDNA样本类型的复杂时空动力学（图.1），而目前我们对此知之甚少。此外，由于物种检测概率的不同，所有的采样方法都存在固有的偏差。检测概率通常因物种、栖息地和检测方法而异（如网的目数或引物与目标DNA序列的匹配度），在对测量的丰富度结果进行统计比较时，使用经过偏差校正的物种丰富度估计量将对解释这些偏差至关重要。

图.1 不同生境的eDNA样本类型具有不同的时空推断范围

注：将每种样本类型视为该环境中的单个样本。样本类型在象限中的定位不是定量的，而是代表使用该样本类型的通用尺度。虚线箭头表示样本类型在多个推断尺度范围内提供信息的可能性，但还需要进一步的研究来量化这些可能性。

未来，两种方法的比较也可以从定量生态学方法中受益，通过匹配eDNA和传统方法之间的样本工作量和样本范围来设计采样。多方法物种分布建模或位点占用建模是如何实现这一点的一个例子，并已在比较单一物种的qPCR和传统方法的案例中得到证明，但很少用于eDNA宏条形码。因此，我们预计eDNA宏条形码揭示动植物物种丰富度估计值的稳健性将通过耦合分布或占用建模与研究相结合来提高，以确定eDNA样本在空间和时间上的推断尺度（图.1）。

2.2 物种相对丰度（abundance）：eDNA宏条形码与传统方法的比较

使用eDNA宏条形码来估计物种的相对丰度是一种有趣的可能性。在这里，我们关注来自水生系统中动物的证据。基于对小生态系统中单个动物物种检测的对照研究，例如水族馆和微宇宙实验，在自然淡水系统和海洋环境中证明了eDNA可以利用物种特异性引物集和qPCR来测量相对种群丰度。虽然在所有类型生态系统中都需要更多的对照实验来确定丰度与qPCR中观察到的拷贝数的关系，但迄今为止从水体样本中观察到的证据表明，eDNA包含了关于物种相对丰度的信息。

总体而言，使用eDNA宏条形码确定整个群落的丰度信息仍然缺乏实质性证据，但在水环境中的一些研究表明，reads的相对数量与用传统方法估计的相对丰度或等级丰度之间存在一定的正相关关系。Evans等人（2016）的一个微宇宙实验结果显示，在含有鱼类和两栖动物的中宇宙中，个体和生物量的相对丰度与reads的相对丰度相关。在一个天然湖泊中，Hanfling等人（2016）发现，长期监测得出的等级丰度与鱼类物种的reads丰度相关，与eDNA抽样同时进行的刺网捕鱼调查结果呈正相关。在深海栖息地，Thomsen等人（2016）发现，当将鱼类reads整合到科的分类等级时，与拖网捕获的个体和生物量的相对丰度存在相关性。虽然有以上研究案例带来希望，但并不是所有的研究都支持这样的发现。

通过eDNA宏条形码准确估计丰度的挑战来自现场（采样）和实验室的多种因素。野外采样时，环境样本中个体产生的DNA拷贝数受到eDNA的“生态学”特征的影响（例如，其起源、状态、归趋和传输）。因为不同的动植物物种可能有不同的eDNA产生速率或“起源”，从其他地方传输过来的过程中表现出不同的“传输”速率，或者稳定性或eDNA在时间尺度上的归趋，环境样本中的eDNA可能与一个物种的实际所在地和当前的丰度有着不一致的相对关系。因此，需要继续研究eDNA的起源、状态、归趋和传输如何影响相对丰度的估计，然后我们才能理解在估计丰度时产生的误差。

在实验室中，由于与目标序列不匹配而导致的引物偏差已经被证明会扭曲来自模拟群落的扩增DNA的相对丰度。同样，相同的机制也可以改变从eDNA扩增的物种DNA的相对丰度（图.2）。引物偏差会导致在环境样本中观测到的reads丰度相对于其真实丰度的差异增加（图.2）。另一个误差来源与文库的制备方法有关，对模拟群落的分析表明，处理步骤中的二次采样可能会导致稀有reads的丢失，eDNA样本也可能发生这种情况。单是引物偏差和文库制备方法的结合，就可能导致对任何给定物种观察到的reads数出现很大的差异，并可能完全阻碍稀有物种的检测（图.2）。在“野外采样、实验室和数据分析上的挑战”一节中讨论了减轻引物偏差和替代文库制备方法的技术途径和可能的解决方案。虽然归根结底，eDNA宏条形码可能不是同时测量eDNA中多个物种相对丰度最准确的方法，但研究人员应该考虑eDNA宏条形码方法是否足够准确以应用于特定的研究或应用场景。捕获富集等其他方法正在研究中，前景看好，因为它们避免了PCR，从而避免了可能导致的偏差，但它们确实需要广泛的生物多样性知识才能设计有针对性的基因捕获探针，而且它们带来了更高的分析成本。未来比较qPCR、eDNA宏条形码和捕获富集的研究将有助于确定哪种方法能准确地从eDNA中估计相对丰度。

图.2 从eDNA宏条形码估计丰度的挑战

注：为简单起见，假设池塘中描绘的一个DNA分子相当于一个生物体，不同颜色代表不同的物种。另外，对于这个例子，假设采样是无偏的（即按DNA拷贝的真实丰度进行采样），DNA分子周围的盒子代表1μL，一个DNA分子代表1ng DNA。因此，图示的值显示了引物偏差、二次抽样以及它们的组合对估计丰度的能力的影响。

在完全排除合理性之前，在短期内，模拟肯定可以用来测试技术实验室问题的影响，并解释eDNA的生态学，以破译在什么条件下可以从eDNA宏条形码获得丰度的可靠估计。沿着这个方向，已经通过模拟研究进行了一些有希望的尝试，以了解在秩丰度曲线估计中，数据集如何故意地“噪声化”符合中性理论参数的本质。类似这样的模拟研究的结果可以为模拟群落实验提供信息和用于在真实的半自然环境下测试假设（如预期的误差分布类型）。

生态系统的样本类型和已知的时空推断尺度

3.1 淡水生态系统

不同样本类型的eDNA宏条形码在获得水生系统动物物种丰富度估计方面已经非常成功（见图.1和表1）。作为最早的开创性研究之一，汤姆森等（2012a）使用取自丹麦湖泊、池塘和溪流的地表水证明，eDNA包含该地区已知的水生脊椎动物和无脊椎动物物种的信息。然而，明显缺乏评估存活的水生植物群落的eDNA宏条形码研究，这仍然是一个有待进一步研究的开放领域。

越来越多的证据表明，从地表水中采样的eDNA的空间和时间推断尺度对于河流和湖泊是不同的（图.1）。具体地说，与湖泊表面水域中的eDNA相比，河流水域衡量的是存在于更大空间尺度上的物种丰富度。湖泊和河流eDNA信号的不同可能是因为湖泊系统中水的滞留时间更长，而在河流中eDNA的传输距离更长。然而，具有河流和地表径流输入的湖泊和池塘，经过了湖泊混合或分层，可能可以作为与河流类似的用于流域陆地和水生生物多样性估计的eDNA来源。到目前为止，还没有研究估计湖泊流域地表水中eDNA的来源，并将其与湖泊中当地出现的多样性联系起来。然而，湖泊沉积物岩心中的古代DNA（sedaDNA）已被用来确定有关历史的植物和牲畜群落，从而表明湖泊确实接受来自其流域内物种的DNA，这些DNA可以并入其沉积物中。有关sedaDNA用于重建过去生态系统的更广泛的回顾，见Pedersen等（2015）以及Brown和Blois（2016）。

通常情况下，湖泊和河流地表水中eDNA生成的物种丰富度估计反映了当前的物种多样性，而表层沉积物中eDNA生成的物种丰富度估计可能反映了eDNA在时间上的长期积累。例如，Shaw等（2016）比较了来自水和表层沉积物样本的鱼类物种丰富度估计值。大概而言，他们发现在两个样本中都检测到了物种，但从水样中对物种丰富度的估计更符合取样时实际存在的物种。从表层沉积物中推断的时间尺度在很大程度上是未知的，需要进一步的检验(图.1)。

除了地表淡水（~1%），地下水（~30%）和冰（~69%）构成了地球淡水的大部分。虽然其他淡水栖息地远远超过地表淡水的数量，但它们现存的生物多样性却很少被描述。众所周知，地下水蕴藏着各种各样的独特物种，由于无法进入这些生境，很难用传统的调查方法进行评估。地下水微生物宏条形码研究显示了很高的真菌和细菌多样性，并且有针对穴居两栖动物Proteus anguinus 的物种特异性研究案例。然而，明显缺乏可以揭示已知栖息在地下水中的各种大型生物（包括涡虫、腹足类、等足类、端足类、十足类、鱼类和蝾螈）多样性的eDNA宏条形码研究。地下水eDNA样本的时空推断尺度目前未知，在具有复杂的水文学特征和地表水与地下水之间相互作用的系统中调查eDNA，将是开始揭示这些环境中eDNA调查的推断尺度的有趣地方。

在沉积物岩芯和冰芯沉积物中发现的eDNA通常反映了历史上的生物多样性样本（图.1），更常用作古代DNA的来源。到目前为止，从湖泊沉积物岩心调查的动植物表明，有关陆地和水生群落的信息可以追溯到距今6000年至12.6万年前，而冰芯沉积物中的eDNA已成功地用于重建2000年前的群落。还没有测试不同类型沉积物样本的空间推断尺度，但当来自多个地点的样本结合在一起时，可以在大面积内调查物种过去的存在。对于现代群落，雪已经成为一种可行的样本类型，并在法国已用于对野生犬类进行当地调查。对冰川径流中的水进行eDNA宏条形码检测也可能是调查生活在冰川和冰川下栖息地（这些栖息地由于气候变暖正在经历剧变）的动植物丰富度的宝贵工具。

3.2 海洋生态系统

在海洋生态系统中，由于eDNA在大量水中的潜在稀释以及可能影响eDNA传输和降解的其他非生物因素（盐度、潮汐、洋流），eDNA宏条形码的使用极具挑战性，更不用说进行此类调查所涉及的后勤工作了。尽管如此，对近海水样的海洋鱼类eDNA宏条形码调查已经表明，与传统调查技术相比，eDNA可以检测到更大的分类多样性（表1），同时能够提高对稀有和流浪鱼类物种的检测，揭示原本被目测评估忽视的隐蔽物种。海洋哺乳动物已经通过声学调查和eDNA宏条形码进行了调查，在这里，传统的声学方法检测到了更大的物种丰富度。然而，与其他海洋研究相比，这项研究使用的样本量较低（15-45 ml 比1.5-3.0 L)，作者得出结论，更大的样本量可能会导致eDNA与传统方法之间更大的相似性。在加利福尼亚州蒙特利湾，从深度<200米或>200米取样的水被用来检测海豹、海豚和鲸鱼等海洋哺乳动物以及许多鱼类和鲨鱼。检测到的分类群在空间上是明确的，并且或多或少地在与其预期栖息地相关的水中被发现。

动植物eDNA在海洋环境中的纵向迁移还没有得到很好的研究。但是，与来自湖泊的淡水沉积物岩芯类似，垂直传输到海洋沉积物中可能会保留大部分来自颗粒有机物的eDNA或直接吸附在沉积物颗粒上的eDNA。这种吸附保护核苷酸免于降解（特别是氧化和水解），并有助于在潜在的大时空尺度上长期保存遗传信号（图.1）。海洋沉积物eDNA浓度已被证明比海水中的eDNA浓度高三个数量级，通常能够从中回收得到来自古代和现存群落的eDNA。与湖泊沉积物类似，海洋沉积物可以积累来自陆地和远洋来源的遗传信息。

海洋沉积物由于在获取样品过程中涉及大量的后勤工作而很难取样，因为，这往往需要大量的航行时间和专门的取芯设备。尽管要理解海洋沉积物岩心的时空推断尺度还有很多工作要做，但eDNA和环境RNA （eRNA）宏条形码之间的比较被假设可以用于现在和过去多样性的推断。环境RNA被认为只能从群落中的活生物体获得，因此，eDNA和eRNA之间的比较已被研究。在应用案例中，同时使用了eDNA和eRNA，而表层沉积物eDNA的宏条形码检测结果揭示了大西洋鲑鱼水产养殖在短空间尺度上对底栖生物的影响。Guardiola等（2016）通过对eDNA和eRNA的比较表明，这两个来源的物种丰富度的空间趋势相似，但eDNA检测到更高的多样性。总体而言，与其他环境相比，对动植物eDNA在海洋环境中的归趋、迁移和分解知之甚少，迫切需要进一步研究。

3.3 陆地和空中生态系统

来自陆地沉积物岩芯的eDNA是调查过去环境和重建动植物群落的有力工具（见图.1）。动物残骸也为重建过去的营养关系提供了机会，例如食草动物胃中颗粒的eDNA宏条形码已经被用于鉴定古代动植物群落中的物种（图.2），粪化石中微型植物化石的DNA印迹被用来重建稀有和灭绝鸟类以前的取食关系。在这里，Brown和Blois（2016）与Pedersen等（2015）的最新综述为如何使用古代DNA来揭示过去的动植物群落提供了更广泛的概述。

在现代环境中，从表层土壤中分离出的eDNA已被用于表征蚯蚓、无脊椎动物、植物以及脊椎动物的生物多样性。Drummond等（2015）使用了可以扩增五个不同宏条形码区域的PCR引物，同时调查了表层土壤中生命的全部三个域，这可能是对任何环境而言使用eDNA宏条形码进行的最全面的分析，从而证明了这种方法在评估一个地区总丰富度方面的能力。然而，许多陆地eDNA样本的空间推断尺度仍是一个悬而未决的问题（图.1）。对表层土壤中的DNA时间推断尺度的研究表明，长片段的DNA分解很快，但短片段在该物种出现后的几天乃至几年内仍可检测到。因此，扩增片段长度可以改变土壤样品当前的分辨率。

除土壤外，在陆地生态系统中还有许多其他的eDNA样品来源。对于动物，水蛭和腐肉蝇的血食被用来调查哺乳动物的多样性。为了调查有爪动物，使用了被啃树枝上的唾液作为eDNA来源进行了检测；为了发现捕食者或食腐动物，使用了被捕食的地面筑巢鸟类的蛋和尸体上的唾液作为eDNA来源进行了检测。从蜘蛛网中提取的DNA也被用于检测蜘蛛和它们的猎物。对于植物来说，蜂蜜中的花粉揭示了蜜蜂的觅食偏好。Craine等（2017）调查了美国各地室内外环境中的灰尘，发现室外已知过敏原中的植物DNA含量几乎是室内环境的两倍。除了从花粉中检测过敏原外，灰尘eDNA在评估动物物种丰富度方面还有许多潜在的应用。排泄物DNA也被用作eDNA的来源，以评估饮食组成，但大多数利用这一eDNA来源的研究都集中在单物种检测和群体遗传推断，并不一定用来估计陆地群落的物种丰富度。Boyer、 Cruickshank和Wratten等（2015）提出，对一般食肉动物粪便的调查可以起到“生物多样性胶囊”的作用，对这种来源的eDNA的分析应该会引发对景观中猎物（被捕食者）群落的生物多样性调查。虽然所有这些来源都是可用的，但这些样本类型中的大多数（例如树叶、粪便颗粒、蜘蛛网和灰尘）在空间和时间上没有已知的推断尺度。这些来源的单一eDNA样本不太可能证实超过局部尺度的物种丰富度，但是按时间顺序采样的多个样本来源的组合（例如整个公园的树叶、粪便颗粒和的蜘蛛网）可能允许陆地物种丰富度的空间和时间估计。

对空气中eDNA的调查更加强调对在动植物中引起感染或过敏反应的生物气溶胶的检测。例如Kraaijeveld等（2015）调查了可导致人类花粉热和哮喘的空气传播花粉，结果表明与显微镜鉴定相比，使用从空气中过滤的植物花粉中的eDNA可以更准确地鉴定致敏植物花粉的来源。一个有待进一步研究的特别有趣的领域是了解空气样本在空间和时间上的推断尺度（图.1）。虽然植物eDNA可以确定，但在我们了解的范围内，从空气eDNA来源调查其他物种（如鸟类和昆虫）还没有过测试。

野外采样、实验室和数据分析上的挑战

尽管这种方法能力出众，但eDNA宏条形码仍面临着大量精确度和准确性方面的挑战，这些挑战分布在采样、实验室和数据分析的整个工作流程中。按照研究设计（例如假设/问题、目标分类群，见图.3），当前的eDNA工作流程由三个部分组成：野外采样、实验室和生物信息学分析。野外采样部分包括在提取DNA之前保存或冷冻的样本采集（例如水、沉积物、空气）。实验室部分有四个基本步骤：（1）浓缩DNA（如果不在现场进行）并提纯；（2）使用PCR扩增靶基因或区域；（3）使用PCR结合称为“索引”（也称为“条形码”）的独特核苷酸序列或将其连接到不同的PCR产物上，从而创建一个“文库”，由此可以将多个样本汇集在一起；（4）然后在高通量测序仪（最常见的是Illumina HiSeq或MiSeq平台）上对混合文库进行测序。实验室处理样品后的最后一步是使用稳健的生物信息学pipeline（图.3，BOX2）对测序仪的输出文件进行计算处理（图.3）。下面，我们将强调eDNA宏条形码工作流程的重要且快速发展的方面，并给出减少误差的建议。

图.3 eDNA宏条形码研究设计和实施阶段需要考虑的重要指导性问题

BOX2 用于动植物eDNA宏条形码的基本生物信息学pipeline：

序列数据的生物信息学处理是eDNA宏条形码研究中最关键的方面之一，它有助于证实研究结果，紧随野外采样和实验室工作部分。生物信息学在“管道”中的标准化可以确保研究结果的质量和重现性；然而，在不同的研究中，需要一定程度的专用化，来补偿测序技术、软件工作流程和正在解决的问题的进步。因此，获取原始序列数据并将其转换为物种分类群列表需要多个质量保证步骤——有些是必要的，有些是可选的。没有必要就所使用的方法和软件达成绝对共识，因为这些方法和软件总是在不断变化，但在此，我们建议在开始进一步分析（例如生物多样性估计和统计检验）之前，至少对高通量测序数据仔细考虑以下预处理步骤。我们主要专注于处理Illumina生成的数据集，因此，如果使用的技术不同，我们提到的许多生物信息学工具和建议同样可以用于其他平台上生成的数据的预处理，但也可能会有所不同。

术语

①嵌合体（Chimeras）：在PCR扩增的延伸步骤中，由两个或多个组合序列组成的PCR伪影。

②Phred质量分数：Illumina测序的每个核苷酸的质量评分，提供了碱基信号不正确的概率。

③序列合并（Sequence merging）：将双端测序的正向（R1）和反向（R2）reads合并，使用最小重叠或质量评分等标准。

④序列剪切（Sequence trimming）：切割/去除测序reads的首端或尾端碱基的过程，可以通过搜索特定序列（去除接头、索引和引物）或基于质量分数来进行。

⑤单一序列（Singletons）：在数据中只出现一次的MOTUs很可能是稀有分类群、假阳性、低水平污染或未去除的嵌合体序列，应给予适当的考虑。

引物接头修剪（Primer-adaptor trimming）

生物信息学处理的初步步骤包括基于所用的索引序列即Barcode对样品进行拆分（整合到原始序列数据中的独特的核苷酸标签）并修剪（即去除）接头序列。接头是在文库制备过程中添加的特异性DNA片段，用于在Illumina测序过程中将DNA链连接到流动池（Flow Cell）上。此外，索引序列本身和引物序列应该被修剪（例如使用Cutadapt, Trimmomatic, QIIME等软件），允许引物或索引序列和观察reads之间零或低水平的错配。

合并或末端修剪（Merging or end trimming）

Illumina产出的reads在接近3’端末端时质量往往会下降，因为持续进行的反应会导致后续化学循环中噪声增加（信号降低）。因此，应检查reads的质量分数，以便对末端修剪的合适长度（单端测序）、合并（双端测序）和后续序列质量过滤做出明智的决定。可视化原始reads或拆分后序列的质量分数（使用如FastQC的软件）将有助于选择下游质量过滤的临界值。

当对合适大小的扩增子使用双端测序（PE）时，正向（R1）和反向（R2）reads应该组合（合并）以形成完整的扩增子。使用合并的序列提高了准确性，因为可以基于组合的reads来校正单个reads末端的较低质量的碱基。在这里，应该指定R1和R2的最小重叠，并且可以丢弃正向和反向reads之间很少重叠或没有重叠的“孤立”reads。如上所述，对质量分数的检查可以为合并R1和R2提供最佳参数的估计。即使还不存在具体的共识，但在许多情况下，选择保留至少>20bp的重叠。

质量过滤（Quality filtering）

对于大多数HTS平台，会计算Phred分数并随后用于确定最大测序错误概率。选择的策略包括基于较低的Phred分数临界值进行过滤，通常至少设置在20或30以上。还可以基于最大误差（maxee）概率执行质量过滤，该概率也是从Phred分数导出的。最大误差越小，临界值越严格。选择1或0.5的最大误差过滤水平在大型生物体研究中很常见。此外，在单端测序的情况下，或者使用长扩增片段而正、反向reads间没有足够重叠时，建议选择适当的一端进行修剪。通常的情况是，reads被修剪成相同的长度，这便于下游的序列比对，并且由于不能使用合并步骤，所以最大限度地减少了碱基测序错误的情况。

去除短reads（Removing short reads）

许多研究还选择在聚类前从数据集中去除短reads，因为高的长度变异的存在可能影响聚类过程（参见USEARCH的使用手册）。这些短序列可能来源于未被去除的引物二聚体的测序。不同的研究选择了不同的最小长度reads，从非常短的20 bp到中等的60–80 bp和高达100 bp。请注意，某些样品拆分或质量过滤工作流程可能会在处理输入数据时自动设置最小序列长度，建议检查默认情况下是否包含此类参数。

去除单一序列和嵌合体序列（Removing singletons and chimeras）

MOTU聚类之后的重要步骤包括移除单一序列和嵌合体序列。嵌合体是来自两个或多个亲本序列（彼此嵌合）的PCR扩增过程的副产品，通常通过不完整的延伸步骤产生。研究表明，当在分析中保留独特的reads，如嵌合体和单一序列时，对多样性的估计可能被严重夸大。嵌合序列的性质可以是高质量的reads，将不能通过基于质量的末端修剪直接去除它们。嵌合体的移除可以从头开始进行，也可以基于参考数据库进行。当没有有效的参考数据库可用时，目前最常见的做法是从头开始的方法。尽管相关软件种类繁多，如UCHIME、OBITOOLS或CHIMERASLAYER等，但其对于将去除嵌合体和单一序列作为生物信息学pipeline最低质量控制的重要性的认识是一致的。

丰度过滤（Abundance filtering）

除了基于质量分数进行质量过滤以及去除嵌合体和单一序列，许多研究还采用进一步的过滤以去除低丰度序列。这一步骤源于控制实验室污染的需要，或者由于流动池上的簇污染（针对Illumina平台）。

应用丰度过滤的过程需要设置MOTU丰度阈值，只有当MOTU的相对丰度高于选定的阈值时，才会在分析中保留该MOTU。阈值的选择在不同的研究中有所不同，对于什么是不够丰富的reads，没有被普遍接受的定义，除了单一序列。丰度过滤可以最小限度地应用或完全避免，特别是如果对原始reads应用了严格的质量修剪参数，并且“稀有”MOTUs的检测是一项研究的一个重要的方面时。另一种可行的选择是基于经验数据的可用性来选择阈值，就像Valentini等人（2016)做的那样。越来越多的研究采用阳性对照测序来确定阈值水平。技术重复也可以用来评估一致性，因为在评估杂食性动物饮食方面被证明是有效的。

使用阳性对照定义的误差水平的作用是鉴定对照样本中属于非靶标分类群的序列的丰度，这些序列可能是污染等错误的结果。此外，（样品拆分时）分配到目标样本（即实验样本）的phiX文库reads的分布已被用于考察“标签跳跃”的存在和拆分期间误分配的reads。误分配reads的确切机制尚不清楚，但越来越多的研究报告称，这一误差占到reads的 0.01%至0.03%之间。对此的调整包括使用基于阴性和/或阳性对照的阈值方法，从给定样本中去除少量reads。丰度过滤对低丰度的MOTUs造成了显著的不确定性，并对稀有物种的检测产生影响。因此，为了避免对科学见解或管理决策的负面影响，在生物信息学数据分析期间对技术性人为序列的处理细节需要仔细考虑和公开透明，直到这些人为序列的产生原因被很好地理解为止。

记录剔除的数据（Recording removed data）

对于所有质量控制步骤，数据的删除应该是公开透明的。通常一项研究会报告获得的序列总数，但很少会说明每个质量过滤步骤是如何影响用于检验生态学假说的序列数量，研究人员也没有提供保留或去除的序列子集。在没有明确理由的情况下删除数据往往是一种不敢公开透明的行为。因此，建议在eDNA宏条形码研究中应包括一个显示每个过滤步骤后剩余序列数量的补充表，并在诸如DRYAD（http://datadryad.org/）的平台上归档在每个过滤步骤之后保留的reads的子集，或者在诸如GITHUB（https://github.com/）的平台上利用版本管理信息归档确切的pipeline，这些措施将带来更大的数据透明度和质量过滤的重现性。

4.1 野外采样

对于任何野外研究，研究设计至关重要（图.3，BOX2），因为它将影响任何eDNA宏条形码数据集的下游统计能力和分析解释。例如，样本量和重复（尤其是生物重复）与检测到目标分类群的概率正相关。尽管有大量的证据表明环境中存在大型生物的DNA，但我们对任何环境样本中eDNA的基本了解仍然缺乏。为了说明这一挑战，我们总结了对淡水环境中eDNA的已有了解。目前的技术水平依赖于这样一个事实，即我们可以通过从小体积的水样中沉淀出DNA来获得eDNA（例如15毫升），或者使用各种尺寸的过滤器从水柱中过滤得到eDNA（0.22 μm及以上）。过滤方案导致了一个工作假设，即水中的eDNA要么来源于细胞，要么来源于细胞器（例如线粒体），而沉淀方案则提示细胞外来源。很明显，至少一部分淡水eDNA来自完整的细胞或细胞器，因为最近已经证明它们呈基因组状态。因此，水中的eDNA以未降解和降解的形式存在。然而，对eDNA的起源、状态和归趋的持续研究将极大地丰富关于其获取的众多策略（过滤、重复、样本量和空间采样策略）。在最近的一篇综述（Goldberg et al., 2016）中，探索了许多方法来解决目前在该领域中假阴性（例如使用生物重复取样、改进实验方法）和假阳性（例如使用阴性对照）的挑战。因此，我们建议读者参考这篇综述，这里不再深入讨论这些话题。

4.2 在实验室

最近有许多研究关注eDNA的捕获、保存和提取，其中的综述性文章总结了在进行大规模研究之前应进行测试的重要考虑因素和权衡点。我们不在这里重复这些方面，而是集中在引物选择和文库制备上。对于动植物研究，PCR引物最常针对线粒体或质体基因或rRNA基因（详见原文链接补充材料表S2）。由生命条形码联盟（Consortium for the Barcode of Life, CBOL）定义的标准条形码标记包括用于动物分类学鉴定的细胞色素c氧化酶亚基I（COI或cox1），用作植物条形码的rbcL 和 matK 双基因座组合，以及被证明同样可作为有效的植物条形码标记的ITS2。然而，在大型生物eDNA宏条形码中使用标准条形码标记存在局限性。具体来讲，在使用COI时通常还会使用其他DNA区域，因为并非所有的分类群都可以同样好地区分到物种，同时因为在该基因中设计适合短扩增子测序分析的长度的引物具有极大的挑战性，但是目前已经确定了一些这样的替代区域。最常见的替代标记是线粒体核糖体基因，如12S和16S，或蛋白质编码基因如细胞色素B（详见原文链接补充材料表S2）。具体到植物条形码基因座，在植物条形码中主要使用的两基因座组合均可以独立产生，但并不总是能够从eDNA样品中这两个相互关联基因的每一个中恢复目标片段，使得使用标准植物条形码进行物种鉴定具有挑战性。生物信息学方法可以在一定程度上帮助解决这些情况，并且在样本中多样性较低时可能有效。因此，通常使用一个或多个不同的标记（例如trnL内含子的P6环; 表S2）。

此外，一些高度进化的非编码基因座如ITS rRNA（表S2）也被使用，但这些标记并不总是允许在数据分析期间通过构建比对来对MOTUs进行物种分类，因为它们具有基因组内变异，这使得它们在生物多样性研究中的使用变得复杂（植物ITS rRNA可能是一个例外）。对于这些基因座，一个未知的环境序列通常会被丢弃，除非它与数据库有一个精确的匹配，这导致一个数据集减少到只有已知的和已经测序的生物多样性。由于这些因素，其他宏条形码基因座如18S rRNA基因可能更合适（例如在对海洋无脊椎动物的研究中），特别是如果需要进行系统发育分析来缩小物种分类范围和规避数据库限制（BOX3）。

一旦选择了一个或多个基因座，引物就根据研究中感兴趣的分类群以及广泛（多门）或是狭窄（单目）覆盖范围的需要来设计，以对特定研究假设进行检验（图.3）。无论是选择以前设计的引物（表S2）或是设计新引物，进行严格的测试是重要的，包括计算机、体外和原位测试，以推断它们在新研究体系中对eDNA宏条形码的效用。

扩增子大小也是一个重要的考虑因素，因为在检测中可能存在扩增子长度之间的权衡（例如短片段更有可能被扩增）。然而，短片段可能会在环境中存留更长时间，从而增加可以从环境样本做出的时空推断的尺度。此外，对一个目标分类群使用一个以上的基因座可以测试基因座之间的一致性，并提高物种检测的严格性。

当设计了引物并扩增得到了PCR产物后，为了使测序仪器更具成本效益，eDNA宏条形码将大量样本合并后在HTS平台上进行测序。目前，Illumina（MiSeq和HiSeq）测序平台在准确性上优于其他平台，而且在PCR扩增过程中，通常通过加入样本特异性核苷酸标签（索引）和测序接头来实现多样品合并测序。然而，多样品合并测序创造了产生错误和偏差的机会。在这方面的工作流程中，重要的是要避免那些在扩增过程中诱导产生样本特异性偏差的方法，并减少标签交叉或“标签跳跃”的可能性（见BOX2）。为了解决这些问题，Illumina开发了两步PCR方案，第一步在不同样本间使用统一尾引物，第二步使用样本特异性标签，这可以减少与标签序列变异相关的偏差。无论采用何种策略，都需要非常小心地确保引物的质量控制（例如每次以较小的独立批次订购引物，以及在扩增后适当清洗PCR扩增产物以去除引物）。当一个物种在一个样本中被怀疑是非常不可能被检测到的时候，单物种定量PCR（qPCR）可以从同一个eDNA样本中来验证该物种的存在，因为qPCR不存在相同的技术误差来源。处理多样品合并测序中产生的人工序列的其他建议见上文BOX2中的“丰度过滤”。

此外，实验室必须同时使用阳性和阴性对照样品，以确保样本的完整性（图.3）。阳性对照样品的使用（在PCR阶段使用从组织中提取的混合DNA提取物，或在提取阶段与eDNA样品的阳性对照一起使用）有助于评估eDNA宏条形码工作流程中的测序效率和多重错误。在构建模拟群落时需要仔细考虑，通常情况下，使用不期望出现在研究区域中的物种，这样，如果在工作流程中存在污染，可以识别、移除它们的reads，并在污染发生时作为检测污染的控制途径。

应在实验室工作的每个阶段引入阴性对照样品（即过滤（如果在实验室进行的话）、提取、PCR和构建索引）。我们建议在阴性和阳性对照样品上使用与实际样本相同数量的技术重复。此外，无论是否有可检测量的DNA，对阴性对照进行测序变得越来越重要，因为污染可能低于定量检测限，在这些对照中发现的序列可用于检测样品拆分错误或用于统计建模，以排除假阳性检测。

最后，eDNA宏条形码工作流程的一个重要但经常被忽视的考虑因素是识别独立于真实生物变异而出现的技术性人为序列。例如，最近在一项使用16S基因座关注细菌生物多样性的研究中提到，运行效应（Run effect）可能会与样本效应（Sampleeffect）混淆，如果不考虑这一点的话（例如在多个Illumina平台运行中拆分样本组，即将样本分散到多个run中进行测序）。然而，这种技术性人为序列是否也普遍存在于用于动植物eDNA宏条形码检测的基因座（COI，18S，ITS等）中，还需要更多的研究。在此之前，仔细考虑样本如何合并和在测序仪上运行测序似乎是必须的，以免给正在验证的假设造成混淆和干扰。

4.3 在数据分析中

高通量序列数据集的生物信息学处理需要使用UNIX的pipeline（或此类工具的图形包装器）。Coissac、Riaz和Puillandre （2012）对动植物群落DNA的宏条形码检测进行了全面概述。在下文中，我们强调了群落DNA宏条形码检测的常见做法，并侧重于大型生物eDNA宏条形码检测说明了各研究的差异。

必须仔细考虑生物信息学pipeline和参数（BOX2），重要的是与知识基础扎实的计算研究人员合作，了解处理如何影响生物学结果和结论。Coissac等（2012）强调，在计算处理eDNA宏条形码数据集之前，要清楚对来自微生物和大型生物群体的数据的分析之间的差异。在过去的40年中，随着微生物生态学家受到启发并开始使用基于序列的分类群识别，用于分析微生物宏条形码数据集的软件解决方案的范围也不出所料地扩大。或许更重要的是，存在一些已建立和维护的数据库，其中包括原核生物、真核微生物和真菌的许多常用微生物分类标记，这意味着可以直接分析微生物数据集，并建立分类学关联。

对于大型生物群落而言，eDNA宏条形码数据集的预处理和初始质量控制与微生物数据集的预处理和初始质量控制没有区别，可以使用为微生物或大型生物数据开发的包来实现，但分类学分配将需要基因座特异性参考序列的稳健数据集和来自参考数据库的相关分类数据（BOX3）。目前，大型生物最常见的两个参考来源是NCBI的核酸数据库和生命条形码数据库BOLD。这些数据库的效用和分类广度可以通过创建定制的或混合的数据库来增强，而明显的额外工作量和成本取决于当前数据源中缺失的重点分类群的数量。Machida、Leray、Ho和Knowlton（2017）组装并提出了后生动物线粒体基因序列数据集，可用于环境样品的物种分类。虽然这些数据集没有考虑到未来的增长，但它们的方法可以在任何新的研究中重复，以生成用于物种分类的定制参考数据集。

与微生物数据集相比，大型生物eDNA宏条形码数据集相对具有优势，因为任何调查中的分类单元数量相对较少，减少了物种注释所需的计算时间。此外，与大型生物相关的物种划界概念和分类标记得到了充分地发展，甚至可以用于分析种群遗传结构，或划定物种边界。依赖于我们在动植物分类学和生物地理学方面的大量知识是eDNA宏条形码的一个明显优势，因为它提供了独立的测试来校准和测试工具的精度和准确性。

BOX3 如何将高通量测序平台的reads转化为丰富度：

MOTU聚类

虽然这一步骤并不总是必要的，取决于分类群的目标集合、测序的扩增子长度和参考数据库的完整性，但通常在物种分类之前会将测序reads聚类为MOTUs。MOTU聚类是根据基于初始种子设定的相似性标准对多个reads进行分组的过程。其中，会选择一个质心序列，并且根据设定的半径或相似性阈值，将紧密相关的序列分组到每个质心序列下。所选择的相似性水平取决于研究和使用的分类单元，并基于对所研究分类单元的种内多样性的了解。常用的阈值范围从97%到99%，例如，所选择的阈值可能取决于所研究分类单元的种内多样性的已知水平，这可以从现有的参考数据库中估计出来。一些常用的聚类算法包括USEARCH，VSEARCH，CROP（贝叶斯聚类算法），swarm和mothur（一种基于比对的聚类方法）。

分类学分配（物种分类）（Taxonomic assignment）

HTS reads的鉴定是通过待分类MOTU簇/质心序列（即代表序列）与参考数据库的比较或质量过滤后剩余reads与参考数据库的直接比较来实现的。根据研究的分类群和使用的标记（基因座），参考数据库可以由公开可用的序列或研究产生的参考序列组成。

物种分类的挑战一直是相当多文献的主题，因此我们只简要讨论生物信息学pipeline的这一重要方面。已经提出了许多不同的方法，包括基于序列相似性进行分类（例如通过比对程序BLAST或使用隐马尔可夫模型（如JMMOTU，MG-RAST）的相似性搜索），以及序列组成、机器学习方法（例如RDP，TACOA）、系统发育放置（例如PPLACER）、概率分类放置（例如PROTAX）、最小熵分解（例如寡核苷酸配型技术）、Megan和生态标签。许多广泛使用的程序使用这些方法的组合，例如程序SAP使用NCBI数据库的BLAST搜索和系统发育重建来建立查询序列的分类身份。Bazinet和Cummings（2012）对这些方法和各种衍生工具进行了很好的讨论和比较。决定这些不同方法的实用性的两个主要因素是特定的eDNA标记和参考数据库的广度和分辨率。一些标记在现有数据库中有更好的代表性，对相关物种多样性的覆盖度更大。使用BLAST算法的物种分类学分配是常用的，并且根据研究的不同，有着不同的选择标准，例如e值、匹配序列的最大ID或长度、选择的最高命中数。严格依赖这种方法需要谨慎，因为公开数据库中的序列整理中的错误可能会通过分析传播，并导致序列的错误识别。理想情况下，在可行的情况下采用多种方法相结合，应根据已知物种的分布和生态特征，用独立的数据对所产生的物种分类结果进行核查。

多样性分析（多样性分析）

大多数eDNA宏条形码研究的目标是准确描述所研究群落的物种丰富度。使用适当的软件计算多样性指数可以对测序结果进行建模和生态关联。在尝试生态关联时，重要的考虑因素包括适当的数据标准化（消除测序深度不同的影响）和多样性指数的仔细选择。最常见的评估包括α多样性（稀释化、物种组成的可视化）和β多样性（主成分/坐标分析、NDMS排序等），然后通过下游统计分析进行假设检验。

4.4 透明的数据归档

随着eDNA应用的不断发展，所有在野外采样、实验室和生物信息数据处理过程中使用的程序都需要研究人员对透明度的坚定承诺。在此，我们根据微生物学和基因组学领域的既定标准，概述了大型生物eDNA宏条形码研究的最佳实践方法。首先，来自任何HTS运行的原始FASTQ文件在发布前需要提交到NCBI的序列读取档案SRA（Sequence Read Archive）或欧洲核苷酸档案ENA（European Nucleotide Archive）和其他此类公共国家数据库。将原始数据归档到公共数据库中是几乎所有基因组学和转录组学研究中的常见做法，因为它允许使用新的计算工具和标准对研究进行重新分析。事实上，许多进化和生态生物学期刊，包括Molecular Ecology，越来越多地强制存档原始数据。其次，研究人员应遵守由更广泛的基因组学团体定义的最低报告标准，如MIMARKS（关于标记基因序列的最低信息）和MixS（关于任何“x”序列的最低信息）规范。Goldberg等（2016）针对eDNA研究提出了维护这些报告标准的具体建议。

再次，数据的计算处理需要是可再现的。对于eDNA 宏条形码研究，越来越常见的是将一个全面的样本比对文件（例如以QIIME制表符分隔的样式格式化，包含用于建库的索引，以便原始数据可以被拆分和适当修剪）和结果中的MOTU聚类或物种分类，以及所有生物信息学命令的文档存储在一个补充存储库中，如DRYAD（http://datadryad.org/）、GITHUB（https://github.com/github）或FIGSHARE（http://figshare.com）。Sandve等（2013）提供了可遵循的10条规则，以确保此类重现性，我们强烈鼓励使用eDNA宏条形码方法的研究人员坚持这些实践原则，并利用其分析的中间步骤（见BOX2）存档实现完全透明。

eDNA宏条形码的新兴应用

5.1 在生态学中的应用

量化自然群落中物种的丰富度和丰度是并将继续是许多生态学研究的目标。从eDNA获得的物种丰富度信息不一定不同于传统方法（表1），但该信息的规模、速度和全面性是不同的（图.4）。例如，Drummond等（2015）证明了从表层土壤对生物多样性（例如从细菌到动植物）进行近乎完整的分析是可能的。在这一分类尺度上收集数据为跨空间和时间衡量群落组成和演替开辟了新的机会。除了估计物种丰富度，生态学的一个主要研究领域是确定观察到的群落变化是否超过某些期望的生态系统功能的可接受阈值。生物多样性和生态系统功能研究需要追踪多个分类群和营养级的物种，以及生态系统功能的变化。eDNA宏条形码有可能通过提高我们对捕食者/猎物关系、互利共生（如植物-传粉者相互作用）和由小隐种（小而隐秘的物种）组成的高度多样化系统中的食物网的了解，促进生物多样性和生态系统功能的研究。在以上情况下，关于物种共生和相互作用的知识将进一步促进集合生态系统的研究，并提供数据来指导生态系统规模的管理决策。仍然具有挑战性的是除了丰富度估计，同时获得物种丰度数据（图.2和图.4）。

图.4 在不同研究领域使用eDNA作为评估群落结构工具时面临的机遇和挑战

该工具依赖于持续研究的基础（蓝色半圆），以改进技术方面并持续开发基于DNA的参考文库，用于鉴定环境中发现的序列。

5.2 在保护生物学中的应用

鉴于全球生物多样性正在快速下降，提高战略的有效性至关重要，以阻止或扭转这种损失。因此，开发能够实现快速、经济有效和非侵入性生物多样性评估的工具，如eDNA宏条形码，尤其是对于稀有和隐秘物种，是至关重要的（图.4）。这能改进对脆弱物种分布的估计，并且这样做是非侵入性的，将有助于政策制定，并有助于有效地针对不同生境进行管理。例如，记录栖息地中受威胁物种的存在可能会引发一系列与生物多样性保护相关的法律行动（如《美国濒危物种法案》）。通常，与政策相关的数据来自环境法规定的监测工作（对收集的数据产生重大影响）。

基于eDNA的监测可能会给那些经常资金不足且负责遵守数据要求法律的公共机构带来巨大的好处。具体来说，当许多物种受到保护时，eDNA宏条形码将有助于监测群落。整个加州的春季池塘就是一个最好的例子，因为它们包含20种美国联邦政府列出的濒危或受威胁的动植物物种。利用来自此类栖息地的土壤和水样监测物种丰富度，规定使用一种全面的采样方法，以确定保护和管理所需的群落数据。然而，尽管eDNA宏条形码对于无创获取脆弱物种的分布可能很重要，但它不能用于区分活的和死的生物，也不能用于估计对种群生存能力分析很重要的许多种群统计学参数。

量化动植物物种丰富度的基线和偏离这些基线的情况是评估环境影响和保护的核心。eDNA宏条形码方法在不同样本类型中的应用，结合在一起可以进行跨时间尺度的推断（例如湖泊的地表水和沉积物岩芯，图.1），提供了一个记录局部物种灭绝和生态系统长期变化的独特工具。灭绝模型通常依赖并用于理解灭绝时间线（在Thomsen & Willerslev, 2015中进行了综述）。eDNA宏条形码追踪与先前冰河时代事件相关的灭绝时间的有效性已经在哺乳动物和植物中得到证明。因此，来自同一地点的不同样本类型的eDNA宏条形码为更好地理解扰动导致的灭绝后果提供了极好的机会，并可为气候变化下的情景建模提供信息。

5.3 在入侵生物学中的应用

由于eDNA在大型生物中的首次应用是在法国池塘中检测北美牛蛙，该方法立即引起了对入侵生物学感兴趣的研究人员的注意。这些初步研究以及许多正在进行的研究继续基于物种特异性引物，其阳性扩增为特定入侵物种提供了发生证据。在eDNA的入侵生物学中，这种有针对性的方法被称为“主动”监测。

与之相反的是，eDNA宏条形码使同时检测许多物种的存在成为可能，包括以前不被怀疑存在的物种。这种更广泛的非目标方法在管理应用中被称为“被动”监测（图.4）。不利的一面是，由于引物特异性的权衡，我们预计eDNA宏条形码在检测某些物种时可能不太敏感，或者一个物种的检测率可能会根据物种丰富度而变化。在新的入侵风险很高并且针对不良物种的具有成本效益的根除计划可能成功的情况下，可以考虑采用被动和主动监测的双重方法。

避免未来的引进和减少外来物种的传播是自然资源政策的重中之重。与管理相关的eDNA宏条形码检测包括早期检测环境中的初期入侵种群，监测入侵途径，例如船舶压载水和活饵贸易。虽然eDNA宏条形码还没有被常规用于入侵物种的生物安全监管或在许多环境中实施，但它有可能成为生物入侵的有价值的监测工具。在入侵物种检测中使用eDNA宏条形码的一个重要挑战是假阳性和假阴性，因为两种结果都可能在不需要时触发行动或不行动，对负责入侵物种缓解和控制的实体造成潜在的巨大负担（图.4）。因此，继续研究以减少或理解假阳性和假阴性的本质将减少工具的不确定性，并促进更大范围的采用。

5.4 在生物监测中的应用

城市化、粮食生产和采矿等进程产生的空气、水和土地资源污染是我们在21世纪面临的许多新出现的全球挑战之一。确定大多数污染的来源、迁移和效应具有挑战性，因为它通过点源（如废水）和与土地使用类型相关的扩散源（如农业或城市化）积累。在这种情况下，耐受生物的存在和敏感生物的缺失被用来确定污染对全世界生态系统健康的影响，被称为“生物监测”（Biological monitoring或Biomonitoring）。动物和植物在生物监测中的使用范围取决于所监测的分类群的独特特征及其与关注的污染的关系。大多数生物监测方案都将群落组成和分类群的丰度考虑在内，并计算所谓的生物指数。生物指数有多种形式，通常反映着污染影响（例如，水中毒物暴露的SPEAR指数）。

在生物监测的背景下应用eDNA宏条形码是一个主要的研究途径。对群落DNA样本进行宏条形码检测显示出对检测隐性分类群或生命阶段的更高敏感性，并可缓和识别受损样本的问题（这些受损样本会使形态学工具失效）。众所周知，仅上述这两个问题就在生物指数估计中造成了巨大差异。将动植物eDNA宏条形码应用于生物监测中，需要对传统的调查方法和基于eDNA的方法进行深入测试（图.4），以了解从这两种方法得出的物种丰富度估计值是否会产生对感兴趣的生物指数的类似测量，或者新的生物指数是否需要开发，以同时考虑这两种形式的信息。DNAqua-Net COST Action（http://dnaqua.net/）正在向前迈出有希望的一步，这是一个由45个国家组成的联盟，共同努力开发用于欧洲水生生态系统生物评估的遗传工具。

5.5 在公民科学和生物多样性教育中的应用

收集环境样本的协议的简单性为有关使用eDNA进行生物多样性调查的公民科学项目提供了便捷。随着商业公司专门用于eDNA分析的样品试剂盒的开发（如GENIDAQS、ID-GENE、Jonah Ventures、NatureMetrics、Spygen），现在出现了让公众参与生物多样性科学的新机会，这可能伴随着已经确立的生物多样性项目，如BioBlitz（国家地理学会)。在这种背景下使用eDNA宏条形码检测将可能为生物多样性的教育和宣传提供一个前所未有的工具，并提高公众对生物多样性下降的认识。阻碍eDNA宏条形码技术在公民科学项目和教育机会中整合的挑战是处理样本所需的时间和成本以及用户友好的数据可视化工具，以便在得到数据后能够进行探索。因此，为了推动eDNA在公民科学和教育领域的应用，需要找到削减成本和加快数据生成的方法（这是该工具在任何应用情景下的共同目标），以及创建用于在智能手机和台式机上探索数据的应用程序。

结论

随着eDNA宏条形码工具的不断发展，在可预见的未来，我们对来自大型生物群落的eDNA分析（包括最佳采样、实验室和生物信息学工作流程）的理解将继续提高。与此同时，我们需要更好地理解eDNA和现存群落之间的时空关系，以提高eDNA的精确度和准确性，并增强eDNA的生态和政策相关性。基本上，与eDNA宏条形码研究相关的误差和不确定性通常可以通过周密的研究设计、恰当的引物选择以及稳健的采样和重复来缓和：正如Murray、Coghlan和Bunce（2015）强调的那样，“再多的高端生物信息学方法也无法弥补准备不充足的样本、人工序列或污染序列。”

随着时间的推移，将形成一个循环，即改进的eDNA宏条形码方法降低了对物种的阳性和阴性eDNA检测意义的不确定性，这反过来又会产生继续改进和使用eDNA宏条形码方法的动机，从而导致采用eDNA宏条形码作为估计物种丰富度的一种可比方法。我们预测，在接下来的十年里，动植物的eDNA宏条形码检测将成为一种标准的调查工具，它将补充传统方法，并加快我们对地球上生物多样性的理解。

1. Kristy, Deine, Holly, etal. Environmental DNA metabarcoding: Transforming how we survey animal andplant communities[J]. Molecular Ecology, 2017, 26(21):5872–5895.

原文链接：

https://doi.org/10.1111/mec.14350

中国科学院生态环境研究中心

环境生物技术重点实验室

邓晔研究员课题组发布

编译：赵博

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文