Nautre综述：鸟枪法宏基因组-从取样到数据分析(2)2万字带你系统入门宏基因组实验和分析...

宏基因组拼接

Metagenome assembly

已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务，主要取决于研究的目的。

宏基因组从头/无参（de novo)组装/拼接在概念上类似于全基因组组装。de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接，通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂，这可能导致错误组装和碎片化。

宏基因组拼接呈现出独特的挑战。首先，当组装单个基因组时，通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝，区分真实序列和测序错误，并识别等位基因变异。宏基因的拼接更困难，因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接，则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组，但这是以图中重复k-mer频率增加为代价，掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支，其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止，从而导致碎片重建。

特定的宏基因组的组装软件试图克服这些挑战。Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。Meta-IDBA具有对de Bruijn图分区的扩展（与MetaVelvet一样），最新版本IDBA-UD优化了不均匀序列深度分布的重建。SPAdes组装程序已扩展用于宏基因组装配，可用于组装使用不同技术测序的数据（二、三混合组装）。

对于可能包含数百种菌株的复杂样品，必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序，例如Ray，它在一组计算机集群上分布内存负载，已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品，Pell等人开发了一种轻量级方法，将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析，使用k-mer丰度模式对读长进行分区，这样可以使用有限量的内存组装各个低丰度基因组。MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求，并实现非常快的运行时间。

MEGAHIT的文章导读和软件使用教程如下：

MEGAHIT：多快好省的宏基因组装工具
组装拼接MEGAHIT和评估quast

关于不同装配软件的关键指标（如完整性，连续性和产生嵌合重叠群的倾向）方面的表现，几乎没有同行的共识。尽管宏基因组分析“烘焙比赛（bake-offs）”旨在为分析软件提出具体建议，但软件性能很可能取决于生物因素（例如，潜在的微生物群落结构）和技术因素（例如，测序平台特征和覆盖范围）。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。

我们分析了模拟合成和真实群落的组装结果（表2和表3）。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75％的模拟群落 - 一个包含20个生物，另一个包含49个细菌和10个古菌。MetaSPAdes产生更长的重叠群，但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时，MEGAHIT成功地重建了更多真正的基因组。因此，在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集（表3）中，难以辨别一致的模式。然而，检查中等单拷贝核心基因数（以估计组装中的基因组数量）表明，对于更复杂的土壤和海洋群落，MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是，不同的最先进程序对于不同的数据集将是最佳的，同时需要相似的运行时间（在最大样本上使用16个线程约48小时）和内存使用峰值（不超过125 GB）。因此，谨慎尝试不止一种组装方法。CAMI挑战报告称，MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件，并且与metaSPAdes（未在CAMI中评估）一起，可能是当前最佳选择。无论使用哪种组装软件，结果都不是基因组，而是潜在的数百万个重叠群，这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。

表2. 基于已知成份的模拟群落评估宏基因组拼接

Table 2: Comparative evaluation of metagenomic assembly on mock microbial communities with known composition

使用SPAdes（版本3.7.1）和MegaHIT（1.0.4）使用默认建议参数进行宏基因组装，“-meta”“-k 21,33,55,77”用于SPAdes和“—presets meta-sensitive”用于“MegaHIT”。输入的宏基因组是先前描述的模拟群落的Illumina测序数据，其被子采样到5000万个读长以用于相同深度下多样性和其它结果的可比性。子采样的双端fastq文件位于 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.2.fastq.gz 用于HMP模拟群落（包括20个菌株）和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.2.fastq.gz 用于环境模拟群落（包括59株）。通过与BLASTN比对模拟群落中生物的基因组的重叠群来计算重建百分比和百分比同一性。N50值对应于重叠群的大小，其中较长的重叠群代表总组装的至少一半，并且它是评估组件质量的关键参数之一。在括号中，我们报告称为“完全重叠群（perfect contigs）”的统计数据，其是通过宏基因组拼接重建的重叠群，其在重叠群的整个长度上与参考基因组具有 > 99％的同一性。值得注意的是，“完美的重叠群”不包括嵌合重叠群。

表3. 不同环境宏基因组拼接的比较

Table 3: Comparative evaluation of metagenomic assembly of a set of metagenomes from diverse environments

使用如表2中报告的SPAdes和MegaHIT产生组装。通过HMP（二次取样5千万读长的宏基因组）在对肠样品进行测序 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.2.fastq.gz ），Ofek-Lalzar等人的土壤样本（5000万读长子样本宏基因组，网址为 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.2.fastq.gz ）和Sunagawa等人的海洋样本（ https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.2.fastq.gz ，有5000万读取子采样的宏基因组）。功能注释如前所述进行，使用Prodigal（使用默认参数和“-p meta”标志运行）从组装的重叠群中鉴定的基因总数，与NCBI非冗余（nr）数据匹配使用DIAMOND以95％同一性设定，36个通用COGs，COGs的单核基因使用rpsblast以e值<0.00001注释，KEGG orthologs使用DIAMOND的blastp和默认参数注释。

重叠群分箱

Binning contigs

宏基因组拼接高度分散，包含数千个重叠群（表2），研究人员不知道哪个重叠群来自哪个基因组，甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督（聚类）方法在数据中查找自然组。

监督和非监督方法都有两个主要元素：用于定义给定重叠群和分箱之间相似性的度量，以及将这些相似性转换为赋值的算法。对于物种分类学，针对已知基因组的重叠群同源性是一种潜在有用的方法，但大多数微生物物种尚未测序，因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合，这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组，其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择，例如朴素贝叶斯分类器或支持向量机，但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。

重叠群的聚类分析非常有吸引力，因为它不需要参考基因组。直到最近，大多数重叠群聚类算法，例如MetaWatt和SCIMM，使用了各种物种组成指标，有时还与总覆盖率相结合。最近，随着多样本宏基因组数据集的产生，研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信号，可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值，尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如，第一种算法，例如扩展的自身比对，需要人工输入来执行聚类，这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法，例如CONCOCT，GroopM和MetaBAT，它们便于大数据集，但是当结合人工细化时可以获得更好的结果，例如使用可视化工具，例如Anvio。

当前已经有很多更新的分箱方法和提纯工具，如：

Microbiome：

宏基因组分箱流程MetaWRAP 简介安装和数据库部署实战和结果解读
DAS工具: 利用去重、聚合和评分的策略从宏基因组中恢复基因组
NBT：宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组

重建宏基因组装基因组（metagenomic assembled genomes，MAG）的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG，没有培养的代表，显示了这种方法的潜力。回收的基因组很小，新陈代谢最少，并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分，通过宏基因组学揭示候选Radiation门。

通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性，例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后，MAG为比较基因组学提供了丰富的数据集，包括构建系统发育树，功能谱和样本中MAG丰度的比较（图2，补充代码和 https://github.com/chrisquince/metag-rev-sup ）。

图2. 无参和有参宏基因组物种表征

Figure 2: Assembly-based and assembly-free metagenome profiling.

从宏基因组病例对照设计开始，我们说明了识别生物体和编码功能所需的一些步骤，并尝试将这些样本的特征与病例或对照条件联系起来。左边是一个基于组装的流程（这可以完全按照命令和代码作为GitHub库在 https://github.com/chrisquince/metag-rev-sup 提供）。右边是使用MetaPhlAn2、HUMAnN2和最近MetaPhlAn2方法的种水平扩展的基于读长的流程。（原始数据可在 http://metagexample.s3.climb.ac.uk/Reads.tar.gz 获得。）

有参宏基因组定量

Assembly-free metagenomic profiling

宏基因组的分类学分析确定了宏基因组中存在哪些微生物物种并估计它们的丰度。这可以通过外部序列数据资源（例如公众可获得的参考基因组）在没有组装的情况下进行。这种方法可以避免复杂的拼接问题，加快计算速度，并能够分析无法重新组装的低丰度生物（附框1）。其主要局限在于以前无特征的微生物难以描述（附框1）。然而，可用的参考基因组的数量正在迅速增加，每年产生数千个基因组，包括一些来自新培养方法靶向的难生长物种、单细胞测序方法或宏基因组拼接的不可培养物种。一些样本类型（例如人类肠道）可用的参考基因组的多样性现在足够广泛，可以使无组装的方法开展分类学的有效分析，包括缺乏足够序列覆盖和深度的相对低丰度的微生物，以便组装基因组。由于缺乏代表性的参考基因组，对包括土壤和海洋在内的更多样化环境的分析存在困难。因此，通常建议在分析来自这些环境的宏基因组时使用组装。

具有物种水平分辨率的无装配物种学组成，利用参考基因组和环境特定组装中提供的信息，并已用于迄今为止进行的最大的人类相关宏基因组学研究。读长到基因组的简单比对可能导致具有许多误报的错误匹配，但是当基于最低共同祖先（LCA）策略进行后处理或者与组合插值相结合的马尔可夫模型时，这种方法已被证明是有效的。但是，这些方法的运行时间并没有改善基于组装的方法的运行时间。Kraken也利用LCA，但通过用k-mer匹配代替序列比对来加速计算。

Kraken：使用精确比对的超快速宏基因组序列分类软件

通过从可用的参考序列中选择代表性或判别性基因（标记）进行分类学分析是另一种快速且准确的非组装方法，其已经通过若干改进，具有可操作性。例如，通过观察来自预组装的环境特异性基因目录的共同丰富的标记，MetaHIT联盟能够表征人类肠道中的已知和新型生物。类似地，mOTU侧重于普遍保守但系统发育信息标记（例如，编码核糖体蛋白的基因），而MetaPhlAn（图2）采用具有高辨别力的数千个进化枝特异性标记，并且有效地定量分析用于人类微生物组计划（HMP）的来自多个身体区域的微生物组具有非常低的假阳性率。这些方法是可扩展的，可用于大型宏基因组学荟萃分析。基于标记的方法也可用于使用数千个宏基因组的菌株水平比较微生物基因组学。重要的是，随着更多参考基因组和高质量宏基因组组件的出现，这些方法的准确性将得到提高。对于具有数百个样本的大型数据集，其上执行或解释宏基因组学是不切实际的，基于标记的方法是目前推荐选择的方法，特别是对于具有大量微生物多样性的环境，可充分表征的测序物种覆盖。

MetaPhlAn2基于多标记基因的宏基因组物种组成定量文章解读软件使用

宏基因组中的基因和代谢通路

Genes and metabolic pathways from metagenomes

利用片段化但高质量的宏基因组拼接结果，可以使用适合的单基因组表征工具鉴定微生物群落的基因库。这些基因鉴定步骤，通常具有宏基因组特异性参数设置，然后是通常用于表征纯分离基因组组装的基于同源性的注释流程（图2）。实际上，尽管这种方法通常受参考数据库目录中大部分未表征基因的限制，到目前为止一些最大的鸟枪法测序工作已经使用宏基因组拼接结果来汇编人类和小鼠肠道的宏基因组参考基因集。

Microbiome：鸡肠道宏基因集的构建(张和平、魏泓、秦楠点评)
Cell子刊：人类微生物组参考基因集中的单体基因

其他大的宏基因组数据集通过针对功能特征性蛋白质家族的翻译序列搜索来解释。包括手动注释和计算预测的蛋白质家族组合的数据库，例如KEGG或UniProt，可以用于该任务并且能够表征微生物组的功能潜力（图2）。单个蛋白质家族聚类成更高级别的代谢途径和功能模块，提供图形报告或综合代谢存在、缺失和丰度表，如HUMAnN流程。无论采用无组装/有参还是基于组装/无参的方法，分析群落代谢潜力的主要限制因素是大多数微生物物种中缺乏对基因的注释（选定的模式生物除外; 框1））。这意味着在宏基因组中更加一致地检测和量化高度保守的途径和看家(housekeeping)功能，这可以解释为什么即使分类组成变化很大，功能性状在不同的样品和环境中经常出乎意料地一致。微生物蛋白，编码基因和其他基因组特征（tRNA，非编码RNA和CRISPR）的实验证明和功能描述，以更全面地评估个别基因座的功能是一个瓶颈，目前对分析宏基因组功能能力的提高具有至关重要的影响。

HUMAnN2基于UniRef数据库的功能定量 1文章解读 2软件教程 3有参分析流程

对宏基因组的代谢功能分析的补充方法是对感兴趣的特定功能的深入描述。例如，在微生物群落中鉴定参与抗生素抗性的基因（’抗性组resistome’）可以告知抗生素抗性的传播。临时方法（Ad hoc）和人工策划的抗生素抗性基因数据库对这种方法至关重要; ARDB是第一个广泛采用的抗性数据库，现在由其他资源补充，例如Resfams。相当大的努力也致力于报告宏基因组的毒力库; 针对特定感兴趣的基因家族的宏基因组的靶向分析也可用于验证来自单个基于培养分离实验的发现。

框1. 宏基因组的局限性的机遇

Box 1: Limitations and opportunities in metagenomics

鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括：

准入门槛高 Entry-level access

在无法获得测序和计算设施的情况下，对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。

基因组目录的全面性 Comprehensiveness of genome catalogs

可用的 > 50,000个微生物基因组的集合偏向模式生物，病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组，因此它们受参考序列资源中偏差的影响。

功能组成分析中存在偏差 Biases in functional profiling

由于大多数基因缺乏有效的注释，因此宏基因组中存在的功能类别的分析受到阻碍，这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外，内在的微生物组特性，例如其平均基因组大小，可以严重影响定量分析。

微生物暗物质 Microbial dark matter

以前，基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后，一小部分读长仍可能未被使用，并且该部分的大小高度依赖于群落结构和复杂性（表2和3）。它还受到诸如测序噪音，污染物DNA和微生物以及质粒的影响，即使在其基因组的部分组装后仍保持在分类学上模糊不清。

“活着或死亡”的困境 ‘Live or dead’ dilemma

在宿主细胞死亡后，DNA在环境中持续存在，因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物，可以使用结合游离DNA的化合物如异丙脒（propidium monazide），去除死亡或受损细胞内的DNA，或使用宏转录组技术研究有活跃表达的RNA部分。

组成型数据的魔咒 ‘Curse of compositionality’

定量宏基因组特征报告结果为相对总体的比例，与实际绝对浓度无关。因此，样品中真实浓度的变化可能产生错误的相关性。例如，如果高度丰富的生物体在两个相同的样品中使其浓度加倍，则样品中的所有其他生物在标准化后似乎丰度都存在差异。

粘膜相关的微生物组测序 Mucosa-associated microbiome sequencing

人体粘膜组织是微生物与免疫系统之间的关键界面，但由于人类DNA的极高比例和微生物量低，因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。

鸟枪法宏基因组研究也提供了众多机遇，例如：

整合宏组学 Integrative meta-omics

尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充，但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学，目前尚不清楚如何在共同框架内整合和分析宏组学数据。

整合宏组学的方法，可参考此文：《Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架》

病毒组鸟枪法测序 Virome shotgun sequencing

可以通过鸟枪法宏基因组学检测病毒，但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信号，病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考：《NBT：宏基因组中设计全面可扩展探针捕获序列多样性》。关于病毒组的常规分析套路，参考：《EID：宏基因组测序在新发腹泻病毒鉴定中的应用》

株水平组成分析 Strain-level profiling

单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。

纵向研究设计 Longitudinal study design

许多鸟枪法宏基因组研究是横断面的，因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具，但是需要更多的方法和数据来研究时间维度。

解开因果 Disentangling cause from effect

来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。

验证微生物组生物标志物 Validation of microbiome biomarkers

给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此，重要的是验证技术和群组中的生物标记物，以提高重现性并最小化批次效应。

数据共享和分析的可重复性 Data sharing and analysis reproducibility

强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而，宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。

下游分析

Post-processing analysis

无论用于初级宏基因组序列分析的方法如何，输出将包括样品与微生物特征（即物种、分类群、基因和通路）的数据矩阵。后处理分析使用统计工具来解释这些矩阵，并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战，包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题，并且几种流行的R包，如最初为扩增子测序开发的DESeq2，vegan和metagenomeSeq，也可用于宏基因组学。

后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关，以及可视化技术，例如热图，排序（例如，主成分分析和主坐标分析）或网络，其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况（组成型问题）（框1）的比例性质引入的问题，并推断群落内的生态关系。监督方法包括统计方法，例如用于组间差异直接假设检验的多变量方差分析（ANOVA），或训练模型标记样本组的机器学习分类器，例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病（例如，型糖尿病），尽管开发交叉研究预测特征的研究具有挑战性。

无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性，和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。

稳健的统计检验是确定结果有效性的关键，但简洁的图形表示可以直观地揭示模式。在许多情况下，后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。

展望

Outlook

宏基因组学仍然面临着适用性、实用性和标准化的障碍（框1）。对于缺少大部分微生物生命之树和许多微生物基因的功能注释、参考基因组序列数据，大大降低了用于分析大量序列计算方法的潜力。来自土壤或水等环境的宏基因组特别受到这一问题的影响，因为它们具有较高的微生物多样性和这些群落中未知分类群的比例。鸟枪法测序也无法区分活体和死体来源生物。然而，前景是光明的，因为大量的湿实验室和计算研究人员正在逐步找到解决这些问题的方法。

宏基因组生物信息学工具正在不断改进，特别是用于将原始读长序列解析成有意义的微生物特征（基因组、物种丰度和功能潜能特征）（图1）。例如，现在可以进行种水平分析，但关于哪种序列分析方法最好（表4）仍存在争议。如果有足够的基因组覆盖率（即超过20倍），则宏基因组组装是优先选择的理论解决方案，但是对于大多数微生物组成员来说这种覆盖水平很难获得（表4），并且不组装的方法具有其他优点，包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源（表4）。我们建议研究人员尽可能使用这两种方法进行序列分析，因为它们相互补充和验证。

至于群落DNA测序的技术改进，长读长序列平台已经成熟，并且可能对宏基因组拼接策略更有用，尽管目前很少有出版物（译者注：近期有大量相关研究，详见公众号目录或下面几篇三代测序在宏基因组中应用的文章供参考）。

NBT：牛瘤胃微生物组的参考基因组集
NBT：宏基因组二、三代混合组装软件OPERA-MS
NBT封面：纳米孔宏基因组6小时识别下呼吸道病原体
纳米孔测序揭示冻土冻融对土壤微生物群落变化的影响

如果实现足够的覆盖率（通常为30-100×），Pacific Biosciences仪器可以提供完整或接近完整的微生物基因组，具有低碱错误率。牛津纳米孔MinION是一种单分子、长读长设备，由于其尺寸和便携性（与智能手机相当）而具有吸引力，并且对该平台的读长的早期分析表明其错误率接近于Pacific Biosciences。将分离的基因组拼接成单个重叠群是可能的，因此MinION的便携性提高了野外宏基因组测序的诱人可能性。

从宏基因组改进基因组重建的另一种实验方法，是将Illumina测序与多标签文库制备方案相结合。这种“合成长读取”技术依赖于将基因组DNA稀释成由数百至数千个单个分子组成的片段化和条形码池，详见《NBT：宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组》。对这些库进行测序并从头组装以产生合成的长读长。合成长读取的一个好处是因为它们是由Illumina序列的共识构建的，所以基本错误率极低。然而，该方案相当费力并且需要高DNA输入（1至10μg之间），并且局部重复序列存在问题。报告表明，这种方法对于宏基因组学是有用的，特别是当与标准鸟枪测序结合时，因为它可以从密切相关的菌株以及来自稀有微生物的菌株重建基因组。

鸟枪法宏基因组学的另一个突出优势是从遗传相近生物的混合物中精确重建株水平（strain-level）变异，基于组装、比对或两者结合的解决方案。比对到一个物种独特的基因可以解决样本中的显性单倍型，并且该方法已经应用于数千个不相关的宏基因组，提供了菌株水平的系统发育，使分析数百个基本上无明显差异特征物种的微生物群体基因组学成为可能。单个样品中来自相同物种菌株的混合物不能通过共有方法解析，但如果多个样品中存在相同的菌株，则单核苷酸变异中将存在特征。这些核苷酸变异可以与推断单倍型及其频率相关联。该方法最初仅在比对到参考基因之后应用，并且任选地与同时的菌株系统发育重建一起应用，但是现在它已经在完全无参考的方法中直接应用于具有菌株基因的拼接重叠群中。这种方法的一个限制是在某些环境中，如人类肠道，一种菌株通常比来自同一物种的其他菌株占主导地位。因此，检测低丰度物种的非优势菌株是具有挑战性的，并且用户必须权衡仅显性菌株的稳健性，与可从菌株混合物获得的潜在额外信息。株水平宏基因组学是一个非常活跃的研究领域，它有可能赋予宏基因组学以类似于培养的单一分离物测序的分辨率。尽管长读长技术可以在未来帮助这些工作，但在此之前，解决宏基因组学株水平分析的计算挑战可以说是该领域面临的最大挑战。

表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足

Table 4: Strengths and weaknesses of assembly-based and read-based analyses for primary analysis of metagenomics data

方面	基于组装的分析	读长层面的分析(比对)
全面性	可以构建多个全基因组，但仅适用于具有足够覆盖的生物体以进行组装和分箱	可以提供群落功能或结构的汇总图，但仅基于有效比对到参考数据库的部分读长
群复杂性性	在复杂的群中，只有一小部分基因组可以通过组装来解决	在给定足够的测序深度和令人满意的参考数据库覆盖范围的情况
新颖性	可以解析没有序列亲源的全新生物基因组	无法解析无近亲生物的基因组
计算成本	需要计算成本极高的组装、比对和分箱	可以高效执行，实现大型荟萃分析
基因组解析代谢	可以通过完全组装的基因组将代谢与系统发育联系起来，甚至是新的多样性	通常可以仅解决群落的聚合代谢，并且只有在已知参考基因组的背景下才能与系统发育相关联
专业的人工监督	精确分箱和支架以及错误装配检测所需要手工进行	通常不需要手动，但选择使用的参考基因组可能涉及人工监督
与微生物基因组学整合	可以将组装到微生物基因组流程中，该流程设计用于分析来自纯培养分离物的基因组	获得的概况不能直接放入源自纯培养分离物基因组的背景中

结论

Conclusions

自2004年由Jillian Banfield和J. Craig Venter领导的团队开始将全DNA测序应用于环境样品以来，鸟宏基因组学已成为研究微生物群落的重要工具。由于测序成本的下降和计算方法的发展，使得宏基因组学的广泛应用成为可能。研究人员现在面临的主要限制是培训计算科学家分析复杂的宏基因组数据集以及为设计适当的研究并有足够样本的成本。诸如对宏基因组解释的关键评估（CAMI）等倡议对于计算工具的无偏差评估以提高可重复性和标准化至关重要。

鸟枪法宏基因组学将在各种生物医学和环境应用中发挥越来越重要的作用。我们希望这篇综述能够让我们了解鸟枪宏基因组学的基本概念，包括它的局限性和巨大的潜力。

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读