发表期刊:Computational and Structural Biotechnology Journal(IF=7.271)

发表时间:2021

研究背景

微生物是生物和环境的营养循环和代谢过程所必需的,并且与生理学至关重要。虽然微生物可以使用传统培养的方法来确定,但目前自然界中可培养的微生物仅为1%。宏基因组能够通过测序从混合DNA中检测不可培养的微生物基因组序列(图1A),通过binning方法,将数据中来自同一菌株的序列聚到一起,得到单个菌株的基因组。

2021年底,发表在《Computational and Structural Biotechnology Journal》期刊的这篇综述详细阐述了宏基因组binning分析中用到的各类工具,给广大生信分析者提供了重要参考。

图1 在宏基因组学研究领域中使用的不同方法的示意图表示

(A)非培养(宏基因组学)方法和依赖于培养的方法之间的示意图对比。(B)基于组装和基于参考数据库方法的宏基因组测序数据之间的对比。

宏基因组项目分析工具

1、序列质控工具

针对短读长测序(如Illumina测序),常用的序列质控工具有FastQC,fastp、Trimmomatic和SOAPnuke(表1)。FastQC提供了碱基质量、GC含量分布和核苷酸偏倚的可视化说明。Fastp通过使用高级的多线程实现,提高了QC处理速度。Trimmomatic和SOAPnuke是分别针对Illumina和BGISEQ测序平台进行优化的最常用的两种工具。

针对长读长测序(如PacBio、Nanopore测序等),由于质控原理不同,相应的工具也有所不同,如SequelTools可通过过滤低质量reads并产生多个统计图,来检查PacBio长读长的质量。

表1 用于序列质控的工具

2、宏基因组组装工具

针对不同测序数据类型,宏基因组组装工具有所不同。传统短读长测序的宏基因组组装工具是基于OLC(overlap-layout consensus)方法设计的,如Omega。还有其他几种使用DBG(De Bruijn graph)设计的工具,如MetaVelvet、MetaVelvet-SL和MEGAHIT。

针对SLR(synthetic long reads)和linked reads测序,分别有Nanoscope、Athena和cloudSPAdes工具。由于PacBio和ONT平台生成的长reads比二代NGS测序具有更高的碱基错误率,针对长读长已经开发了用于碱基错误修正的专用模块,例如Canu和NECAT,使用OLC方法纠正了基因组组装前长序列的测序错误。

短读长和长读长测序技术在某种程度上是互补的,因为短读长具有较高的碱基质量,而长读长提供了连通性。因此,一些算法通过利用两种测序技术的优点开发了新的工具,如DBG2OLC和Opera-MS。

总之,二代宏基因组组装最常用的工具是MEGAHIT,三代宏基因组组装常用是MetaFlye和Canu。

表2 宏基因组组装工具

3、宏基因组组装结果检验工具

有许多工具可用来评估宏基因组组装生成的contigs和scaffolds的准确性和连续性。

 ● MetaQUAST可以快速计算出连续长度和scaffolds的基本统计数据,如组装长度、N50值和连续长度分布等。

 ● REAPR可以精确地识别基因组组装中的错误,且不依赖于参考序列。

 ● VALET在QC之前进行宏基因组binning,以减少由于reads深度不均匀而导致的假阳性和假阴性的数量。

● DeepMAsED可不依赖参考基因组,使用深度学习模型来检测错误组装的序列。

表3 用于组装结果检验的工具

4、宏基因组binning工具

目前的大多数组装工具并不能以单一scaffolds代表完整的微生物基因组。许多宏基因组binning工具被开发出来,将scaffolds分成簇,以代表一个生物体的整个基因组(表4)。Metabat2在众多单样本分箱工具中具有很大优势,从Bin数量、完成度、Bin纯度、精确度、效率上来看,Metabat2表现都十分出色。

表4 宏基因组binning的工具

5、MAGs完整度和污染度评估

CheckM通常用于确定每个bins的质量。然后只选择质量相对较高的bins作为后续注释的MAG。根据其完整性、污染水平和rRNA/tRNA预测,这些bins通常分为高质量、中等质量和其他类型。

表5 MAGs质量评估

类型

完整度

污染度

高质量MAGs

>90%

<5%

中等质量MAGs

≧50%

<10%

其他

<50%

≧10%

6、基因预测工具

隐马尔可夫模型(HMM)是基因预测中最常用的算法。常用工具包括MetaGeneMark,Glimmer-MG和FragGeneScan。

一些针对细菌和古细菌基因组的基因预测工具,使用的是动态编程,例如Prodigal、MetaGen和MetaGeneAnnotator。

此外,各种深度学习工具在基因预测方面得到了相当多的关注,常用的工具有Meta-MFDL和CNN-MGP。

表6 基因预测工具

7、基因功能注释工具

宏基因组基因功能注释工具可分为两类:

1)宽泛功能的工具来评估完整的功能潜力;

2)特定功能的工具,专注于一个或几个特定的生物过程。

基于同源性的工具通常依赖于BLAST来比较预测基因序列与已知基因序列的相似性,这些工具在处理从MAG中预测出的大量基因时通常非常缓慢。而eggNOG-mapper、GhostKOALA、MG-RAST和PANNZER2,采用了优化的比对策略,使基因序列与数据库的比对速度提高100-1000倍。

表7 基因功能注释工具

8、用于MAGs分类学鉴定的工具

注释MAGs时的另一个关键任务是确定它们的分类学地位。传统的基于16S rRNA的分类方法分辨率有限,在MAGs中的代表性较差。相比之下,单拷贝标记基因由于其分辨率的提高而受到欢迎(表7)。

推荐GTDB-Tk软件工具包,该工具基于基因组分类数据库GTDB可以对宏基因组binning获得的单菌基因组(MAGs)进行分类鉴定。

表8 MAGs分类学鉴定工具

9、分析MAGs丰度工具

用来估计宏基因组测序数据中MAGs丰度的具被分为四类:

1)基于蛋白质的工具;

2)基于k-mer的工具;

3)基于标记基因的工具;

4)基于单核苷酸多态性(SNP)的工具。

这四种方法都能估计MAGs丰度,但具有不同的分辨率。例如,基于k-mer的工具计算了MAGs的特定序列的丰度,而基于标记基因的工具计算了分类学丰度。

表9 用于分析MAG丰度的工具

总结

本研究为宏基因组binning上游和下游的分析工具提供了统一的公共资源,读者可以根据自己的研究目标选择最有效的工具和软件应用程序,同时文章内容加速了在宏基因组学领域使用的相关软件、工具等的研究和开发进程。

参考文献

A review of computational tools for generating metagenome-assembled genomes from metagenomic sequencing data. 2021.

DOI:10.1016/j.csbj.2021.11.028

来来来,一起来pick宏基因组binning分析工具相关推荐

  1. Nature综述: 宏基因组关联分析-深入研究微生物组

    本文由谢忠杰编译,董小橙.江舜尧编辑,本文较长,建议用电脑阅读. "微生太"原创微文,转载已获授权. 导读 问题1:哪些疾病与人体微生物明确相关? 问题2:如何研究人体微生物与健康 ...

  2. 宏基因组实战8. 分箱宏基因组binning, MqaxBin, MetaBin, VizBin

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  3. 凌恩客户文献|宏基因组binning解析中国浓味白酒窖泥微生物群落MAGs和代谢潜力

    近期,凌恩生物客户四川农业大学在<Food Research International>(IF=6.475)期刊发表题为"Metagenome and analysis of ...

  4. PICRUSt:16S预测宏基因组-扩增子分析锦上添花

    写在前面 16S分析能获得的信息比较有限,一般找到差异OTU,就很难再深入分析了. 如何把差异OTU与细菌自身的基因组功能建立联系呢?很多人在这方面做出了努力. PICRUSt就是让16S扩增子分析锦 ...

  5. MetaPhlAn2-增强版宏基因组分类谱工具-一条命令获得宏基因组物种组成

    简介 MetaPhlAn2是分析微生物群落(细菌.古菌.真核生物和病毒)组成的工具,它在宏基因组研究中非常有用,只需一条完命令即可获得微生物的物种丰度信息(扩增子物种组成需要质控.拼接.拆样本.切除引 ...

  6. MetaPhlAn2-增强版宏基因组分类谱工具

    简介 MetaPhlAn2是分析微生物群落(细菌.古菌.真核生物和病毒)组成的工具,它在宏基因组研究中非常有用,只需一条完命令即可获得微生物的物种丰度信息(扩增子物种组成需要质控.拼接.拆样本.切除引 ...

  7. SILVAngs:免费在线宏基因组扩增子分析系统

    SILVAngs - rDNA-based microbial community analysis using next-generation sequencing (NGS) data 简介 SI ...

  8. MetaPhlAn 2:宏基因组进化分析

    描述 MetaPhlAn是分析从物种水平分辨率宏基因组鸟枪法测序数据的微生物群落(细菌,古细菌,真核细胞和病毒)的组成的计算工具.从版本2.0,MetaPhlAn还能够确定具体的菌株(在将样品含有先前 ...

  9. MicroPIT挑选进行宏基因组测序分析

    做扩增子测序后,你也一定还会想要进行shutgun宏基因组测序, 但宏基因组测序单个样品价格又太高不可能把你的每个样品都去进行宏基因组测序. 所以这时我们就可以利用microPITA进行样品预测,挑选 ...

最新文章

  1. 重温CLR(十) 字符、字符串和文本处理
  2. redminote8自动关机怎么回事_红米Note8Pro手机值得入手吗 红米Note8Pro手机全面评测...
  3. link-cut-tree 简单介绍
  4. 软件工程采取了哪些措施以保证最终能够交付给用户一个高质量、低成本的软件产品?
  5. OculusQuest2 直接连电脑调试
  6. Leetcode每日一题:1095.find-in-mountain-array(山脉数组中查找目标值)
  7. mybatis的Mapper文件配置
  8. 2021上半年软考数据库系统工程师真题完整版
  9. 控制继电器(esp32+继电器)
  10. python多维列表索引越界怎么处理_python列表索引越界
  11. 解析torch.norm函数
  12. 机器学习|切比雪夫不等式(3sigma原则来源)|10mins入门|概统学习笔记(十)
  13. 【英语语法入门】 第31讲 [被动语态 (1)]被动态的构成和含义
  14. 【人情世故】汇报措辞
  15. 关于杂项(bugku平台)(持续更新)
  16. Putty的下载和安装
  17. 谈谈自己对线性最小二乘和非线性最小二乘之间关系的理解~
  18. 奥运排行榜详解 (25分
  19. -1岁的产品经理日记——part2(笔经,群面篇)
  20. axios发送x-www-form-urlencoded格式数据

热门文章

  1. EXCEL--单元格文字行间距如何调整解决方法
  2. 关于DP和HDMI和VGA和RS232这几种接口的实用性和功能性分析
  3. MAUI 入门教程系列(5.XAML及页面介绍)
  4. 11种主要神经网络结构图解
  5. WUSTOJ 1318: 区间的连通性(Java)
  6. 程序猿的自救 从零备考NSCA/CSCS 3 运动与训练的能量学
  7. 1024程序员节来了,
  8. 【网络爬虫】实现有道翻译提取
  9. 同花顺服务器维护,同花顺云端服务器
  10. Microsoft Remote Desktop提示「Your session was disconnected」