简介                 

标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装

metaFlye: scalable long-read metagenome assembly using repeat graphs

杂志:Nature Methods

影响因子:30.822

发表时间:2020年10月05日

解读:很跩的土豆

编辑:很跩的土豆

导读:相对于二代测序中的短片段序列的组装,使用长序列测序技术组装细菌基因组有了很大的改进。然而,即使对于最先进的组装算法而言,组装复杂的宏基因组数据集的难度依然很大。在本文中,作者介绍了一款名为metaFlye的软件,可用于长序列数据组装,以探究细菌的组成和物种内的异质性。首先,使用模拟细菌菌群评价其组装效果,发现metaFlye的组装产物具有很好的序列完整性。其次,作者使用长序列测序技术检测了绵羊的微生物组并使用metaFlye组装了63个近似完整的细菌基因组的contig。最后,作者发现人的细菌基因组的长读长序列组装产物可用于发掘全长生物合成基因簇。

正文

1.    前言

相较短序列组装产物,长序列的组装产物对基因组的覆盖度更广。相反,长序列宏基因组研究中的得率更低,这使得获取高质量的组装产物较为困难。目前,有一些研究致力于优化长片段、高分子量DNA序列的提取技术;通过提高序列长度,增加长片段的序列覆盖度,以组装复杂的宏基因组序列。即使如此,仍没有专用的长序列宏基因组组装工具。某些组装工具虽然被用于宏基因组测序数据组装,但是工具在其设计阶段,并没有致力于处理宏基因组数据组装中的一些特有的难题,比如对于组成物种的高度不一致覆盖,长序列基因组内外的重复区域以及物种内和物种间的异质性。

长序列宏基因组组装产物可显著改善短序列组装产物的内在限制,比如可显著优化株水平的分辨率,检测水平基因转移,新门类的发现,新质粒、病毒的测序和生物合成基因簇的发现。长序列宏基因组组装工具能够优化长短序列混合组装的性能。

本文作者开发过一个快速的长序列基因组的组装工具——Fyle,该工具可产生准确、连续的大片段组装产物。在本文中,作者报道了一个metaFlye算法用于长片段宏基因组序列组装。使用模拟菌群、真实菌群对该工具进行评价,结果表明该工具性能优于Canu、FALCON、miniasm、OPERA-MS和wtdbg2

 

2.    结果

2.1   组装产物覆盖度

Flye算法适用于单一基因组的组装。首先,计算出性能最佳的K-mer值,将其作为组装过程中设置的固定K-mer值。随后,使用该固定K-mer值检测重复序列并组装成更长的片段。然而,在宏基因组中,这种方法只适用于高丰度的物种,而对于低丰度的物种会得到一个更低的固定K-mer值,这会导致组装失败。因此,metaFlye采用一种不同于设置固定K-mer的方法,而是通过计算局部K-mer分布构成一个全局K-mer。这种metaFlye的算法可检测宏基因组组装草图中的重复区域,能够高效地检测组装基因组中高度不一致的序列分布(图1a)。

图1. metaFlye重复注释流程和基因组简单气泡架构、超级气泡架构和环路结构

Fig. 1 | metaFlye repeat annotation and examples of simple bubbles, superbubbles and roundabouts

a,不同基因组类型构成的组装草图;重复边、单边分别使用彩色和黑色线条展示,metaFlye可将X、Y、Z边鉴定为重复边。b,两个物种序列构成的简单气泡结构。c,三个物种序列构成的超级气泡结构。d,两个物种序列构成的环路结构,其中一条序列与另一条宏基因组组装产物的某些不同区域具有重复。

2.2   组装多个相似细菌基因组

种株水平的细菌基因组种,共有序列和特有序列常形成一个简单气泡结构(图1b)或超级气泡结构(图1c),或者某些株的基因组与一些其他不相关的基因组共有一段重复序列,而形成环路结构(图1c)。与单型体(haplotype)识别的组装算法相似,这些株诱导形成的重复图种的子图需要被检测、简化,以产生准确的、连续的宏基因组组装产物。本文方法部分有具体描述metaFlye如何检测和简化这些子图。

2.3 不同组装软件对于SYNTH181数据集的组装效果

图2,不同组装软件(Canu, Flye, metaFlye, miniasm和wtdbg2)对于SYNTH181数据集中宏基因组数据样本进行组装的效果评估

Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset

数据集中181个参考基因组的组装片段、NGA50值分布(NGAx 值是NGx组装断点的contig统计值)。NGA50值<10kbp或对于参考基因组的覆盖度<50%时不展示结果。总结起来,77(metaFlye)、141(Flye)、109(Canu)、106 (miniasm) 和109 (wtdbg2)个NGA50值被过滤掉。

2.4 不同组装软件对于人类微生物组计划数据集的组装效果

表1 不同组装软件对于数据集的组装效果评估

几乎所有长序列平台的数据集(PacBio,GridION 14Gbp,GridION 16Gbp,PromethION 146Gbp和PromethION 148Gbp)在使用metaFlye组装后的结果都是最优的,评价指标包括组装长度、相对参考基因组的覆盖度、序列一致性、NGA50、错误组装、CPU占用时间等。

2.5 Zymo数据集的组装

图3,使用metaQUAST对不同组装软件组装模拟菌群数据集序列的组装覆盖度和NGA50值统计

Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST

参考数据集包括HMP, ZymoEven GridION 和ZymoLog GridION。a, b 菌种覆盖度;蓝色、红色分别代表统计值高于或低于中位值。Flye由于k-mer值设定较差未能组装ZymoLog数据集。

2.6 绵羊肠道微生物宏基因组数据组装

图4,metaFlye组装完成的绵羊宏基因组物种信息

Fig. 4 | Information about strains in the sheep microbiome revealed by metaFlye.

a, 绵羊肠道微生物组中单个连接组件的组装草图。该组件代表了Clostridia纲的细菌基因组,该基因组具有92%的保守marker完整性。组装产物中含有20个简单气泡结构(绿色)和10个超级气泡结构(黄色),这些结构在2.4Mbp的长序列基因组中占有1.2Mbp。b, 绵羊肠道微生物组中1141个气泡结构的长度和分支序列鉴定程度的分布图。

2.7 人类肠道微生物宏基因组数据组装

表2 对真实宏基因组数据集的组装效果

2.8 人类肠道微生物组装产物中新的生物合成基因簇

总结:长序列宏基因组在解析复杂细菌菌群中具有很好的前景,但是其组装等步骤仍然面临很大的算法问题。metaFlye相较Canu,对于HMP和Zymo模拟菌群的组装产物具有更好的序列相似性和组装质量。相较miniasm、wtdbg2和FALCON,metaFlye和Canu对于大多数模拟菌群数据集的装配效果都有所改进。此外,只有metaFlye和wtdgb2能够组装PromethION测序产生的150Gbp规模的长序列数据,但是wtdbg2的组装产物片段化更显著。

                参考                 

[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

Nature方法 | 三代长读长宏基因组组装软件metaFlye相关推荐

  1. ISME | 通过长读长宏基因组测序揭示南极土壤未培养细菌的生物合成潜力

    关注我们 一起探索微生物领域的奥妙 摘要 日趋严重的抗生素抗性问题使得研究者们将目光转移到可能是新的抗生素来源的未培养细菌上.扩增子测序与短读测序分析表明宏基因组中存在多样化的生物合成基因簇(BGC) ...

  2. 史上最全的长读长数据校错方法大比拼

    A comparative evaluation of hybrid error correction methods for error-prone long reads               ...

  3. Nature子刊:宏基因组组装基因组实现谱系解析

    宏基因组组装基因组实现谱系解析 MAGs achieve lineage resolution Nature Microbiology [IF: 17.745] DOI:https://doi.org ...

  4. 【3】SALSA-基于HIC数据辅助组装长读长组装结果

    1. 安装编译 git clone https://github.com/marbl/SALSA.git cd SALSA make -j8 ##SALSA2依赖环境: Python 2.7,Netw ...

  5. 链读测序技术在宏基因组组装研究中的应用

    链读测序技术在宏基因组组装研究中的应用 链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从 ...

  6. 宏基因组组装质量评估新方法-MAGISTA

    谷禾健康 尽管地球上微生物类群的繁多,但只有一小部分得到了培养和有效命名.因为大多数菌无法在非常特定的条件下培养分离鉴定. 在过去十年中,宏基因组研究的重要性已经凸显,因为它能够评估细菌基因库并发现当 ...

  7. NBT:牛瘤胃微生物组的4941个宏基因组组装基因组(MAG)

    牛瘤胃微生物组的参考基因组集 用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集 Compendium of 4,941 rumen metagenome-assembled gen ...

  8. 宏基因组组装神器-MEGAHIT使用及常见问题

    文章目录 简介 安装和使用 常见报错和解决方法 输出结果 参考 简介 宏基因组测序获得海量短片段测序数据,这些数据混合着环境中各种各样的微生物基因组序列,如何恢复出这些微生物基因组序列,基因组组装成为 ...

  9. iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...

    点击蓝字 关注我们 MetaTrass:基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具 https://doi.org/10.1002/imt2.46 RESEARCH ARTICLE ●2 ...

最新文章

  1. IIS8 添加配置 WCF服务
  2. 阿里老P8,被大学天天打游戏的室友吊打了!
  3. 皮一皮:最头铁的汪峰...
  4. Win32下VC编译OpenSSl
  5. 普通视图和物化视图区别
  6. source insight 函数不能跳到definition_小技能: Windows10突然不能复制粘贴谁搞鬼
  7. 给学习java web新手们的建议和推荐一些书籍
  8. 论文阅读之ALBERT
  9. PD连接远程mysql_PowerDesigner连接远程Oracle数据库 | 学步园
  10. arm-none-linux-gnueabi-gcc:未找到命令,arm-none-linux-gnueabi-gcc编译标准库引用
  11. 《大型网站技术架构》读后感
  12. 微信小程序 时间插件 (可以选择日期+星期)
  13. 【西窗】2019杭州交通限行规定(最新地图详情)
  14. 工程项目成本费用明细表_这么简单?成本费用明细表这么填就对了
  15. 把海水变得更蓝更透!关键在调整-曝光度
  16. 网课必备·几款特色各异的pdf软件大全
  17. [C#] Asp.Net 簡易Email寄送 使用Gmail
  18. C#线程间操作无效:从不是创建控件“textbox1”的线程访问它
  19. 基于Simulink雷达系统建模仿真(附源码)
  20. 推荐几个美女程序媛和大佬的公众号!

热门文章

  1. 分布式系统中只有两个难题
  2. 线上经验总结:一台 Java 服务器可以跑多少个线程?
  3. 写给工程师的十条精进原则
  4. 【金三银四跳槽季】Java工程师如何在1个月内做好面试准备?
  5. PingCode入选36氪「WISE 2021新经济之王」年度硬核、新势力企业
  6. 推荐15个高质量学习网站,仅看一眼,就收获满满,赶紧收藏!
  7. 管理敏捷需求,进行需求协作
  8. 控制-频域操作-傅里叶级数和傅里叶变换
  9. ROS之用程序设定导航目标点
  10. html container显示边框,伪元素实现边框设置.html