文章目录

  • metaSPAdes:新型多功能宏基因组拼接软件
    • 热心肠日报
    • 摘要
    • 结果
      • metaSPAdes流程概述
      • 表1. 所有数据集和所有组装程序的支架总长度(以兆为单位)
      • 图1. 支架累计长度图
      • 表2. 预测基因大于800的数量和总长
      • 表3. 序列比对的比例
      • 图2. 评估20个菌群的人工合成群落
      • 表4. 序列比对的比例
      • 图3. 3个菌株分别和混合组装的de Bruijn图
      • 图4. 应用宏基因组学特定的决策规则进行重复序列解析
      • 图5. 在宏基因组学组装中重复解析
    • 猜你喜欢
    • 写在后面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4NJTIm4t-1570636494891)(http://210.75.224.110/Note/LiuYongXin/170315GR/0.jpg)]

metaSPAdes:新型多功能宏基因组拼接软件

metaSPAdes: a new versatile metagenomic assembler

Genome Research, [9.944]

2017-3-15 Method

DOI: https://doi.org/10.1101/gr.213959.116

第一作者:Sergey Nurk1,4, Dmitry Meleshko1,4

通讯作者:Pavel A. Pevzner1,3*

其它作者:Anton Korobeynikov

作者主要单位:

1俄罗斯圣彼得堡国立大学,转化生物医学研究所,算法生物技术中心(Center for Algorithmic Biotechnology, Institute for Translational Biomedicine, St. Petersburg State University, St. Petersburg, Russia)

2俄罗斯圣彼得堡国立大学,统计模型系(Department of Statistical Modelling, St. Petersburg State University, St. Petersburg, Russia)

热心肠日报

metaSPAdes:株水平高精度宏基因组拼接软件

  1. metaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显;
  2. 软件基于SPAdes系列积累的单细胞和高度多态的二倍体基因组中积累的有用经验;
  3. 软件与宏基因组领域主流组装工具MEGAHIT、IDBA—UD、Ray-Meta进行比较,在合成群落、人类、海洋和土壤微生物组中均表现出更好的基因长度和读长比较率;
  4. 软件在组装中对宏基因组中的相近菌株的组装、重复序列处理进行优化,以获得更好的组装长度;
  5. 值得注意更好的组装质量也伴随着更长时间和内存消耗,同时也有错误组装上升的风险。

点评:metaSPAdes是目前宏基因组领域组装指标最好、最耗时和耗内存的软件,也存在提高错误率。其支持混装是一大优点,还有很多子版本,如metaplasmidSPAdes装质粒(https://www.mr-gut.cn/papers/read/1041966050)。此软件也是组装评比中必用软件,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)。最新组装工具OPERA-MS也会与其对标比较(https://www.mr-gut.cn/papers/read/1088940721)。

摘要

尽管宏基因组学已经成为分析细菌群落的一种首选技术,但是宏基因组学数据的组装/拼接仍然具有挑战性,从而扼杀了生物学发现。 此外,最近的研究表明,复杂的细菌种群可能由数十个相关菌株组成,从而进一步放大了宏基因组学组装的难度。 metaSPAdes通过利用证明对单细胞和高度多态的二倍体基因组的组装有用的计算思想来应对宏基因组组装的各种挑战。 我们将metaSPAdes与其他最新的宏基因组拼接软件进行了基准比较,并证明了它可实现跨各种数据集的高质量组装。

结果

metaSPAdes流程概述

Outline of metaSPAdes pipeline

metaSPAdes首先使用SPAdes构造所有读长的de Bruijn图,使用各种图简化程序将其转换为装配图,并基于宏基因组中的长基因组片段构建相对应的装配图(Bankevich et al.2012; Nurk et al.2013)。
metaSPAdes可在广泛的覆盖深度下工作,变尝试装配结果在准确性和连续性之间保持权衡。 为应对微多样性挑战,
metaSPAdes专注于重建
株水平混合物的一致骨架,因此忽略了一些对应于罕见的菌的株特异性特征。
到。

表1. 所有数据集和所有组装程序的支架总长度(以兆为单位)

基于20种菌的合成菌群(Synth)、人类微生物组数据(HMP)、海洋和土壤样本。

Table 1. The total length of scaffolds (in megabases) for all data sets
and all assemblers

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5i2MSdGs-1570636494892)(http://210.75.224.110/Note/LiuYongXin/170315GR/t1.jpg)]

显示了10个最长,1000个最长以及所有All > 1 kb的支架的统计信息。 单元格的颜色反映了各种组装程序的结果与中值之间的差异(蓝色/红色单元格表示结果与中值相比有所改善/变差)。

在长度方面,metaSPades和IDBA-UD较好,而MEGAHIT较差,Ray-Meta最差。

详者注:此图只是看拼接长度,长不一定代表是对的;而且分析中计算时间和资源消耗也是选择的重要因素。

图1. 支架累计长度图

Figure 1. The cumulative scaffold lengths plots

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WnguI7Qb-1570636494893)(http://210.75.224.110/Note/LiuYongXin/170315GR/1.jpg)]

x轴支架按长度从大到小排列。y轴展示累加的递增曲线。此图与表1,因似,但更能看到各软件间的实际差异程度。看到不同软件在不同来源数据中有较大的表现差异,如Ray在HMP中表现不错,但在Soil和Marine中极差。

表2. 预测基因大于800的数量和总长

Table 2. Number (in thousands) and total length (in Mb) of predicted genes > 800 bp for all data sets and all assemblers

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D1wRu7fu-1570636494893)(http://210.75.224.110/Note/LiuYongXin/170315GR/t2.jpg)]

颜色使用展示至中值的偏差。

与表1结果类似,因为与拼接长度有关,而且作者用了800bp的高阈值会突显其长的优势。这是一种突出的表达方式,好都是相对的,没有绝对的。近期关于短蛋白的研究,也发了Cell,如下:

  • Cell:小基因开启微生物组研究新领域——大规模鉴定微生物基因组编码的小蛋白质

表3. 序列比对的比例

Table 3. Fraction of aligned single and paired reads (both unique and nonunique) for all data sets and all assemblers (in percentages)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aArQ8inN-1570636494894)(http://210.75.224.110/Note/LiuYongXin/170315GR/t3.jpg)]

四种略有区别,但整体上都非常不错。而且细节不同软件的参数也会有进一步影响,仅供参考。metaSPAdes虽然大部分最高,但时间和内存用量可能很多人都无法接受。

图2. 评估20个菌群的人工合成群落

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VoTtt6JK-1570636494894)(http://210.75.224.110/Note/LiuYongXin/170315GR/2.jpg)]

20种最丰富的物种的基因组的NGA50统计数据(左上),与总基因组长度相比重建的基因组的比例(右上),基因组内错误组装的数量(左下)和基因组间错误组装的数量(右下) SYNTH数据集,引用由其RefSeq ID表示(请参阅补充表S2),并按覆盖深度的降序排列。

NGA50:组装错误校正的NG50(NG50 statistics corrected for assembly errors),由metaQUAST评估产生。

表4. 序列比对的比例

表4.各种宏基因组拼接程序针对土壤数据集生成的长支架(> 1 kb)与Bankevich和Pevzner生成的TSLR重叠群的比较(2016)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SKs7xn1S-1570636494894)(http://210.75.224.110/Note/LiuYongXin/170315GR/t4.jpg)]

这个数据metaSPADES更方法都表现更好,可能是数据的偶然。正常拼接长度的增加会伴随错误装增长。如IDBA-UD与megahit,更长的错误明显列多。

图3. 3个菌株分别和混合组装的de Bruijn图

Figure 3. The de Bruijn graphs of three strains and their strain mixture.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-br2nadSM-1570636494895)(http://210.75.224.110/Note/LiuYongXin/170315GR/3.jpg)]

该图仅显示了de Bruijn图的一小部分子图。 粗线显示了丰富的株(株1),细线显示了稀有株(株2和株3)。 基因组重复序列R以红色显示。 (左上)丰富菌株的de Bruijn图。 (右上角)稀有株2与丰富株1的不同之处在于插入了一个额外的拷贝或重复R。此插入产生的两个断点边缘以绿色显示。 这些网路边缘没有通过针对分离物的标准组装工具中的图形简化程序删除。 (左下)稀有菌株3与丰富菌株1的不同之处在于插入了水平转移的基因(或高度分歧的基因组区域)。 (右下)三种菌株的混合物的de Bruijn图。

图4. 应用宏基因组学特定的决策规则进行重复序列解析

Figure 4. Applying the metagenomics-specific decision rule for repeat resolution

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MRx85cPk-1570636494896)(http://210.75.224.110/Note/LiuYongXin/170315GR/4.jpg)]

该图仅显示了装配图的一小部分子图。

(A)当前正在扩展的路径(由绿色边缘形成)及其蓝色扩展边缘e和e’。

(B)从延伸边缘e的末端开始的短边遍历。 虚线表示遍历的边界。 设置的next(e)中的边缘以红色显示,低覆盖率的边缘以虚线箭头表示(next(e)中的其他边缘以实线箭头表示)。 由于next(e)中的所有边缘均具有较低的覆盖率,因此将边缘e排除为不太可能的扩展候选。

(C)从延伸边缘e’的末端开始的短边遍历。 (D)由于e’是未被排除的单个扩展边缘(next(e’)中存在实心边缘),因此将其添加到增长路径中,并且扩展过程继续进行。

图5. 在宏基因组学组装中重复解析

Figure 5. Repeat resolution in metagenomic assembly

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gj9uRUUG-1570636494896)(http://210.75.224.110/Note/LiuYongXin/170315GR/5.jpg)]

(A)丰富菌株中长(大于插入片段大小)重复序列R(红色)的两个相同拷贝之一已突变为稀有菌株中独特的基因组“绿色”区域R’。

(B)由丰富和稀有菌株的读长混合而成的装配图。绿边的起点和终点之间的两条替代路径(一个由一个绿色边形成,另一个由两个黑边和一个红色边形成)形成一个凸起。

(C)在“生成株重叠群”步骤中,由exSPAnder构建的跨越R’的株重叠群(用绿色虚线显示)。

(D)在“将装配图转换为共识装配图”步骤中掩盖株变化会导致凸出的投影(由红色和绿色边缘形成),并导致共识装配图显示在E中。蓝色箭头强调SPAdes投影而不是删除凸起,从而有助于后续在共识装配图中重构株路径。

(E)重建株路径(绿色虚线),对应于“共识组装图中的生成株路径”步骤中的株重叠群(绿色虚线)。

(F)在“使用应变路径进行重复解析”步骤中,metaSPAdes同时利用株路径和配对读长来解析共有图中的重复。来自E的绿色虚线株路径用作附加信息,以重建跨越长重复序列的共有重叠群cRd。

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qEs9o9wU-1570636494897)(http://bailab.genetics.ac.cn/markdown/life/yongxinliu.jpg)]

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g1VyO00q-1570636494897)(http://bailab.genetics.ac.cn/markdown/life/metagenome.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0Tn2Pn2S-1570636494898)(http://bailab.genetics.ac.cn/markdown/train/1809/201807.jpg)]

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

metaSPAdes:新型多功能宏基因组拼接工具相关推荐

  1. iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...

    点击蓝字 关注我们 MetaTrass:基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具 https://doi.org/10.1002/imt2.46 RESEARCH ARTICLE ●2 ...

  2. MetaQuast:评估宏基因组拼接

    文章目录 MetaQuast:评估宏基因组拼接 热心肠日报 摘要 1 背景 2 材料和方法 2.1 基于参考的评估 2.2 从头评估 2.3 根据读长比对细化装配错误 2.3.1 SV检测 2.3.2 ...

  3. 拼接 结果集_MetaQuast:评估宏基因组拼接

    MetaQuast:评估宏基因组拼接 MetaQUAST: evaluation of metagenome assemblies Bioinformatics, [4.531] 2015-11-26 ...

  4. 一文详解宏基因组组装工具Megahit安装及应用

    要点 Megahit简介 Megahit的基本组装原理 Megahit的安装和使用 Megahit实战 hello,大家好,今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程. 我 ...

  5. NAR:宏基因组网络分析工具MetagenoNets

    MetagenoNets:微生物相关网络的综合推断和整合见解 MetagenoNets: comprehensive inference and meta-insights for microbial ...

  6. Nat. Chem. Biol. | 功能宏基因组筛选发现一种意想不到的β-葡萄糖醛酸酶

    大家好,推荐一篇发表在Nature Chemical Biology上的文章,题目是"Functional metagenomic screening identifies an unexp ...

  7. 宏基因组网络分析工具MetagenoNets

    什么是MetagenoNets? MetagenoNets的名称源于微生物网络生物学中的两个非常普遍的需求: 1)根据环境(例如疾病状态)的丰富程度推断其"微生物关联/网络" 2) ...

  8. 你想要的宏基因组-微生物组知识全在这(2020.5)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 会议.招聘广告 科研经验 软件流程 扩增子分析 扩增子教程 QIIME2教程(2020.2) 易生信-扩增子教程 Webserver在线分析 ...

  9. 你想要的宏基因组-微生物组知识全在这(2023.01)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

最新文章

  1. 2星|《快公司》2018年2-3期:商业人物访谈集
  2. sql INNER JOIN 取得两个表中存在连接匹配关系的记录(mysql)
  3. 和爸爸的聊天永远是个谜。。 | 今日最佳
  4. 大数据-----软件开发模型(详细讲解)
  5. oracle导入 不是dba,IMP-00013只有DBA才能导入由其他DBA导出的文件
  6. hibernate级联保存问题
  7. Vue表单数据自动收集---vue工作笔记0012
  8. Java多线程系列--“JUC锁”10之 CyclicBarrier原理和示例
  9. Java软件开发中,常用的工具有哪些?
  10. IK Multimedia MODO BASS for mac(低音效果虚拟乐器)
  11. SQL中truncate 、delete与drop区别 (Rollback Segment)
  12. atitit.团队建设--要不要招技术储备人才的问题
  13. Excel转PDF方法
  14. jquery timepicker
  15. python如何取消上一步操作的快捷键_ai返回上一步的快捷键是什么
  16. adobe illustrator的格式刷
  17. Zemax曲率半径的控制方法
  18. c语言做搬山游戏,C语言实现搬山小游戏,适合新手的项目实战,超易上手!
  19. Latex如何排版矩阵
  20. perl中grep用法总结 z

热门文章

  1. 惊讶!缓存刚Put再Get居然获取不到?
  2. 异步化,高并发大杀器
  3. 微服务化的数据库设计与读写分离
  4. 管理人员要求写日报、周报,项目进度汇报真有用吗?
  5. 西瓜创客+Leangoo敏捷实践企业案例分享
  6. 到底什么是故事点(Story Point)?
  7. c if 判断select已经选择的值_Golang语言基础教程:if分支语句
  8. 剑指offer第二版答案详细版(带详细解题思路)
  9. C#利用Graphics类绘制进阶--绘制条形码Code128
  10. TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书