Genomes correction and assembling - Present methods and tools

基因组校正和组装-现有的方法和工具

摘要

新一代测序(NGS)技术的迅速发展对基因组学研究领域产生了重大影响,使许多以前受技术成本限制的新物种测序项目得以实施。随着NGS的发展,需要对装配程序进行调整。新算法必须在合理的时间限制内处理大量的数据计算,处理能力和硬件也是一个重要因素。在这篇论文中,我们讨论的问题组装管道de novo基因组装配提供的程序,目前可供科学家作为商业和开源软件。实现四种不同的方法—贪婪、重叠—布局—一致(OLC)De Bruijn和导致性能变化的集成是我们讨论的主要焦点,并对短读和长读校正问题进行了深入分析。

关键词:基因组测序,下一代装配,基因组装配修正,图结构,NGS1.

介绍

新一代高通量测序平台的出现推动了新的装配算法和软件的诞生。然而,随着新的测序技术的出现,基因组的组装出现了新的问题。装配的基本问题是不可能在一次读取中直接测序整个基因组与目前的测序平台的实施。取而代之的是散弹枪方法。通过将基因组分成随机的短序列,我们获得了大量的短序列数据集,这些短序列数据集用于基因组重组过程,即基因组装配。随着以高通量测序和大量数据生成为特征的新一代测序技术的出现,基因组装配者面临的挑战是在信息处理、索引装配过程中克服计算资源的限制。这项任务还受到测序错误(每个NGS平台的特征)和基因组中重复区域的阻碍。本文综述了近年来在科学期刊上提出的利用NGS数据进行基因组从头组装的算法。

2. SEQUENCING TECHNOLOGIES

基因和DNA测序的革命始于第二代测序平台的发展,也被称为下一代测序。这些技术的一个显著特点是它们不依赖于桑格化学[1],而是提供了高度并行操作、更高的收率和更简单的机理。所有序列器都以reads的形式生成目标DNA片段的信息:单字母基调用的序列加上每个基调用的数值质量值(QV)。尽管qv提供了额外的信息,但它们的使用通常会增加程序的CPU和RAM需求。第一代读数通常为500 bp到1000 bp长。今天的NGS读取范围是400 - 600 bp(从454个[3]机器),75 - 100 bp(从固体[4]和Illumina[3]),长读甚至超过20 kb(与太平洋生物科学[5])(表1)。短读的组装需要更高的覆盖率,部分是为了满足最小可检测重叠标准,而在长读的情况下,高错误率是一个问题,高覆盖率可以克服这个障碍。然而,高覆盖率增加了复杂性,并加剧了与大数据集相关的计算问题。

3. ASSEMBLY PIPELINE

基因组装配过程是将序列数据映射到最有可能重建基因组的数据的结构化过程。它把读到的片段分组成叠架,把叠架分组成支架。这个过程分为几个阶段。顺序读取和质量值以FASTA或FASTQ文件的形式导入汇编程序,然后进行索引和排序数据集更容易访问和管理的汇编软件。某些汇编器提供了过滤或校正步骤,这些步骤也可以通过独立的软件来执行,从而提高读取质量,实际上减少了不正确的汇编概率。图构造步骤生成读取之间的相关(重叠)的数学说明。在不同的实现方法中,这一阶段过渡到路径检测,它提供了最可能的读序列比对,从而产生一致序列,在理想情况下,该序列表示染色体或基因组(图1)。结果以一组contigs或支架(取决于汇编器)的形式提供,并以非汇编读作为补充。这是对所有可用软件的通用装配管道的概述(表2),它根据实现的方法、支持的排序技术和附加的阶段、开发人员为优化装配过程提供的配置而变化。

3.1修正

与Sanger测序[1]相比,NGS数据有更高的错误率,这一特性给计算带来了很多挑战,尤其是在从头开始的汇编中。降低基础调用的错误水平,提高基础特异性质量分数的准确性,对于NGS数据的装配、多态性检测和下游群体基因组学分析具有重要的现实意义。在太平洋生物科学中,由于高错误率掩盖了reads之间的比对并使分析变得复杂,因此错误校正尤其重要,因为两个reads之间的两两差异大约是它们各自的两倍,这远远超出了大多数基因组组装者所能容忍的阈值。(6、7)替代误差是Illumina测序技术产生的数据中占主导地位的误差来源,目前大多数方法侧重于替代误差的校正。现有的工具要么在召回率或精确度方面得分较高,要么在两项指标上都不一致。

3.1.1短读校正

从改进图像分析和碱基调用算法[8Erlich],到改进碱基调用后的潜在错误,短核苷酸序列的校正已经发展了很长时间,这些错误是通过利用基因组中每个位置平均被测序多次的[9]来实现的。最近的修正方法由ECHO和滑膛枪程序代表。前者提供了最佳参数检测和误差说明过程的自动化。ECHO的基础是查找读操作之间的重叠部分,这样可以在不聚集潜在有用信息的情况下保存更多数据,但是会增加计算强度。此外,ECHO明确模拟二倍体基因组的杂合性,并允许以一种新的方式处理二倍体数据。另一种基于k - mer谱的方法为Illumina平台提供了有效的替代误差校正。该过程包括两个阶段:k-mer谱构建和误差校正。对于k-mer谱结构,Musket使用Bloom filter[11]和散列表的组合来计算所有非唯一k-mers的出现次数,从而减少对大型数据集的内存需求。在纠错方面,Musket引入了三种技术,即双边保守纠错、单边积极纠错和基于投票的改进[12]。执行短读的错误纠正作为预处理步骤,可以极大地简化从头组装,特别是在低到中等的序列覆盖深度的情况下。

3.1.2长读校正长

读校正的方法是使用短的、高精度的序列来校正长单分子序列中固有的错误。这个实现有两种方法,一种是在Celera Assembler中开发和构建的,另一种是由LSC程序提供的。前者使用PBcR算法将短序列映射到长序列上,计算出高精度的混合一致性,从而实现对[13]的进一步修剪和校正。LSC的第二种方法则不同。第一阶段是均聚物压缩,每个均聚物被一个核苷酸取代。它既适用于短读,也适用于长读。其次,将长读序列连接到染色体大小序列,创建短读序列映射的参考。对齐后,根据一致信息修改LR,并进行均聚物减压[14]。这种校正方法将读取精度从85%提高到99%以上,为从头装配提供了高质量的序列。

3.2图形构建和路径检测

在对reads数据进行了介绍和索引之后,通过可选的校正,这个阶段开始通过结合reads形成更长的连续序列(contigs)来对已测序的基因组进行适当的组装。为了实现这一功能,汇编程序合并了共享重叠区域的读操作。大多数NGS汇编程序将它们的输入短读格式化为图形数据结构,但是它们在初始图形构造、配置、遍历和简化过程方面有所不同。图是由节点(顶点)和边表示的抽象数学结构,分别对应于读字符串和后缀与前缀重叠的[15]。基于贪心的、基于OLC的、基于德布鲁因的和基于混合的四类图构造方法是当前图构造的主要发展方向。在接下来的章节中,我们将分别讨论它们。

3.2.1基于贪婪算法

将贪心算法用于网络图的构造,实现了网络图的构造。这种方法依赖于一个操作,从随机读开始,与另一个读结合,创建叠叠。此操作将重复进行,直到只剩下一个序列或不可能有其他操作为止。合并读取的过程基于最高的重叠分数(Figre 4)。贪心算法可能会陷入局部极大值,如果手头上的叠架进行读取,这将帮助其他叠架变得更大。像所有的汇编器一样,贪婪算法需要避免将伪正重叠合并到叠架中。重复序列引起的重叠可能比共同原点位置引起的重叠得分更高。建立在假阳性重叠上的汇编程序将把不相关的序列连接到重复序列的任意一边以产生嵌合体。基于贪心算法的汇编器适用于小型基因组。该方法用于SHARCGS[16]、SSAKE[17]和VCAKE[18](表2)。

3.2.2 Overlap-based(基于重叠群)

在基于重叠的汇编语言中,图形构造过程包括三个阶段:重叠、布局和一致(OLC)[19]。程序首先检测输入的读取之间的所有重叠。接下来,在图中对信息进行索引和组织,其中读取用节点表示,节点之间用边重叠。在第二阶段,layout计算出了访问图中每个节点一次的最短哈密顿路径,从而给出了序列装配问题的结果。在共识阶段,使用汉米尔顿路径将读合并成一个序列(contigs)(图5)。最小重叠长度是装配算法成功的关键。由于较小的值会通过增加错误重叠的频率来增加图中的分支节点,较大的值将通过增加非重叠读取[20]的频率来增加死角。

3.2.3 De Bruijn-based

这种范式也称为k谱方法,由几个阶段组成。一开始,k- mers是根据所提供的读码生成的,读码代表k-谱。在随后的相位图中,节点表示k - mers,边表示相邻节点之间的k - 1重叠。在理想情况下,通过只访问每个节点一次来检测欧拉路径(图6)。De Bruijn图是在新的装配策略中实现的,特别是解决基因组中的重复序列问题,是目前软件面临的主要挑战。这个范例是由最近编译的算法开发的。该算法是一种基于k维加权的de Bruijn多重图的新算法,能够检索出重复序列的长度段采用短读,专为NGS数据的从头装配而设计。该算法根据覆盖统计信息估计SSR长度,并能够正确地组合连续的重复序列。该算法仅使用DNA双螺旋结构的编码链,因此其应用受到限制。它在无错读上进行了测试,从几个模型基因组中得到的二氧化硅比其他算法少5%的重叠基因组。这个算法扩展了[27],它可以从两个链(编码和互补)读取数据,但仍然不使用配对数据。De Bruijn图是在诸如ALLPATHS - LG[28]、Velvet[29]、Euler[30]、ABySS[31]和SOAPdenovo[32]这样的汇编程序中实现的(表2)。

3.2.4集成

集成方法是两种不同的图结构模型之间的混合,旨在通过利用使用的模型的优点来提高汇编程序的性能。在Taipan[33]中实现了OLC和贪婪图的混合,其中节点是读,边代表重叠,并且遍历图来寻找贪婪路径,而不是像OLC方法[34]那样寻找哈密顿路径。该特性能够实现与基于重叠的汇编器相对应的汇编质量,但是减少了对计算能力和硬件资源的要求。此外,还有针对不同平台使用不同类型reads的方法,Wang提出了使用三种平台(454、SOLiD和Illumina)来减少最终基因组序列的间隙数和延长支架长度的方法[35,36]。

3.3叠架与支架组装

在每一种讨论的方法中,汇编器根据图中检测到的路径(贪心的,哈密顿的,欧拉的),并以未装配的读集合作为补充,提交一组生成的contigs。根据NGS技术、覆盖范围、使用软件和校正步骤的不同,获取的叠架数量可能有所不同。除了contigs数量,汇编器还提供统计分析,包括在contigs中的核苷酸数量,平均的contig长度,平均值,N25,N50和N75值,这对汇编过程的质量有重要的概述。采用配对/配对端数据的汇编器在一定程度上克服了重复区域问题,提高了汇编质量,增加了contigs的平均长度,并在一些软件生成支架中实现了更好的基因组组织。

4. 转录组的组装

最近的研究进展使得利用深度RNA-Seq重新构建整个转录组成为可能,即使没有参考基因组。然而,来自数十亿个RNA-Seq序列的转录组组装(通常非常短)对信息学构成了与基因组组装类似的重大挑战。已经开发了一些从头开始的转录组汇编器。Rnnotator[37]、multik[38]和Trans-ABySS[39]汇编程序遵循相同的策略;他们使用基于De Bruijn图的方法6-8,58对数据集进行多次组装,从广泛的表达水平重建转录本,然后对组装进行后处理以合并contigs并消除冗余相比之下,其他汇编程序(Trinity[40]和Oases[41])通过应用配对端读取信息直接遍历De Bruijn图,在每个轨迹上装配每个亚型。

5. 结论

基于新一代测序数据的基因组装配过程面临着读取长度短、大多数测序平台的高通量、测序错误基因组重复区域等难题。此外,不同类型的读取和质量值强制装配参数的自定义取决于使用的排序平台和计算资源。像第一个汇编器一样,新的汇编器仍然缺乏交互的用户界面,这是一个障碍,限制了没有信息学背景的科学家使用这个软件。本文讨论了利用NGS数据进行新基因组组装的几种方法。OLC图和De Bruijn图是装配领域中最常用的两种方法。两者都依赖于输入读之间的重叠,并将这些集合转换为直接图。它们不同的图形表示是相似的,如果不是等价的。与OLC方法相比,DBG范式在计算资源方面具有较大优势,更适合于管理主要来自短读排序技术的大数据集的读操作。数据量将继续增加,而制造成本下降。测序技术的出现,无论是在吞吐量和读取长度都为更简单和更快速的大基因组测序创造了机会重复区域的数量。这种演变为装配软件开发人员寻找有效的数据管理和装配过程的解决方案带来了新的挑战。

参考文献

https://www.spiedigitallibrary.org/conference-proceedings-of-spie/9290/92901X/Genomes-correction-and-assembling-present-methods-and-tools/10.1117/12.2075624.short?SSO=1

Genomes correction and assembling - Present methods and tools相关推荐

  1. Nature Methods:基于人工重组菌群数据的宏基因组的软件评估金标准

    文章目录 写在前面 摘要 图1. 基于标准数据集CAMI高度复杂数据集的组装结果 图2. 基因组分箱结果纯度和完整度比较 图3. 数据集的分析结果 Reference 猜你喜欢 写在后面 近年来宏基因 ...

  2. CVPR 2016 摘要阅读

    为了说明看过CVPR2016全部文章的摘要,总结一下,摘要只保留了创新点部分. ORAL SESSION Image Captioning and Question Answering Monday, ...

  3. Stanford University courses of computer science department(斯坦福计算机系课程设置)

    斯坦福学科目前分为7个department:Business, Earth, Education, Engineering, Humanities & Sciences, Law, Medic ...

  4. 《高效的项目和团队》

    Productive Projects and Teams是一本好书. 许多其中许多关于管理和沟通的精辟言论让我大有相见很晚之感.其实不仅是软件的开发项目,任何项目,甚至任何行业的管理,都首先是对人的 ...

  5. cadence SPB17.4 capture and cis 全部错误消息列表

    前言 在整理层次原理图,中间遇到好多编译警告和错误. 刚将封装之外的错误和警告都消掉了. 再想,官方对于错误消息有没有一个汇总和解释呢? 在本地帮助文件中找到了, capture的所有错误消息说明文件 ...

  6. CVPR 2016 全部文章摘要阅读

    为了说明看过CVPR2016全部文章的摘要,总结一下,摘要只保留了创新点部分. ORAL SESSION Image Captioning and Question Answering Monday, ...

  7. 早大北九州市校区小柳惠一教授DSOOD小考及作业

    注明: 1. 此答案皆为原创,得分多少与博主无关 2. Quiz和作业最好都要加参考文献,否则容易没分(不要加这篇博文!!) 3.Quiz很少粘,原因是作业一般和Quiz很相似,而且quiz考你上课前 ...

  8. 图书漂流系统的设计和研究_研究在设计系统中的作用

    图书漂流系统的设计和研究 Having spent the past 8 months of my academic career working co-ops and internships in ...

  9. 一文搞定细菌基因组De Novo测序分析

    本文转自基因的生物信息学分析,链接 https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg 以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程.本次实验 ...

最新文章

  1. Python基础05-数据类型:列表list
  2. 2020 年技术趋势一览:AutoML、联邦学习、云寡头时代的终结
  3. POJ 2976 Dropping tests【二分 最大化平均值】
  4. DataWorks 如何设置调度依赖
  5. 【链表】【树形DP】最大利润(jzoj 1487)
  6. bootstrap 垂直居中 布局_CSS3 flex 布局必须要掌握的知识点
  7. 如何快学会python??内附python学习资料
  8. 阿里巴巴在内蒙古旱区试水物联网灌溉技术,一年省出1.5个西湖 1
  9. [转]Python中多线程与多进程中的数据共享问题!
  10. 转:硬盘结构简介的好文(转)---MBR、分区表、CHS等概念
  11. pytorch中保存和加载模型
  12. 阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_2.RabbitMQ研究-RabbitMQ介绍...
  13. mongo性能测试demo 代码正确运行
  14. Laravel框架从零搭建
  15. python乒乓球比赛规则_使用Python进行体育竞技分析(预测球队成绩)
  16. linux文件压缩和打包
  17. SVL simulator 2021.3 Radar目标检测结果异常的解决方案
  18. 带你了解ae2021版新功能 ae 2021中文直装版
  19. [前端三剑客之CSS]display:none opacity:0 visibility:hidden三角恋的爱恨情仇
  20. sslcontext java_java – SSLContext初始化

热门文章

  1. navision系统和sap区别_(三)SAP On Premise和SAP S/4 HANA Cloud的区别
  2. 单目图像深度估计 - 泛化篇:S2R-DepthNet
  3. SegICP:一种集成深度语义分割和位姿估计的框架(附代码)
  4. NTU商汤提出新 loss!提升图像重建和图像合成的质量 (ICCV2021)
  5. CVPR 2021接收结果出炉!录用1663篇,接受率显著提升,你的论文中了吗?(附论文下载)...
  6. Can‘t connect to local MySQL server through socket ‘/home/mysql/mysql-5.6.33/mysql.sock
  7. tf.nn.l2_loss() 与 权重衰减(weight decay)
  8. OpenCV | 分水岭算法进行图像分割
  9. RDKit | 基于随机森林的化合物活性二分类模型
  10. 基于RDKit的溶解度预测的机器学习模型