Base-calling for next-generation sequencing platforms (译文)

冬瓜排骨汤 2014-04-05 17:56:11 4714 已收藏 1

分类专栏：译文文章标签：算法 DNA测序 base-calling 生物

第一次翻译文献，记录下来，给自己一个坚持下去的动力。加油！翻译中有一些专有名词没有译过来，有一些不明白的也没有翻译。翻译的不好，希望能得到别人的指正，得到进步和提高，谢谢。

这篇文章主要内容是第二代测序平台Illumina和Roche454下的各种base-caller的特点和比较，以及未来的一个展望。只翻译了主要内容，图片和参考文献就不给出了，原始文章可以在这里找到：http://www.ncbi.nlm.nih.gov/pubmed/21245079/

第二代测序平台的base-calling方法

摘要

第二代测序平台显著地降低了DNA测序的费用。从光强度信号中推断出碱基的过程一般叫做base-calling。因此，让人感兴趣的是认识和提高从这些方法中获取的测序序列的质量。最近，发表了许多关于base-calling的论文，主要特点叙述是关于base-calling偏差和建议的方法。在这篇评论里，我们总结了最近在Illumina和Roche 454测序平台下的base-calling方法的发展。

介绍

在过去的30年里，DNA测序成为了计算生物学，比较基因组学和一般生物学中的主力。传统上，测序主要用Sanger's 方法【1】，经过这些年的改进其已经达到了一个顶点，在保持每个base错误率低到(10的-5次方)的前提下使长reads的长度上升到约1000bp【2】。

但是对便宜而且快速的测序技术和大量资金投入的需求【3】导致了许多新的测序方法的发展。许多方法被合并进了商业产品中，包括Roche 454, Illumina, SOLiD, Polonator, Helicos, Pacific Biosciences和Bio Systems。与Sanger 测序相比，这些新一代测序技术提升了速度，在一个较低精确度下降低了价格并产生较短的read 长度。降低了价格允许我们在新的问题领域使用测序来进行探索，如评估基因组变异【4-7】。

Illumina 曾经宣布了一项使用少于$20000对人类基因组进行测序的服务。如果最终将这个价格压低到$1000将允许我们像日常体检测试一样测序一个个体的基因组【8】。

新一代的测序技术依赖于一个复杂的化学过程的相互影响，硬件和光学传感器。而分析传感器数据来预测个体base的软件无疑增加了它的复杂度。这个过程中的最后一步就是base-calling。虽然全部的产品流水线与测序平台相似，但是测序过程中的机械上的细节将影响错误产生的类型。与不同测序平台相关的错误对下游的分析有重要价值【9】。通过增加覆盖范围可以提升测序的精度，也就是对相同的DNA样本进行多次重测序。那时测得的数据就汇总进一个有着较低错误率的一致序列【10】。相反，许多精确的base-caller因为需要达到一个给定的精度而减少了覆盖范围，并且因此直接降低了测序的费用。

在这篇评论里，我们关注在Illumina和Roche 454平台下的base-calling算法的最近的发展。对于那些第三方程序，这两个平台完善的新一代的测序装置已经发展成为供应商base-calling实现的替代品。对于新一代测序技术的一个更广阔的的综述和数据处理流程，我们参考【11】。在下一部分我们简要的描述一下Illumina平台的技术，并且集中在它的偏差问题上。接下来回顾几个最近发行的可供选择的base-caller并且以精确度和速度为依据来比较他们的表现。然后转向Roche 454平台并再一次关注他的技术方面的困难。随着不同方法的优劣和在这个活跃的研究领域里未来发展的动机的讨论我们结束这次回顾。

Illumina

Illumina平台依赖于一个单链DNA文库的产生，通过将一个DNA样本随机打断成片段。在模板上添加了通用的连接物后，模板散布在一个有八个lane的流动槽（flow cell）上，并且固定在玻璃板上【12】。接下来是桥式扩增，这个过程中，玻璃表面上的相同的模板生成大量的clusters。在clusters中的模板的序列通过使用可逆的化学终止剂来决定【13】。在每个测序cycle中一个单荧光标记，3'-羟基核苷酸被合成到每一个充足的链。结合之后，荧光标记可以被成像技术所检测。最后，为了给下一次测序cycle准备充足的链，标记和终止剂被用化学方法去除。对这个过程一个更加详细的描述在【14】。

Illumina平台遭受了许多因为不完美的化学过程和传感器而造成的偏差（Figure1）。每当许多模板排列的时候，在模板准备的过程中会出现混合的clusters【15】。这样的clusters需要通过下游的分析排除掉。在测序过程中，在给定cycle中合成base失败时一个链会继续发生滞后，这叫做phasing。另一方面，如果在一个cycle中，多个base被合成，这叫做pre-phasing。从一个cycle到另一个的过程中，因为不完美的化学过程而发生的Phasing,pre-phasing和信号强度的衰减，导致在最终的reads中base-calling 错误的增加。此外，在早期的的化学反应中，因为T染料的不完整的分裂导致的T（胸腺嘧啶）的累计已经被报道【15】。仍然有一些其他的因为光学探测的限制导致的偏差存在。发散频率光谱与四种染料部分的重叠相一致。结果，在每一个cycles观测到的四倍的强度显示了一些正相关。这种影响，通常被称作cross-talk，被发现依赖于cycle【16】。最后，因为光学的作用，跨过每个tile的强度是不均匀的，接近边界的有更低的强度【17】。

BASE-CALLING

Illumina测序平台通过GApipeline来运输，它实现图像分析（Firecrest），base-calling(Bustard)和与参考序列对齐。Bustard应用一个独立于cycle的cross-talk的修正，然后是phasing和pre-phasing的修正。这些修正应用之后，有最高亮度的base被选择。为了质量控制，一个噬菌体PhiX174的样本经常被包含进流动槽的八个lanes的一个。关于Bustard的base-calling算法的实现的一个详细的描述在【19】。

最近两年之内，许多关于提升原始的base-calling实现的论文被发表。在他们之中第一个是Alta-Cyclic。它使用一个参数模型来dephasing并且使用一个依赖于cycle的cross-talk矩阵来校正cross-talk。使用支持向量机（SVM）来确定基于四个强度值的base。为了解释信号衰减和依赖于cycle的cross-talk，Alta-Cyclic对每一个cycle使用不同的SVM。为了优化SVMs和phasing参数而使用监督式学习。Alta-Cyclic执行一个网格搜索来找那些可以在参考序列中最佳的预测base的SVMs的phasing参数，在每个格点需要培养SVMs。模型对Illumina平台的每次run都做了优化。这个过程不仅仅计算昂贵，而且为了生成足够的培养数据它需要对参考基因组的部分进行重新测序。PhiX174 control lane 可以用来培养。

另外一个方法由一个叫做Rolexa【17】的程序包来实现。与Busraed一样，Rolexa在使用二项分布来dephasing之前，首先应用一个依赖于cycle的线性变换来解释不同bases之间的cross-talk。最后，观察到，因为光学的影响，每一个tile的靠近中央的cluster比靠近边界的cluster更加的明亮。Rolexa通过对每个tile的强度值装配一个二维的局部加权散点光滑（Lowess）模型来纠正这些光学的影响。应用这三个修正法之后，Rolexa使用一个基于高斯混合的clustering算法来进行base-calling。由此，和报道的IUPAC（国际理论和应用化学联合会）准则一样，一个不确定性的测量可以被计算用来判定最有可能的bases。IUPAC准则被用来在base-calling过程中通过additional letters来编码二义性。举个例子，S可以代替C或者G。然而，自从所有的其他实现都使用Phred scores【20】来做报告而不是IUPAC准则，这个方法很难来比较。Rolexa的一项优点是它不依赖于监督式学习，所以消除了为了培养而对已知的模板进行重测序的需求，也因此增加了总体的产出。

BayesCall【19】和Seraphim【21】实现更加的复杂，满是参数模型。除了cross-talk,phasing ,pre-phasing,他们同样对信号衰减进行明确的建模。此外，Seraphim 对每个read 在PCR扩增一步的不同做出解释【21】，并且BayesCall 加入参数来建模从一个cycle传到下一个cycle的残留影响。对BayesCall，完整的模型是依赖于cycle的，它显著地增加了参数的总数。使用期望最大化（expectation maximization）过程来进行参数估计。在Rolexa中使用的clustering方法，期望最大化不会依赖于监督式学习也因此消除了对培养数据的需求。在这两者的论文中，判定的是有最大后验概率（MAP）的base。因为其他的base的概率可以被轻松地计算出来，所以可以清晰地报道有意义的质量指标。BayesCall的一个更快的版本是naiveBayesCall【22】。它使用和BayesCall一样的模型和相同的算法来进行参数估计。在base-calling过程中，这个近似的的算法通过量级的调整虽然稍微牺牲了精确度但是提升了速度。

而Ibis【18】使用的是一个完全不同的方法。不是对每个可能的错误来源进行建模，而是直接对未经处理的强度信号使用multi class SVMs。使用模拟的方法，推断在一个关于phasing, pre-phasing 和T 的累加的简单模型之下，大多信息都被包含在之前的，现在的，和之后的cycle的强度变量中。因此SVMs使用当前cycle 的强度值，它的前驱和后继作为输入。为了培养依赖于cycle的SVMs，一个已知的序列被包含进来，或者当重测序一个基因组时，可能使用参考基因组来培养。

前面所讲的任何一个方法使用之前都要从原始图像提取强度数据。这个图像处理过程通常使用Bustard’ Firecrest 模块。BING【23】和 Swift【15】是完整数据处理管道的可供选择的实施方案。这两者的图像处理算法与Bustard在许多机械的细节上有所不同。BING有独立的对base-calling 图像分块中每个像素的选项，而不是首先识别相同模板的clusters。在base-calling过程中，这两种实现都依赖于连续的修正，就像Bustard，并且不实行详尽的统计学过程。与Bustard一样，Swift提供了通道给图像后（post-image）处理的数据，并且因此可以被用来与前面描述的base-callers中的一种相结合。

所有实施方法的一个总结和分别的统计方法论展示在Table1。实践证明，随着Illumina's Genome Analyzer II的引进，所有这里评论的base-caller都支持了更长的reads。

表现的比较

快速的并且偶尔同时出现的新方法使我们很难评估他们的相对的表现。虽然被独立的作者们所报道的关于比较的研究必须要小心谨慎的解读，他们还是提供给我们一些思考。Kircher【18】及其他所有人报告了Ibis胜过Alta-Cyclic和Rolexa，而这三个依次都比Bustard有更高的精确度。注意到在这个比较中Rolexa被强迫不使用IUPAC准则。在Kao【19】等人的报告中，BayesCall要比Alta-Cyclic更好。依照Phred质量分数，Ibis和BayesCall都被报道比Alta-Cyclic有更精确的得分，而Alta-Cyclic是在Bustard之上改进而来的。为了遵守运行时间，Kircher等人报告了下面的时间控制（timings）。Bustard无疑是经受考验的最快的实现方法，在一个单处理机上对一个完整的control lane上的51个cycle数据集的base-calling ，并且进行参数估计只需要50分钟。而Ibis,Rolexa和Alta-Cyclic分别需要超过Bustard 3倍，21倍和73倍的计算资源。Alta-Cyclic运行在一个cluster上，这降低了其base-calling的效率。对于BayesCall和Seraphim，没有可用的直接的比较。从各自的出版物中的计时报告呈现出BayesCall需要大概20小时来进行参数估计，6个小时来对一个76cycle数据集的一百万个bases进行判定。因此，在没有并行处理的情况下，它需要几天的时间来处理一个并行的lane。然而就像上面所讨论的，一个BayesCall值得注意的更快的版本，叫做naiveBayesCall近期发表了。至于Seraphim，报告的base-calling，参数估计和在一个15个节点的cluster上的control lane上进行mapping reads的时间小于2小时。

我们力图在相同的数据集和硬件上比较这里所评论的所有的base caller。然而，这被证明是非常困难的，许多程序包不能免费获取，不再维护，或者充满了实际的问题（Table1）。不管这些重要的影响，我们没能成功的获取，安装或者运行Bing,Seraphim和Swift。使用V1化学过程并从phiX174 control lane获得的长度为51，reads为286847 的数据集可以用来对其他的base caller 进行评估（Figure2A）。除了Rolexa，所有的base caller 都表现出在Bustard之上的一个明显的提升。Ibis表现最好，紧跟着是naiveBayesCall和Alta-Cyclic。

关于计算花销，我们在标准Linux机器上对Ibis,BayesCall,naiveBayesCall和Rolexa分别测量了培养或参数估计时间和basecalling的时间（Figuare2B）。对于培养时间，Ibis比（naive）BayesCall快了一个数量级，而Rolexa不需要任何直接的参数估计定相（phase）。但是在实际中，大多数时间都花费在了判定bases。遵照这个，Ibis是目前四个程序包中最快的一个。naiveBayesCall超过它的前任（BayesCall），其所提供的有效的改进是非常有意义的，这使它在实际中也可用。值得注意的，两个最精确的base caller也是最快的两个。

在各个软件包中质量分数的报告有所不同：Ibis使用Phred scores;Bustard和Alta-Cyclic使用一个Illumina的独特的编码，BayesCall和naiveBayesCall返回一个错误的概率。为了比较这些不同的方法，我们把他们都转换成了Phred scores。然后我们比较分别从观察到的base的错误率计算得来的Phred scores(Figuare2C)。在这个比较中，除了较低质量的base-calls,值得注意的是Bustard脱离了理想的线路，Alta-Cyclic对高质量的base-calls显示了过高的估计，BayesCall和naiveBayesCall始终过高估计他们判定的质量。注意到对naiveBayesCall这个影响不太显著。因为从（naive）BayesCall获取的平滑的曲线，它可能是对各自的质量分数找出了一个简单而有效的修正。总体来说，最接近理想曲线的是Ibis。

对于base-callers的实际的使用，它们在更多最近的化学过程中的表现有很高的关联。我们对naiveBayesCall进行评估，在V1(FC-104-100x)化学过程中它有最低的错误率，在V4(FC-103-300x)化学过程的数据集有长度为81的217904个reads。对V4化学过程，我们获取的naiveBayesCall的错误率是1.02%，而Ibis实现了一个更低的错误率0.97%。与旧的化学过程相比，现在的绝对错误率明显的低，考虑到读长增加了约60%，这真是一个非凡的成就。依据在V4化学过程报道的质量分数，从V1化学过程获取的结果的线条中，Ibis同样胜过naiveBayesCall。

base-calling for Roche 454 life sciences

Roche 454平台以构建一个将左右两边连接的单链DNA文库开始。序列片段被限制在磁珠上并且通过PCR扩增来增加下游的信号强度。理想情况下，在这个过程中，一个单个模板被附着在每个磁珠上，这导致了在每个磁珠上统一的clusters。然后把磁珠放置在一个叫做picoliterscale wells【24】的阵列上，每一个小孔（well）包含了一个单个磁珠。在这些预备步骤之后，使用焦磷酸测序方法来开始真正的测序。在每一个测序cycle中，加入一个单个物种的核苷酸（dNTP）。在小孔中核苷酸合成之后，会释放焦磷酸基团，而这导致了亮度的突变。亮度被CCD传感器探测，软件探测包含模板DNA的小孔。这一步包含了图像分析和base-calling。对于更详细的细节描述，我们参考原始文献【24】。

许多错误的原因被描述在【9】。首先，因为不同DNA片段被绑定到一个单个磁珠而导致了混合的clusters的风险。在这种情况下，不可能探测到一个清楚的信号，并且从包含这样的磁珠的小孔中取得的数据也应该被排除掉。第二，在每个cycle都存在补充的DNA单链的不完整的合成的微小可能，这将导致phasing。同样的，如果前一个cycle的试剂没有被完美的移除，可能会发生多个base被合成，导致pre-phasing【24】。主要的错误的源头是thresholding（二值化）。临界值被用来决定一个base是否被合成。临界值是必要的用来决定更加精致的（delicate）homopolymers（均聚物）的长度。均聚物是指相同base连续的重复组成。因为一个均聚物的所有的bases都被包含进一个cycle，可以从信号强度来推测均聚物的长度。对均聚物的长度的错误的猜测导致了插入和缺失，而这是到目前为止焦磷酸测序技术最常出现的错误【26】。

在原始的454论文中，包含模板的小孔通过检测序列开头的关键序列‘TCAG’来识别【24】。合成的bases的总数通过发散亮度的强度决定。已经表明的强度与均聚物的长度成线性关系，因此允许简单的分类。均聚物长度的前（1/（4的n次方））被使用。为了补偿一个0.1-0.3%的不完备的伸展速率和一个1-2%的推进率，一个详细的物理模型被提出来。如果对一个给定的read，检测出频繁的模糊的强度水平，这个read会被当做低质量的read给过滤掉。这允许排除包含多个模板的小孔。最后，Phred似的质量分数【20】被指派给每个被判定的base。质量分数与对数概率相一致，base was not an overcall，也就是说预测的均聚物长度不会太长。

在Pyrobayes方法中,Quinlan等人【26】提议通过改变一个在均聚物长度上的优先的经验主义和使用一个基于信号强度的经验测量的分类器来改善前面提到的过程。这挑战了进行简单线性的正确性。就像在他们文章中所描绘的那样，使用这个更加经验主义的方法不会较少总的错误率。然而，Pyrobayes在置换错误率和Phred质量分数的精度方面明显的比原始的base-caller要好。因此，他们证明在单核苷酸多态（SNP）预测的环境中Pyrobayes更胜一筹。

讨论和展望

过去几年内的新一代测序平台的到来导致了最近base-calling软件的爆发。我们已经评论了两个主要的平台Illumina和Roche454下的base-calling方法，这两个平台大部分的努力集中地方向在前面已经描述过。

各种各样的base-caller的不同之处是在用于判断base和妨碍他们报道不确定性的统计方法论。此时，哪种方法会最终实现最高的精确度还尚待分晓：一个机械模型像BayesCall或者Seraphim，一个完全经验主义方法比如Ibis，或者一些中间解模型像Alta-Cyclic。目前，两个最精确地base-callers，Ibis和naiveBayesCall,使用的是完全不同的方法论的方法并且都实现了高精度。就像我们在前面建议的那样，避免监督式学习的模型可能有潜在的优势，那就是在从头测序的情况下增加了产量，因为不需要为了培养而对一个已知的参考序列进行重测序。此外，机械模型的参数有一个清晰的解释并且可以对根本的技术中的干扰的来源给出有价值的思考（insight）。举个例子，对pre-phasing 和phasing比率的估计可以从【19】获得。这个信息可以推动在未来技术的改进，另一方面，Ibis使用的SVM是有益的，当调整程序来适应Illumina平台的将来的版本或者一个完全不同的平台时，因为关于偏差的类型只做出了很少的假设。相比被机械模型制造出来的许多的假设，这些假设可能对不同的技术更有效。

当报告被判定的base的不确定性时，大多数base-calling的实现都依赖于Phred score，只有Rolexa使用IUPAC encoding。原则上，报告四个bases的概率会给下游分析提供由base-calling算法推导出来的完整的信息。总结这个信息是使用Phred或是IUPAC codes不能从随后的分析工具中更好的被独立的决定。然而，与IUPAC codes 的对立的Phred scores，使用范围更广并且存在大量的工具可以控制（handle）他们【21】。

这些方法在计算资源需求上也是大大的不同，从最快的Bustard，到需求超过几个数量级的计算资源的Alta-Cyclic和BayesCall。另一方面，Ibis只需要三倍于Bustard的资源而在精确度方面非常有竞争力。既然这样，增加的精确度证明了增加在计算上的花费是正确的。

预期在未来的下一代测序技术会继续得到迅速的提升。通过提高精确度，读长和质量分数，base-callers有可能会减少费用，增加产量并且使下游的分析更加简单。不仅为Illumina和Roche 454，也为其他的新一代测序平台设计和更新接近最佳的base-callers将继续成为一个重要的研究工作。一个最先为了SOLiD系统设计的第三方base-caller【27】研制出来了，同样可用于Illumina和Roche454,报道称有显著地提高。在这个领域中更深的研究有助于缝合在测序数据的生成和分析之间所需要的时间的缺口【28】。