Corrigendum: A window into third generation sequencing  勘误表:第三代测序的窗口

抽象

第一代和第二代测序技术引领了基因组学领域及其他领域的革命,激发了惊人的科学进步,包括使人们能够更完整地理解整个基因组序列及其编码信息,以及对基因组的更完整表征。甲基化组和转录组,并更好地理解蛋白质DNA之间的相互作用。然而,目前,测序技术的应用和基因组生物学方面超出了当前测序技术的范围,为该领域的其他创新留下了沃土。在这篇评论中,我们描述了新一代的单分子测序技术(第三代测序),该技术正在填补这一空白,并有可能显着延长读取长度,

介绍

第一代和第二代测序(SGS)技术为基因组学界提供了极大的支持,这些技术可以全面表征DNA序列变异从头开始对许多物种进行测序,对微生物群进行测序,检测基因组的甲基化区域,定量转录本丰度,表征给定样品中存在的基因的不同同工型,并鉴定mRNA转录物被主动翻译的程度(1-10)。

SGS技术的标志性特征之一是其以适中的成本实现了巨大的通量,现在单次运行即可实现数百个千兆字节的测序,价格为数千美元(11)。尽管最近已迅速接受SGS技术,但新一代的单分子测序(SMS)技术正在兴起(12-15)。不同于主要的SGS合成测序(SBS)技术依靠PCR来生长给定DNA模板的簇,将DNA模板的簇附着到固体表面上,然后在对这些簇进行分阶段合成测序后成像。新一代SBS技术可检测DNA的单分子,因此无需同步(SGS的局限性)(16),从而克服了与PCR扩增和移相引起的偏差有关的问题。更重要的是,这种新一代测序技术有潜力更充分地利用DNA聚合酶的高催化速率和高合成能力,或者完全避免任何生物学或化学反应,从而从根本上增加读取长度(从每个碱基的数万个碱基增加到数万个碱基)阅读)和结果时间(从几天到几小时或几分钟)。那么,这种新型的第三代测序技术所提供的优于当前测序技术的优势是:

(i)更的通量;

(ii)更的周转时间(例如在几分钟内以高倍覆盖率测序后生动物基因组);

(iii)更的read长度以增强从头开始装配并能够直接检测单倍型甚至整个染色体定相;

(iv)更的共识准确性,以实现稀有变异检测;

(v)少量的起始原料(理论上测序只需要一个分子);

(vi)低成本,以低于100美元的高覆盖率对人类基因组进行测序现已成为社区的合理目标。

但是这些下一代技术如何运作?这些新技术将实现什么规模的数据生成?可以生成哪些类型的“测序”数据?他们会缓解分析问题和/或创建新问题吗?而且,最重要的是,这些技术的上市时间表是什么?它们是否真正实现了上述承诺?我们需要做哪些准备工作?在这篇综述中,我们将解决这些问题,提供对第三代测序(TGS)的深刻见解,该技术有望将测序带入我们生活的几乎每个方面。准备需要什么?

结果

第一代测序和SGS的简要历史

DNA测序过程包括三个基本阶段,包括样品制备,物理测序和重新组装。样品制备的第一步是将目标基因组分成多个小片段。根据样品DNA的量,可以使用多种分子方法将这些片段扩增为多个副本。在物理测序阶段,依次鉴定每个片段中的各个碱基,从而创建各个读段。连续识别的碱基数定义为读取长度。在重组阶段,使用生物信息学软件对重叠的读段进行比对,从而可以将原始基因组组装成连续的序列。读取长度越长,越容易重组基因组(17)。

第一代测序

第一代测序最初是由桑格在1975年(在链终止法)(开发18,19),并在由Maxam和Gilbert在1977平行(化学测序法)(20)。从这些第一代方法开始,Sanger测序最终占据了上风,因为它的技术复杂程度较低,并且更易于扩展。对于今天实践的Sanger测序,在样品制备过程中,会从同一位置开始生成不同大小的DNA片段(图  1)。一种)。每个片段以特定碱基结束,该特定碱基用对应于该特定碱基的四种荧光染料之一标记。然后,所有片段通过毛细管电泳按其长度顺序分布。

有关最后一个碱基的信息用于确定原始序列。该方法产生的读取长度平均约为800个碱基,但可能会扩展到1000个碱基以上(21–23)。尽管这种方法的全自动实施是人类基因组原始测序的主要手段,但它们的主要局限性在于单位时间内可处理的少量DNA(称为通量)以及高成本,导致了这种方法的产生。

花费大约10年的时间和30亿美元来测序第一个人类基因组(11,22)(表  1)。

表格1。

第一代测序,SGS和TGS的比较

  第一代  第二代一  第三代一 
基本技术  通过SBS或降解产生的特定末端标记DNA片段的大小分离  洗涤和扫描SBS  通过降解或直接对DNA分子进行物理检查来进行SBS 
解析度  在要测序的DNA分子的许多拷贝中取平均值  在要测序的DNA分子的许多拷贝中取平均值  单分子分辨率 
当前原始读取精度  高  高  中等 
当前读取长度  中度(800–1000 bp)  短,通常比Sanger测序短  在商业系统中长1000 bp甚至更长 
当前吞吐量  低  高  中等 
当前成本  每基地成本高  单位成本低  每基础成本低至中等 
  每次运行成本低  每次运行成本高  每次运行成本低 
RNA测序方法  cDNA测序  cDNA测序  直接RNA测序和cDNA测序 
从测序反应开始到得到结果的时间  小时  天  小时 
样品制备  中等复杂,无需PCR扩增  复杂,需要PCR扩增  取决于技术,范围从复杂到非常简单 
数据分析  常规  由于数据量大以及读取短而使组装和对齐算法复杂化,因此很复杂  由于数据量大以及技术产生新型信息和新信号处理挑战而变得复杂 
主要结果  具有质量值的碱基检出  具有质量值的碱基检出  具有质量值的碱基检出,可能还有其他碱基信息,例如动力学 

a开发中的TGS技术很多,但很少投入实践。尽管TGS有巨大的潜力可以从根本上改善当前的吞吐量和读取长度特性(尤其是这些特性),但这些技术的最终实际限制仍有待探索。此外,正在积极开发SGS技术,这些技术还将改善read长度和通量特性。

在新标签页中打开
图1。
在新标签页中打开下载幻灯片

上一代DNA测序系统如何工作。

A)显示了Sanger测序的现代实现方法,以说明差异标记和使用终止剂化学方法,然后进行大小分离以解析序列。

B)所示的Illumina测序过程说明了第二代DNA测序技术常见的洗涤和扫描范例。

第二代测序

商用SGS工具于2005年问世,以应对第一代方法的低产量高成本。为了解决这个问题,SGS工具通过并行测序大量DNA分子来实现更高的通量(图  1 B)。对于大多数SGS技术,成千上万条相同的链被锚定到给定位置,以在由连续的洗涤和扫描操作组成的过程中读取。“清洗并扫描”测序过程包括依次注入试剂(例如标记的核苷酸),将核苷酸掺入DNA链,停止掺入反应,洗出多余的试剂,扫描以鉴定掺入的碱基并最终处理新的碱基整合了碱基以为下一个“洗涤和扫描”循环准备DNA模板(11)。重复该循环直至反应不再可行。DNA锚点位置的阵列可以具有非常高的DNA片段密度,从而在此类仪器以高容量运行时导致极高的总通量,并因此降低了每个鉴定碱基的成本。例如,Illumina的HiSeq 2000仪器可在一次运行中生成300或更多千兆字节的序列数据。由于需要大量的扫描和清洗循环,这些SGS方法的结果时间通常很长(通常需要数天)。此外,由于添加每个碱基的步骤收率均小于100%,因此添加每个碱基时,分子群体变得更加不同步(16)。作为读取延伸,有效地限制通过使用最广泛的SGS系统比通过Sanger测序(实现的平均阅读长度产生的显著少读取长度的同步(称作移相)的这种损失导致的噪声和测序错误的增加11,17)。此外,为了产生大量DNA分子,需要PCR扩增。扩增过程会在模板序列中引入错误以及扩增偏差。这些病理的影响是,它们出现的顺序和频率都不能始终如一地得到保留。另外,扩增过程增加了与样品制备相关的复杂性和时间。最后,每次运行SGS技术所实现的超高吞吐量会产生大量具有高信息量的数据,这些数据对数据存储和信息学操作提出了挑战,尤其是鉴于较短的读取(与Sanger测序相比)使对齐和组装过程具有挑战性(17)。

第一代测序和SGS技术引领了基因组学领域及其他领域的革命,激发了惊人数量的科学进步[有关SGS的全面综述,请参见(11)]。然而,目前测序技术的应用和基因组生物学方面超出了当前测序技术的范围,为该领域的其他创新留下了沃土。

从SGS过渡到TGS

鉴于在不容易适应世代时间尺度的快速时标上取得了进步,关于什么构成第三代或下一代测序仪器可能尚未达成共识。但是,出于这篇评论文章的目的,我们专注于SMS,而无需在读取步骤之间停止(无论是酶促方法还是其他方法),其中从SMS仪器读取的数据代表单个DNA分子的测序。每次碱基掺入后不会有目的地暂停测序反应的SMS技术代表了探索最彻底的TGS方法,希望提高测序速率通量和读取长度,降低样品制备的复杂性并最终降低成本。但是,由于使用这些标准来定义TGS,

位于SGS和TGS类别之间的一项技术是Ion Torrent的半导体定序器(现已由Life Technologies收购)。离子激流测序仪的一个有趣方面是,采用最先进的半导体技术来创建高密度的微加工孔阵列,该微加工孔通过感测氢离子的释放来进行SBS,这是碱基结合的一部分。处理。此过程无需光,扫描和照相机来监控SBS过程,从而简化了整个测序过程,大大缩短了生成时间,减少了仪器的总体占地面积,并降低了使DNA测序更容易获得的成本。所有。但是,与所有当前的SGS技术一样,该技术仍然是“冲洗和扫描”系统,要求在每个孔中PCR扩增DNA模板,以及通常在每个核苷酸掺入后终止测序的终止事件,以便连续监测所有DNA模板中四个碱基的掺入。作为此过程的结果,与SMS平台将能够实现的功能相比,整个读取长度仅限于当前的SGS系统,并且最终通量也受到限制。

距TGS边界更近的地方是Helicos遗传分析平台,这是第一种可进行SMS的商业测序仪器(24–27)。Helicos测序仪的工作原理是:使用定义的引物和修饰的聚合酶以及专有的荧光标记核苷酸类似物(称为虚拟终止子核苷酸)对附着在平面上的单个DNA分子进行延伸,将染料连接到该分子上。通过化学可裂解基团的核苷酸,从而可以进行逐步测序(25)。因为在此过程中仍然需要暂停(类似于SGS技术),所以对单个核苷酸进行测序的时间很长,实现的读取长度约为32个核苷酸。但是,考虑到该技术的SMS属性,测序不需要PCR,这比SGS技术具有明显优势。但是,同样由于该技术(以及所有SMS技术)的单分子性质,尽管该技术的高度并行性可以实现高倍覆盖和覆盖,但原始读取错误率通常为或> 5%。共识或最终阅读准确度> 99%。这项技术能够对整个人类基因组进行测序,尽管按照当今的标准(约5万美元的试剂)而言,其成本很高(28)。在许多天的过程中,它可以跟随大约十亿个单独的DNA分子。与SGS不同,这亿万种测序反应可以异步进行,这是TGS的标志。此外,在对模板进行单独监视的情况下,无需将酶促掺入步骤驱动完成,这有助于降低总体错误掺入错误率。与下面讨论的其他TGS技术一样,删除和插入也是一个重要问题。

图2。
在新标签页中打开下载幻灯片

第三代DNA测序技术如何工作。第三代DNA测序技术的独特之处在于可以直接检测单个分子,而该方法不需要在DNA合成过程中进行洗涤步骤。

A)用于实时直接观察单个DNA分子上DNA合成的Pacific Biosciences技术。DNA聚合酶被限制在零模波导中,并且通过荧光检测γ标记的磷酸核苷酸来测量碱基添加。

B)几家公司寻求通过电子显微镜直接检查来对DNA进行测序,类似于此处所示的Reveo技术,其中首先拉伸ssDNA分子,然后通过STM对其进行检查。

C牛津纳米孔技术,用于测量从DNA分子切割的核苷酸跨孔的移位,该跨膜是由跨膜上不同离子浓度的力驱动的。

D)IBM的DNA晶体管技术基于每个单个核苷酸的独特电子签名,读取单链ssDNA分子穿过狭窄孔时的单个碱基。金带代表晶体管的金属层和灰带介电层。

该技术的样品制备部分涉及将基因组DNA片段切割成较小的片段,在片段上添加3'poly(A)尾,通过末端转移酶进行标记和封闭。然后通过杂交将这些模板与共价结合的5'dT(50)寡核苷酸捕获到表面上(25)。然后使用电荷耦合器件(CCD)传感器对表面成像,在其中识别出已被适当捕获的模板,然后对其进行SBS跟踪。然后,该过程类似于SGS的“洗涤和扫描”步骤,其中将标记的核苷酸和聚合酶混合物注入系统中并孵育一段时间,然后洗涤表面以去除合成混合物并进行扫描以检测荧光标记。然后将染料-核苷酸接头裂解以释放染料,并重复此过程。

该技术不仅可以用于对DNA进行测序,而且可以用逆转录酶代替DNA聚合酶来直接对RNA进行测序(29),而无需将RNA转换为cDNA或不需要连接/扩增步骤。所有现有的SGS技术都需要进行RNA测序(5)。取而代之的是,每个RNA分子都经过聚腺苷酸化和3'封闭,并捕获在涂有dT(50)寡核苷酸的表面上,类似于DNA测序过程。然后如关于DNA所述进行测序,但是使用逆转录酶代替DNA聚合酶。除直接RNA测序外,Helicos平台还可以进行其他基于测序的测定,例如染色质分析(30)。

尽管成功部署了Helicos SMS技术(代表真正的SMS的第一个示例),但它具有SGS技术的许多显着优点,但它具有SGS技术的许多特征,因此,在区分方面与SGS区别开来比较困难。读取长度,通量和运行时间,所有这些都与领先的SGS技术相似。与更高的原始读取错误率结合在一起(需要重复测序才能克服),与领先的SGS技术相比,最​​终结果是更高的测序成本。尽管Helicos技术可能难以在某些方面与SGS明显区分开,但直接RNA测序应用才是使该技术与SGS明显区分开的一种进步。

第三代DNA测序

SMS技术大致可分为三类:

(i)SBS技术,其中在合成单个DNA分子时观察到DNA聚合酶的单个分子;

(ii)纳米孔测序技术,其中单分子DNA穿过纳米孔或位于纳米孔附近,并在单个碱基穿过纳米孔时对其进行检测;

(iii)使用先进的显微镜技术对单个DNA分子进行直接成像。

这些技术中的每一种都提供了用于DNA测序的新颖方法,并且在特定应用方面具有优缺点。这些技术处于不同的发展阶段,鉴于许多TGS技术的实用性尚有很多证据需要证明,因此很难撰写有关TGS的评论。然而,如果实现了这些技术的全部潜能,那么几年后,全基因组测序将可能足够快且便宜,足以根据任何应用程序的需要对基因组进行重测序。在这里,我们讨论了许多新兴的TGS技术,它们有可能使如此惊人的进步成为可能。

合成短信测序

单分子实时测序

Pacific Biosciences开发的单分子实时(SMRT)测序方法是第一个直接观察DNA聚合酶单分子的TGS方法,因为它可以合成DNA链,直接利用该酶的速度和可加工性来解决许多问题。 SGS(的缺点的14,31)。假设单个DNA聚合酶分子的直径约为10 nm,则需要克服两个重要的障碍,以便能够实时实时观察DNA合成:

(i)将酶限制在一个观察体积内足够小以达到将碱基整合到目标模板中时准确调用碱基所需的信噪比;

(ii)标记要在合成过程中掺入的核苷酸,以使染料-核苷酸接头在掺入过程完成后被切割,从而使天然的DNA链得以继续合成,从而使多种染料不被保留在合成过程中。一次的限制体积(会破坏信噪比的东西)。

观察DNA聚合酶在实时工作,在检测过程中DNA合成从潜在的核苷酸组成的大池截取的单核苷酸的掺入,所述的问题,使用零模式波导(ZMW)的技术解决了(图  2 A)(31)。所采用的原理类似于在微波炉门的保护屏中所采用的原理。屏幕上开有比微波波长小得多的孔。由于其相对大小,这些孔可防止更长的微波穿过并穿透玻璃。但是,可见光的波长要小得多,它可以穿过屏幕上的孔,使食物在煮熟时可见。ZMW可以以类似的方式进行DNA测序。

ZMW是在沉积在玻璃基板上的100 nm金属膜中制造的直径数十纳米的孔。ZMW的小尺寸可防止波长约600 nm的可见激光完全通过ZMW。而不是通过,光进入ZMW时呈指数衰减。因此,通过将激光照射通过玻璃向上射入ZMW,仅ZMW的底部30 nm被照射。在每个ZMW中,使用生物素/链霉亲和素相互作用将单个DNA聚合酶分子固定在玻璃底部表面(图  2)。一种)。然后将每种类型的核苷酸标记有不同颜色的荧光团,然后将其以所需的浓度注入到一系列ZMW上方。纳米级的扩散发生在微秒内,因此标记的核苷酸向下进入ZMW,围绕DNA聚合酶,然后向上扩散并离开孔。由于没有激光穿过孔穿透以激发荧光标记,因此ZMW上方的标记核苷酸对测量信号无贡献。只有当它们扩散通过ZMW的底部30 nm时,它们才会发出荧光。当聚合酶检测到正确的核苷酸时,它会以几毫秒的过程整合到正在生长的DNA链中,该过程比简单扩散要长大约三个数量级。时间上的这种差异导致掺入的核苷酸与未掺入的核苷酸相比具有更高的信号强度,从而产生了很高的信噪比。当被聚合酶保持时,荧光标记发出彩色光。测序仪将其检测为闪烁,其颜色与基本身份相对应。掺入后,信号立即返回基线,并且该过程重复进行,DNA聚合酶继续每秒掺入多个碱基。因此,ZMW具有在生物学相关浓度下检测荧光标记核苷酸背景下的单个掺入事件的能力。SMRT测序仪器的第一个商业实例将由约75,000 ZMW阵列组成。每个ZMW都能够包含载有不同链DNA样品的DNA聚合酶。结果,该阵列可以并行检测约75000个SMS反应。目前,由于待测序的DNA聚合酶和DNA模板是通过随机扩散过程传递到ZMW的,因此给定阵列的ZMW的大约三分之一对于给定运行具有活性。

ZMW克服了第一个障碍,但没有克服第二个障碍。所有SGS技术都将染料直接附着到碱基上,该碱基被整合到DNA链中。对于任何试图实时观察DNA合成的系统来说,这都是个问题,因为染料相对于DNA的尺寸较大,会干扰DNA聚合酶的活性。通常,DNA聚合酶在停止之前只能掺入几个碱基标记的核苷酸。相反,SMRT测序方法将荧光染料附着到核苷酸的磷酸酯链上,而不是附着在碱基上。作为合成过程中的自然步骤,当核苷酸掺入DNA链时,磷酸酯链会断裂。因此,在掺入磷酸连接的核苷酸后,当DNA聚合酶切割磷酸酯链时,它自然将染料分子从核苷酸中释放出来。切割后,标记会迅速扩散开,留下一块完全天然的DNA,没有残留标记的迹象。

SMRT测序平台只需最少的试剂和样品制备即可进行运行,并且没有耗时的扫描和洗涤步骤,从而使时间仅需数分钟,而不是数天(14)。此外,SMRT测序不需要大多数SGS系统所需的常规PCR扩增,从而避免了系统的扩增偏差

由于利用了DNA聚合酶的合成能力,SMRT测序实现了比目前任何其他技术更长的读取长度,具有产生平均读取长度> 1000 bp和最大读取长度超过10000 bp的潜力,从而使从头开始装配,直接检测单倍型,甚至提供定相整个染色体的可能性。

SGS技术的样品制备过程通常涉及昂贵的附加资本设备,试剂,供应品和物理空间。SGS的样品制备过程可能需要几天的时间。但是,采用SMRT测序时,样品制备包括将DNA片段切割成所需的长度,使末端钝化,连接发夹衔接子,然后进行测序(32)。这为为不同的应用程序配置系统提供了相当大的灵活性。

SMRT测序更有趣的功能之一是观察和捕获动力学信息的能力。实时观察DNA聚合酶活性的能力允许收集,测量和评估酶结合的动力学和时机,称为动力学。通过SMRT测序过程,可以在收集序列数据的正常过程中检测到与碱基的化学修饰(例如甲基化)相关的掺入动力学变化(2)。

除了DNA测序外,SMRT测序仪器还具有灵活性,应能导致许多现有技术无法实现的应用。例如,最近发表的一项SMRT技术应用展示了核糖体翻译mRNA时的直接实时观察结果(33)。直接观察其他酶,如RNA依赖性聚合酶和逆转录酶在RNA测序中的应用,也应该是可能的。

尽管SMRT测序具有许多潜在的优势,但仍然存在许多挑战。像Helicos技术一样,原始读取错误率可能超过5%,错误率主要由插入和缺失决定,尤其是在比对序列和组装基因组时出现问题的错误。此外,SMRT测序的通量最初不会与SGS所能实现的相匹配。SMRT测序的通量是可以一次读取的ZMW数量的函数。虽然最终有可能并行观测许多ZMW,但第一个发布的版本最多只能搭载75,000 ZMW。最后,正如大多数TGS技术所预期的那样,SMRT测序数据的形式与SGS数据不同,

使用荧光共振能量转移的实时DNA测序

其他SMS SBS技术正在开发中,但是几乎没有数据可以评估它们在开发中的位置以及何时发布它们。VisiGen Biotechnologies拥有一种最有前途的SMS方法,其中DNA聚合酶被荧光团标记,当它与核苷酸紧密接近时,被受体荧光团标记,将发出荧光共振能量转移(FRET)信号。掺入后,可以释放核苷酸上的荧光团标记。这种类型的方法可以被认为是对Helicos技术的一种改进,并且鉴于高速复用的潜力,它有可能每秒移动数百万个碱基。Visigen Biotechnologies最近被Life Technologies收购,

基于隧道和透射电子显微镜的DNA测序方法

使用电子显微镜直接对DNA成像

Halcyon Molecular率先采用透射电子显微镜(TEM)来对SMS方法进行直接成像和化学检测,以唯一地识别包含DNA模板的核苷酸。使用像差校正扫描TEM中的环形暗场成像技术,已证明所采用的方法能够可靠地检测平面非周期性材料中的原子(13)。这种方法可以追溯到理查德·费曼(Richard Feynman)于1959年在加州理工学院美国物理学会的年会上的一次演讲,他指出研究DNA,RNA和蛋白质等重要生物分子的最简单方法是直接观察它们。除TEM技术外,Halcyon还开发了许多基于TEM的DNA测序所需的支持技术,例如使用功能化的针将拉伸的DNA分子附着到基质上以进行直接成像。在撰写本文时,尚无出版物证明这种用于DNA测序的方法,但如果成功实施,则该技术的主要优势在于可以以低成本实现非常长的读取长度(可能进入数百万个碱基)。

ZS Genetics正在开发另一种基于TEM的DNA测序仪,以直接对序列进行成像。使用这项技术,可以使用高分辨率(亚埃)电子显微镜对DNA核苷酸内的标记原子成像,在该显微镜下,可以根据单个碱基的大小和不同标记碱基之间的强度差异来检测和鉴定单个碱基。尽管尚未发表有关该技术的概念证明研究,但ZS Genetics声称,该技术能够以每天17亿个碱基的速率产生10,000至20,000个碱基的读数。与大多数其他TGS技术一样,读取长度和降低的成本有望成为主要优势。

使用扫描隧道显微镜尖端对DNA序列进行直接成像

Reveo正在开发一项与IBM DNA晶体管方法(请参阅下文)相关的技术,该技术将DNA放置在导电表面上,从而使用扫描隧道显微镜(STM)尖端和隧道电流测量技术以电子方式检测碱基(34)。STM尖端为刀口形,具有纳米级尺寸(图  2)。B)。将该技术应用于SMS的目的是拉伸和限制DNA分子,以便可以进行隧道电流测量以识别单个碱基。尚未描述用于此应用的将DNA序列线性化和沉积在导电表面上的过程。尚未发表有关DNA测序的概念研究的证据,但是这种技术的优点再次被期望是速度快,读取长度长并且可以避免标记的显着降低。

纳米孔DNA测序

大多数纳米孔测序技术都依赖于DNA分子或其成分碱基通过孔的转运,并通过其对电流或光信号的影响来检测碱基。由于这种技术使用未修饰的DNA的单分子,因此它们有可能在极少量的输入材料上快速工作。由工程蛋白构建的生物纳米孔和完全合成的纳米孔都在开发中。特别地,潜在地使用原子薄的石墨烯薄片作为支撑纳米孔(35)以及碳纳米管(36)的基质。

直接电检测单个DNA分子

Oxford Nanopore正在商业化一种基于三个天然生物分子的DNA测序系统,这些分子被设计成可以作为一个系统工作(图  2 C) (37–39)。生物纳米孔由修饰的α-溶血素孔构成,该孔的正常细胞外表面附着有核酸外切酶。合成的环糊精传感器也共价附于纳米孔的内表面。该系统包含在合成脂质双分子层中,因此,当将DNA加载到其含核酸外切酶的表面上,并通过改变盐的浓度在双层上施加电压时,核酸外切酶可以裂解单个核苷酸。单个核苷酸一旦被切割,就会根据其对流过孔的离子电流的特征破坏而被检测到。使用天然脂质双层的该系统可能难以实现高倍数的可靠通量,但如果开发出了合成膜和固态纳米孔,可能有助于克服这一挑战。像该类别中的许多其他TGS技术一样,由于该技术是由电子而不是光学技术驱动的,因此其优点是读取长度长,成本低,可扩展性高。

用MspA进行纳米孔DNA测序

另一种方法旨在直接在完整的DNA上使用生物纳米孔。与牛津纳米孔(Oxford Nanopore)通过分解DNA分子解决α-溶血素孔中的轴向分辨率限制不同,在这种情况下,耻垢分枝杆菌孔蛋白A(MspA)蛋白具有更短的封闭区域,因此分辨率更高。测量孔和单链DNA线性分子(ssDNA)对通过孔的电流的影响(12)。为了将ssDNA穿过孔的速​​度减慢到允许检测单个碱基的水平,因为它们会中断电流通过孔,因此引入了双链DNA(dsDNA)区域。这种方法能够以连续方式直接测量ssDNA的能力很吸引人,但是在孔传输速度上引入所需dsDNA断裂的复杂性似乎是目前常规DNA高效大规模实验室工作流程的主要障碍。排序。

带有光学读数的纳米孔测序

基于纳米孔的测序的一个重大挑战在于需要同时监控大量的纳米孔。最近,通过使用光学多孔检测已证明了任何基于纳米孔的方法的首次平行读数(40)。在这种方法中,首先通过生化过程离线增加四个碱基之间的对比度,该生化过程将DNA中的每个碱基转换为特定的,有序的级联寡核苷酸对。随后,将两个不同的荧光标记的分子信标与转化的DNA杂交。然后,当信标通过纳米孔移位时,将信标从DNA分子中依次解压缩。每次解压缩事件都会取消新的荧光团的猝灭,从而导致一系列双色荧光脉冲,这些脉冲由高速CCD相机使用常规的全内反射荧光显微镜设置进行检测。通过调节控制通过纳米孔的DNA转运的电压至与单分子光学检测兼容的速度,可以减缓拉开拉链的过程。

晶体管介导的DNA测序

IBM正在开发一种纳米结构的测序设备,该设备能够以电子方式检测单个DNA分子中的各个碱基(图  2 D)(41)。纳米结构是纳米尺寸的孔。孔的表面由轴向分层的金属和介电材料(如晶体管)交替层组成。然后可以使单个DNA分子通过孔,通过适当调制晶体管电极中的电流来控制DNA通过孔的运动。速度,读取长度和低成本仍然是此类方法的主要优势。实际上,如果已将理论极限计算为每晶体管每秒读取500000000个碱基,则使用这种方法可以大大提高测序速度。另外,与该类别中的其他TGS技术一样,该测定将无需标签,并且不需要光学器件,从而又大大降低了成本。

虽然最初提出的DNA晶体管构想是基于理论计算和分子动力学模拟(41),但IBM最近发布了针对该方法面临的两个技术挑战之一的解决方案:调节DNA分子通过纳米孔的速度。以实现最佳的碱基取向以及当碱基穿过纳米孔(15)时对其进行足够的采样。该方法剩下的另一个挑战是证明可以将单个碱基的信号与附近碱基的信号区分开。与该挑战有关的最新出版物通过模拟表明,诸如纳米孔中的离子运动之类的因素可能不一定会影响单个碱基的所需信号(42)。

与牛津纳米孔技术相比,IBM的方法将更便宜并且可能更稳定。特别是,IBM的方法在空间分辨率和灵敏度方面不会有相同的问题,这是牛津纳米孔方法(43)的问题。但是,Oxford Nanopore与DNA晶体管相比的优势在于,由于它检测的是碱基切割而不是完整的DNA分子,因此其检测灵敏度较低。

TGS信息学机会

SGS技术的信息学挑战很大程度上归因于这些技术的特长(17)。SGS的短读性质使其即使重新配对也难以从头组装完整的基因组。实际上,迄今为止,几乎所有已测序的人类基因组都已使用基于参考的作图算法进行了组装(17)。虽然这种装配方法是有效的用于准确地确定在人类基因组(单核苷酸多态性44,45),它不会使结构变型中,插入和缺失的透彻表征。只有单个基因组的从头组装才能完成这一壮举。

大量的de novo汇编程序已经为SGS编写了汇编,包括重叠图方法,其中通过查看序列重叠来重叠群,例如Edna(46),VCAKE(47)和SHARCGS(48);

基于de Bruijn图数据结构(49)的组件,例如Velvet(50),EULER-SR(51)和ALLPATHS(52);以及使用de Bruijn图方法但结合其他信息(例如基因组重复结构)以增强装配的最新努力(53)。

尽管现在可以使用最新的SGS技术和算法进行合理的装配,但它们仍然无法达到使用第一代Sanger测序所能实现的装配质量,而混合测序方法包括从多个如今,技术已成为提高装配质量的更为标准的方法(17)。

讨论的大多数TGS技术都解决了(或有可能解决)SGS技术在组装质量方面的局限性,因为TGS中的读取长度和配对对距离不仅明显超出了SGS所实现的范围,而且与Sanger相比排序也是如此。较长的读段可跨越重复区域,使组装困难,并可避免对支架SGS读段所需的更复杂的配对策略的需要。作为一个例子,在图3A中描绘了  使用深渊(54)组装的七个重叠群,其被用于短纹假单胞菌基因组产生的短读数据使用Illumina GA平台。因为六个蓝色重叠群重叠,所以红色重叠群代表一个1.5 kb的重复区域,并且由于两个重叠群都不跨越重复区域,因此重叠群不能相对于彼此排序。然而,在图  3 B中,我们仅描绘了来自TGS SMRT测序平台的三个分子的远程测序数据(图3,图例),这些分子  跨越重复序列,并明确地确定了重叠群如何相对于彼此进行排序。

图3。
在新标签页中打开下载幻灯片

长读跨越长重复,以明确地确定重叠群。TGS Technologies能够产生长读,这对于从头组装基因组至关重要。

A)仅由短读数据组装而成的重叠群不能被明确地排序,因为它们重叠但不跨越重复区域。

B)在这里由彩色迹线描绘的是跨越数千个碱基的单个单分子序列,包括重复区域的副本,与侧翼重叠群重叠,以明确解析重叠群顺序。

尽管有其优势,TGS也会面临一系列挑战。因为按照定义,TGS系统可以分析单个分子,所以在数量上再也没有安全性可以将原始读取错误降至最低。例如,如果用于SBS系统的试剂批次中未标记的核苷酸的含量为0.001%,则用该试剂产生的原始数据中肯定会有0.001%的缺失率,除非被酶更快地掺入了标记的碱基。同样,如果一个碱基未能按预期穿过纳米孔或DNA晶体管,并被计数了两次,则原始数据中将插入一个数据。因此,原始读取的错误频率可能会更大,并且TGS的错误概况肯定会与早期技术的错误概况不同,因此在分析TGS数据的算法中都需要考虑这两种情况。

尽管更长的TGS读取长度将缓解那些专注于SGS数据的人现在所面临的与组装有关的许多信息学挑战,但增加的信息内容将需要新型的数学模型和算法,以从数据中获得最大收益。例如,SMS事件的实时监控可以提供动力学信息,从而改变人们理解每个碱基的理解能力(例如,碱基的身份,碱基是否经过化学修饰,损坏等)(2)。此外,由于一次要监视一个分子,因此错误结构将与SGS技术采用的基于整体的方法大不相同,原始读取的错误率更高,但是共有序列会更快地收敛到更高质量序列,在错误(分配给定显著更少偏压14,32)。因此,由于新一代测序技术为测序的执行方式带来了重大变化,因此他们需要新一代分析工具来从原始数据中获取最大信息。

例如,如上所述,Illumina的Genome Analyzer / 2(和HiSeq 2000)以循环方式测序模板DNA序列簇,其中对于每个循环,对每个簇的荧光标记的互补碱基进行测序,其中该碱基代表下一个核苷酸在模板序列中(44)。结果,对于每个群集,每个周期对应四个图像,并且分析通过分析每个图像并量化每个群集的强度并选择优势强度来确定给定群集在给定条件下最可能的碱基来进行周期。与分析这些数据相关的主要问题是优化串扰的准确性,包括串扰,相移和贞洁滤波(16)。另一方面,SMS SBS技术涉及对单个聚合酶分子的实时监测,一次可询问单个DNA分子。例如,在SMRT测序中,核苷酸用四种不同的荧光染料标记,这些荧光染料在整个测序室中随机扩散,并且仅在聚合酶结合核苷酸以将其掺入正在合成的序列中时才用激光照射。摄像机在定序运行过程中(通常为15分钟)以每秒100帧的速率监视照明事件,从而制作包含90 000帧的影片(运行15分钟)。在这种情况下,主要分析涉及量化每个测序反应的每个通道的强度,将照明事件识别为脉冲,然后将脉冲转换为碱基检出。尽管不同染料之间的串扰仍然是这种类型的测序问题,但鉴于SMS的异步特性,不再需要定相校正和贞洁过滤。但是,考虑到询问单个模板DNA分子导致的随机波动,会出现许多问题,导致给定模板读取的碱基的数量和身份不确定。例如,可能无法错过给定的掺入事件,因为无法将附着在新掺入的核苷酸上的染料发出的光子数与背景噪声区分开,或者聚合酶可能无法掺入核苷酸并在成功之前尝试多次,为同一基础创建似乎是多个连续的合并事件(14)。

有完善的数学模型可用于对痕量数据进行建模,以便可以根据任何给定痕迹表示的基础DNA序列对这些痕迹的解释进行推断。最一般地,从给定的测序轨迹中,我们检测到代表连续时间段的脉冲,其中给定通道的强度在该时间段定义的时间段内从背景状态变为明显高于背景状态。脉冲代表测序过程中的照明事件,理想地表示特定核苷酸掺入正在合成的序列中。这些类型的事件表示来自测序仪器的观察结果,这些观察结果在单个分子的给定测序运行中及时发生,我们可以将其表示为观察结果的序列,Ô Ô 1,...,Ô Ñ。每个o i可以是表征给定观察事件的度量或度量向量。从这些观察结果O中,我们想得出一个解释,该解释代表已测序的T =  … ,t n核苷酸的真实序列。在第一代测序和SGS的上下文中,每个解释吨我观察ö 我任一表示从字母的单核苷酸碱基G ^ÇT或为空。由于TO的成分是随机变量,因此目的是在给定观察序列的情况下找到最佳的解释序列。传统上,这表示为给定观测值o的解释t的概率(条件概率pt | o)),其中vo)= arg max t pt | o)然后代表产生最大概率的解释。从这种类型的建模中,我们可以获得最佳解释的质量得分Q = −10 log 10(1 − pvo)| o)),它与Phred得分的可靠性直接相似。最好的解释(55,56)。然后可以将完整的观察序列转换为质量分数Qo)的最佳解释序列V = v1),…,vo n)1),…,Qo n)。

尽管此方法对于FGS和SGS效果很好,但与大多数TGS技术的性质有关的两个重要问题需要对上述数学模型类型进行更高级的表述。

首先,SMS包含大量随机成分,使观察与这些观察的解释之间的关系变得复杂

例如,在SMRT序列跟踪数据中观察到的脉冲将不能完美地传达掺入事件的顺序-随机且呈指数分布的脉冲宽度和脉冲间持续时间意味着在某些情况下可能无法检测到脉冲或脉冲之间的间隙。

结果,由给定模板的单个序列表示组成的最终输出将无法完全反映任何给定碱基正确定位的可能性,已被正确调用,已丢失或未正确插入。通过适当地表征这种不确定性并将其纳入分析,可以改善将给定序列正确映射到基因组正确区域,在任何给定位置提供替代碱基调用或识别更一般的结构变异的能力。

第二个主要问题涉及第三代技术最终可以实现的数据量。每台测序仪每天可能产生数千亿次读取,因此存储原始数据文件不仅不切实际,而且对于大多数用户而言,存储迹线和脉冲级数据也不切实际。因此,

解决这些重大问题对于充分利用TGS技术至关重要。如上所述,在概率意义上对序列数据进行建模非常重要,其中在TGS的背景下,任何给定的观察值都可能对应一个或多个碱基,尽管我们假设一个解释最多包含几个DNA碱基(通常只有一个)。

由于可能对与同一基础读取T对应的观测序列O进行多种不同的解释,因此一种方法是通过图形分布的模板模型将多种解释与局部观测联系起来,其中T的所有不同分区被认为:⁠

。这种形式也很方便,因为可以通过贝叶斯定理⁠将数据似然PO | X)与特定于应用的先验P(O)(特定于给定的TGS技术)

分开。从这种类型的框架或其他框架中开发模型以最好地表征围绕给定模板序列合成的碱基的身份和数量的不确定性至关重要,这对于所有下游应用都将是重要的,包括序列比对,变异检测和基因组组装。

除了TGS的建模挑战之外,还将面临数据管理和处理挑战,这两者都要求访问超级计算规模资源以有效处理。大型项目(例如1000个基因组)的数据将仅针对原始信息而达到PB级。TGS技术将在几分钟之内以极低的成本扫描整个基因组和微生物组,转录组并直接评估表观遗传学变化,从而使情况更加恶化。在此之上,是来自成像技术,其他高维传感技术和个人病历的数据,并且存在产生每个人兆兆字节规模的数据的可能性,甚至可以达到兆字节规模甚至更大。挖掘如此大型的高维数据集对存储和分析提出了一些挑战。为了使生物学能够准确地对生物系统建模,需要在数据传输,访问控制和管理,数据格式的标准化以及来自多个不同维度的数据集成方面取得进步(57)。

计算空间中出现了许多技术,这些技术将有可能满足我们的超级计算需求。生命科学家已经开始从高能粒子物理学气候学等领域借用解决方案,这些领域已经通过了类似的拐点。诸如Microsoft,Amazon,Google和Facebook之类的公司也已成为PB级数据集的大师,它们可以响应用户的请求,将分布在大规模并行架构上的数据链接起来,并在几秒钟内呈现给用户。

TGS技术的用户将需要跟随其他技术的脚步,在需要的地方开辟新的道路。今天,57)。此外,像Geospiza这样的许多公司正在提供利用基于云的计算资源的服务,以使SGS和TGS用户能够管理和处理其原始序列数据。鉴于TGS技术将产生数据的规模和多样性,我们预计,与SGS用户相比,这些资源对于TGS用户将变得更加重要。

结论/观点

TGS在证明这些新兴技术所基于的所有基础复杂机械上,可以转化为比SGS更为真实,可实现的进步,因此有大量的证明。但是,TGS革命可能带来的巨大进步的希望是满足我们对生成更高维度数据的期望之一,以便我们可以对生活系统和复杂表型(例如人类疾病)有更全面的了解从这样的系统中出现。

在SGS技术已经具有在DNA测序空间产生重大影响,识别与不同癌症类型相关联的肿瘤组织罕见变体,例如(58,59)。但是,TGS承诺在不到一天的时间内以合理的成本交付整个基因组(14),提高了这些技术在生命和生物医学领域中几乎每个领域的适用性。除DNA测序外,许多TGS平台还将具有更广泛的用途,包括甲基化模式的识别(60),转录组的全面表征(61)和翻译的全面表征(62)。因此,TGS随时准备为复杂的系统提供前所未有的快照,这将使网络视图更加准确,从而使疾病模型具有更大的预测能力。

最终,我们通过整合由TGS和其他技术生成的超大规模,高维数据来构建预测性疾病模型的能力将要求我们掌握在各种应用领域(如人类的治疗)中收集的有关生命系统的大规模信息。疾病,替代生物燃料的开发,作物产量的提高,确保食品安全,法医学及其他。但是,如果不掌握与TGS和其他技术将产生的与这些区域中的每个区域相关的广泛表型基础的大规模分子数据,而没有能够进行数据集成的复杂数学算法,而且没有适当的信息学基础设施来应用这些算法,并将结果转化为可管理的信息,基础科学研究人员,临床研究人员,医生,患者和消费者可以使用这些信息,从而努力实现TGS对医学等领域的影响,作物和牲畜科学以及替代能源将无法发挥其全部潜力。

最终,通过使用先进的生命科学和信息技术,这些不同的社区应该有可能成为信息大师。

只有将信息技术与生命科学和生物技术相结合,我们才能认识到随着TGS的上线,我们将能够生成的大量生物数据具有惊人的潜力。大规模DNA测序,RNA测序,

Corrigendum: A window into third generation sequencing相关推荐

  1. Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术

    Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术 Within just the past few years, ne ...

  2. Single Molecule Real-Time Sequencing

    Single Molecule Real-Time Sequencing Published July 9, 2016 Recently, I have witnessed the uprising ...

  3. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

    Jabba: hybrid error correction for long sequencing reads using maximal exact matches 机译:Jabba:使用最大精确 ...

  4. Genome Sequencing and Assembly by Long Reads in Plants植物基因组的长读测序与组装

    Genome Sequencing and Assembly by Long Reads in Plants 植物基因组的长读测序与组装 Abstract: Plant genomes generat ...

  5. Long-read sequencing for improved analysis

    OEM代工 ,NGS ,Tecan合作 ,基因组学 ,Cavro ADP 下一代测序现已在整个生命科学领域得到广泛使用,但是常用的短读测序方法经常会受到GC碱基对的影响.结合短读数固有的作图模糊性,通 ...

  6. LoRDEC: a tool for correcting errors in long sequencing reads 纠正长序列读取错误的工具

    LoRDEC: a tool for correcting errors in long sequencing reads Eric Rivals 21st August 2015 Abstract ...

  7. 什么是RNA-Seq (RNA Sequencing)

    什么是RNA-Seq (RNA Sequencing) 2011-07-14 ~ ADMIN 随着ome为词尾的各种组学的出现,转录组学已经成为了人们了解生物信息的一个重要组成部分.人们使用了许多办法 ...

  8. MPB:沈阳生态所李琪组-​土壤线虫群落DNA提取、扩增及高通量测序

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  9. 遗传:微生物组数据分析方法与应用

    本文版权归<遗传>杂志,已获授权,转载请联系杂志社 微生物组数据分析方法与应用 刘永鑫1,2,秦媛1,2,3,郭晓璇1,2,白洋1,2,3 1. 中国科学院遗传与发育生物学研究所,植物基因 ...

最新文章

  1. 明抢华为市场,宣战苹果三星,这家创业公司胆子不小
  2. 【Leetcode | easy】罗马数字转整数
  3. Java面试题:在一个递增的数组里面,找出任意两个数的和等于100,编写程序输出这些数对,可以假设数组中不存在重复元素
  4. UVA 10706 Number Sequence
  5. 二叉搜索树的后序遍历
  6. 项目心得--我的尺寸测量项目
  7. 计算机二级准考证下载打不开
  8. L298N电机驱动模块的简单介绍
  9. 近世代数--陪集--拉格朗日定理|G|=|H|·[G:H],传递性[G:H][H:K]=[G:K]
  10. 中兴f477v2超级管理员_中兴本机电信光猫超级密码获取-中兴F412/F460/F612/F660超级密码获取下载V1.0最新版-西西软件下载...
  11. Sprite Creator Sprite Mask
  12. 关于二级域名与三级域名的解释
  13. 二维码怎么生成彩色样式
  14. 基于LMS算法的DFE判决反馈均衡器
  15. 问题解决:Invalid version number:Version number may be negative or greater than 255
  16. 相位相关计算两张图片的平移量
  17. hadoop 学习路线
  18. mysql的临时表简介
  19. 暴力破解无线密码最详细教程
  20. 如何保障测试用例的覆盖率

热门文章

  1. 比double精度更高的数据类型_Oracle数据类型总结
  2. Tensorflow |(3)变量的的创建、初始化、保存和加载
  3. Nat. Commun | 基于网络的药物组合预测
  4. Java编写的五子棋小游戏
  5. node 压缩图片_1Mb压缩成100k,图片无损压缩我选择它
  6. Microbiome:香港理工李向东组-医院源可吸入耐药基因与宿主群落、临床关联和环境风险...
  7. 北科院分子互作实战专题培训班(10月底/11月底班)(生物医药与营养健康协同创新中心)...
  8. FEMS综述: 如何从微生物网络中的“毛线球”理出头绪(3万字长文带你系统学习网络)...
  9. 一作解读:Microbiome马铃薯疮痂病与土壤微生物组关系新进展
  10. R语言统计入门课程推荐——生物科学中的数据分析Data Analysis for the Life Sciences