摘要

第三代远程DNA测序和映射技术正在创造高质量基因组测序的复兴。第二代测序只能产生几百对碱基对的短序列,而第三代单分子测序技术可以产生超过10000个碱基对的短序列,或者映射超过100000个碱基对的分子。我们分析了如何利用增加的读长来解决基因组组装、结构变异分析和单倍型定相中的长期问题。

介绍

随着罗氏/454焦磷酸测序在2005年、Illumina/Solexa测序在2007年和其他高通量技术的商业化,第二代测序(或下一代测序)的出现,基因组测序的成本急剧下降1。这使得许多新基因组的测序和广泛的重新测序工作成为可能,以分析基因组的多样性。尽管第二代测序使单核苷酸和其他小变异的人群规模分析成为可能,但更大的结构变异的分析被证明是困难的。此外,使用第二代技术从头组装的新基因组的质量通常低于使用更老、更昂贵的方法测序的基因组。特别是,由短片段组成的从头开始的基因组装配可能缺乏基因组的全部部分,可能是片段化的并丢失重要的基因,并且缺乏足够的健壮性来研究整个染色体结构2,6。在某些情况下,组装的序列大大小于平均基因大小,使得该序列不如以前的参考基因组有用7。重排序项目在分析结构变异方面也受到严重限制,每一个哺乳动物大小的基因组中缺失数万个或更多的结构变异。

新的单分子测序技术可以产生超过10,000bp的平均读长,一些读长可以达到100,000bp或更多(表1),这使得对基因组结构的分析有了很大的改进。更重要的是,更长的读取长度跨越了更多的重复元素,从而产生了更连续的基因组重建。在结构变化分析方面,长读支持改进的“分读”分析,以便插入、删除、易位和其他结构变化更容易被识别。此外,单分子测序技术通常产生更均匀的基因组覆盖,因为它们对GC含量的敏感性不如第二代技术,后者往往减少或完全不覆盖序列组成不平衡的区域10。作为对改进的测序技术的补充,有几种远程绘图技术可以使用荧光探针和其他标记将结构50kbp映射到250kbp或更长的分子。利用第三代测序和定位技术,可以形成超级叠架(“支架”)可以跨越几乎整个染色体臂,从而大大改善了结构分析11-13。

第三代技术已被用于生产数百个微生物基因组的高度精确的从头组装,并对许多植物和动物基因组进行高度连续的重建,从而对进化和序列多样性有了新的认识。它们还被应用于重新排序分析,以创建跨越人类染色体大片区域的结构变异和阶段性变异的详细地图。值得注意的是,这些新技术已经被用来填补人类参考基因组中的许多空白,而这些空白在过去十多年的时间里一直受到严格审查。改良的读长在临床上的一个重要应用是对基因组的医学相关区域进行测序,如主要组织相容性复合体21的人类白细胞抗原(HLA)基因。这些技术已被证明有助于解决宏基因组学群落的组成问题,因为较长的读长和较长的跨度允许单个物种在过于复杂的混合物中进行组装,而单靠短读是无法解决这一问题的。除了DNA测序外,第三代技术还被广泛用于研究转录组,识别出成千上万种新的亚型和基因融合,而这些是第二代短读测序所没有发现的。最后,一些技术还允许从单个分子直接测量表观遗传修饰,允许发现许多新的甲基转移酶,以及更好地研究甲基化在病原体中的作用。

在这里,我们分析了第三代技术的能力,以显示他们如何改善基因组测序的3c:基因组的连续性,完整性和正确性。我们讨论了这些技术的关键特性和有效利用它们所需要的分析算法。然后,我们对目前可用的第三代基因组组合进行荟萃分析,对参考人类基因组的发展进行回顾性分析,并对生命树中的几十个物种进行模拟。根据这些数据,我们开发了一种新的基因组装配预测模型,该模型以在线web服务的形式呈现(http://qb.cshl.edu/asm model/predict.html),可以使用不同的技术(在线方法)准确地估计基因组装配项目的性能。

第三代测序

目前市面上有三种第三代DNA测序技术,分别是太平洋生物科学(PacBio)单分子实时(SMRT)测序、Illumina truu -seq合成长读技术和牛津纳米孔技术(Oxford Nanopore technologies)测序平台。使用单分子测序或克隆扩增和长分子测序,这三种技术都可以产生长读长,平均在5000 bp到15000 bp之间,有些读长超过100000 bp。

其中最成熟的是PacBio SMRT技术,该技术于20109年投入商业应用。SMRT技术通过人工合成来对DNA进行测序,并在荧光标记的核苷酸被整合到单个模板分子时,利用光学技术对其进行监控。当前的仪器PacBio RS II的读取长度可达~100,000 bp,最大的吞吐量(~8GB /天)是目前可用的长读技术(表1)。Reads的原始错误率为10%到15%,但是已经开发了几种算法技术,可以在足够的覆盖范围内将每个核苷酸的准确性提高到99.99%以上(在线方法表1)。而低覆盖率可以有效地与混合纠错算法一起使用,该算法利用额外的高覆盖率短读排序来纠错长读16。PacBio测序的主要限制是相对于第二代方法的成本,这限制了它在分析大量基因组方面的应用。然而,到目前为止,已经有数百个项目成功地使用了PacBio测序,包括近乎完美的装配或非常高质量的微生物基因组,真菌、植物和动物物种,以及整个人类基因组的高质量从头组装

2012年推出的第二代技术是分子协议,现在市场上称为Illumina TruSeq Synthetic Long Reads19。利用这种方法,在短读测序前对~10kbp的DNA分子进行无性扩增和条形码编码,使短读序列可以合成长读序列。合成长读数非常精确(误差约0.1%)(表1),可以用于相位分析和装配而不需要纠错。然而,由于TruSeq依赖于长程放大,并且读程是综合生成的,所以可用的读程长度比其他方法短,并且在Illumina化学有偏倚的任何区域,如GC含量高的区域或串联重复的区域,都容易终止和产生偏倚。最后,为de novo基因组装配获得足够的覆盖可能是昂贵的,通常甚至比PacBio测序更昂贵,因为要装配30倍的合成长读,可能需要900x到1500x或更多的短读覆盖。尽管如此,已经有几项研究使用这种技术来组装和调整复杂的基因组,包括调整人类染色体的大片区域。

2014年,牛津纳米孔技术公司(Oxford Nanopore Technologies)发布了最新的第三代技术。他们目前使用的仪器,牛津纳米孔小分队是一种手持设备,通过电子测量DNA分子通过纳米孔时电流的微小中断来对DNA进行排序。目前可用的仪器的读取长度与PacBio生产的类似(表1),尽管到目前为止,该仪器已经遭受了较差的准确性和较低的吞吐量,这限制了它的范围小基因组测序,包括大肠杆菌(4.5Mbp)或酵母(12Mbp),或扩增子。使用与PacBio读取类似的错误纠正算法,使用MinION测序的基因组的每个核苷酸的准确性被测量为>99.95% 15。有趣的是,该仪器体积小,成本低,因此可以用于偏远地区的研究,包括西非地区的埃博拉疫情研究

......

结论

第三代DNA测序和绘图技术正开始产生高质量的基因组序列。
这很容易通过使用这些技术报告的contig和支架N50大小来测量,它们的相邻性是相应的短读程序集的数百到数千倍。
这些组件,megabase叠连群multi-megabase支架,是真正的参考质量,使提高基因组的几乎每一个方面:分析更加完整和准确的表示基因的临床相关的单核苷酸多态性,监管区域和其他重要基因元素,以及更好地解决整个染色体的组织。
        可用的最高质量的基因组是由最长的可能读序列最长的可能的映射信息组合而成的。有趣的是,读取的每个核苷酸错误率对每个核苷酸组装序列的准确性几乎没有影响,因为经过调优的算法可以有效地将即使是30%的每个核苷酸错误率降低到1%以下,并且有足够的覆盖率。我们对可用装配体的元分析以及我们提供的建模表明,使用当前可用的长读技术,可以为大小为100Mbp的基因组装配几乎完整的染色体。对于较大的基因组,通过严格的短读测序可以获得较大的收益,其结果接近或超过更古老、更昂贵的BAC-by-BAC或基于化石的组合。如果项目需要更高质量的程序集,该模型还可以预测这些数据何时可用。特别是对于人类基因组来说,完整染色体的平均读取长度需要超过150kbp。如果历史趋势继续下去,这可能在3至4年内实现。当这一里程碑达到时,很可能许多项目将从完全组装好的基因组开始,而不是从变体列表开始,这为研究大种群中的结构变异开辟了新的机会。

我们的分析包括将已发表的参考基因组的模拟解读作为其效用的上限:我们分析的基因组存在缺口和错误,掩盖了它们的真实复杂性,而我们模拟的解读既不包含错误,也不存在杂合性。在实践中,研究人员可能需要对基因组进行比预期更多的取样,以解释存在的任何残留错误或偏差。事实上,虽然我们的分析表明,20 x的报道一个基因组应该足以组装基因组,我们建议研究人员样本> 75 x当使用新的长读测序技术使纠错措施最有效,确保高覆盖率最长的读取。理想情况下,如果预算和样本材料允许,我们建议使用单倍体或近亲繁殖的样本,将20倍的错误纠正读长仅超过20kbp的范围进行装配。我们还提醒研究人员仔细监测该领域的发展,因为所有这些技术都在迅速发展,新技术已经在开发中。PacBio和Oxford Nanopore公司都宣布今年将推出产量更高、成本更低的仪器,新的10X和燕尾技术正在迅速改进。

Third-generation sequencing and the future of genomics 第三代测序和基因组学的未来相关推荐

  1. Corrigendum: A window into third generation sequencing

    Corrigendum: A window into third generation sequencing  勘误表:第三代测序的窗口 抽象 第一代和第二代测序技术引领了基因组学领域及其他领域的革命 ...

  2. Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术

    Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术 Within just the past few years, ne ...

  3. The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术对植物基因组组装的影响

    题目:The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术  对植物  基因组组装 ...

  4. Genome Sequencing and Assembly by Long Reads in Plants植物基因组的长读测序与组装

    Genome Sequencing and Assembly by Long Reads in Plants 植物基因组的长读测序与组装 Abstract: Plant genomes generat ...

  5. A Crowdsourcing Method for Correcting Sequencing Errors for the Third-generation Sequencing Data 一种用

    A Crowdsourcing Method for Correcting Sequencing Errors for the Third-generation Sequencing Data 一种用 ...

  6. 第三代测序技术的主要特点及其在病毒基因组研究中的应用

    第三代测序技术的主要特点及其在病毒基因组研究中的应用 来自 万方  喜欢 0 阅读量: 344 作者: 袁易,王铭杰,张欣欣 摘要: 随着基因测序技术的创新和应用,新的高通量测序技术不断涌现,以Pa ...

  7. 拼接(  read----contigs)和组装(contigs---Scaffolds)

    DNA是生物体遗传信息的主要载体,高质量的基因组参考序列是现代遗传学.分子生物学等现代生物学科的重要基础. 因此,基因组测序对探索与认识生命本质等基础生物科学研究.人类重要遗传病防治及动植物遗传育种 ...

  8. 外显子和基因组基本概念(一)

    聊生信团队近期梳理了一些外显子和基因组相关的基本概念,便于理解后续的相关生信分析. 基因组(Genome):分子生物学和遗传学领域中指生物体所有遗传物质的总和,包括DNA或RNA(病毒).DNA具体包 ...

  9. Long-read sequencing for improved analysis

    OEM代工 ,NGS ,Tecan合作 ,基因组学 ,Cavro ADP 下一代测序现已在整个生命科学领域得到广泛使用,但是常用的短读测序方法经常会受到GC碱基对的影响.结合短读数固有的作图模糊性,通 ...

最新文章

  1. [置顶] 面向业务开发应用
  2. codevs1137 计算系数
  3. Python 可视化近 90 天的百度搜索指数 + 词云图
  4. 管理者和领导者有哪些区别?
  5. 【DIY】不到20元,升级热水器加装远程wifi控制功能,esp8266远程红外控制热水器启动...
  6. SAP OData Total = 80是这样计算出来的
  7. Loadrunner多服务器连接问题
  8. 获取请求的url java_Java获取此次请求URL以及服务器根路径的方法
  9. js面向对象与java面向对象的区别,被坑了,js语法跟Java面向对象语法还是有区别的...
  10. 在Word里使用部分正则表达式
  11. 第四范式完成超10亿元C轮融资,估值12亿美元
  12. yolov5数据集标注txt2xml和xml2txt
  13. 一套键鼠控制多台电脑的使用方法,快收藏
  14. 理财U15 累积投票与可赎债估值 习题解读
  15. python恶搞小程序 画樱花树+启动摄像头+拍照+通过邮件发回+删除照片
  16. You need to prove you’re evil cheap nike air max
  17. java实现批量注册_Java写的批量域名注册查询程序
  18. 四层交换机实现负载均衡
  19. nginx 配置之 proxy_pass参数详解
  20. php 正则表达式 环视,正则表达式教程五 —— 环视(零宽断言)

热门文章

  1. 投稿数翻倍,接收率不到三成!史上最难的ECCV你中了吗?
  2. Git使用教程:超详细、超傻瓜、超浅显、真正手把手教!
  3. 日志处理模块----logging
  4. Science | COVID-19大流行期间,研究重点应放在高质量研究
  5. AI提高药物发现效率 | ML,Supercomputers and Big Data
  6. RDKit toolkit实战三:描述符计算及可视化
  7. KerGNNs:结合Graph kernels的可解释GNN
  8. Linux下编译运行C程序
  9. html语言文字闪烁,html+CSS3实现的文字闪烁特效
  10. php框架里有模版引擎吗,Yii框架用模版引擎了吗?_PHP开发框架教程