不用在读长和准确性之间做选择题,PacBio发表新方法

来源: 2019/8/19 16:21:56      点击:125

从一开始,研究人员似乎就面临着艰难的选择。一边是Illumina产生的短序列,高度准确但读长很短,另一边则是Pacific Biosciences和Oxford Nanopore产生的长序列,但准确性却无法让人满意。研究人员的梦想是拥有既长又准确的测序读数。

如今,PacBio研究团队对现有的单分子实时测序(SMRT)技术进行了调整,让人们离这个目标又近了一步。这篇题为“Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome”的论文于本周发表在《Nature Biotechnology》杂志上。

“文章首次介绍了一种方法,能够产生既长又准确的读长,”PacBio生物信息学首席科学家Aaron Wenger指出,他也是这篇论文的第一作者。这种新方法是基于PacBio的环状一致性测序(CCS)模式。

PacBio的CCS系统是在线性DNA分子的两端连接发夹结构的接头,以形成SMRTbell模板。聚合酶从接头处出发,不断添加碱基,产生序列读数。它通过这种方式在两个接头之间来回走动,产生HiFi(高保真)读数。通常,CCS不被认为是长读长技术。Wenger指出,这种高准确性的代价就是读长只有1-2 kb。不过,他们如今利用CCS方法生成了长度超过10 kb的准确读数。

他们是如何做到的呢?Wenger表示,文中提到的一个关键创新点是“预延伸”。由于PacBio测序依赖于不断拍照的相机(就像电影一样),聚合酶之间都是彼此独立的。它们不断添加核苷酸,直至失去活性。

聚合酶脱落有各种原因,通常是因为DNA受损。为此,PacBio将重点放在DNA质量上。他们设计出一种方法,最大限度减少受损DNA的上样机会。Wenger表示,他们在上样DNA之前就开始测序反应,延伸几小时之后,如果聚合酶仍然存在,则可断定DNA没有受损。选择性地上样DNA是利用CCS方法产生长读数的关键。

此外,研究人员还利用SageELF仪器来确保所选DNA分子的大小相同。因为他们一旦知道分子的大小,就清楚预延伸的最佳持续时间。这种新颖的调整也是关键点,因为它能够让聚合酶在测序仪内部持续工作更长时间。

PacBio读数通常有着相当高的错误率(大约在15%,而Illumina在0.1%),但这些错误往往是随机的,因此如果相同的区域被测序多次,则会产生一致性(consensus)序列。比如说错误率为1%,测序深度为100X,那么99条读数可能都显示“A”,而有一条读数显示“G”。这时你就可以确定碱基是“A”而忽略“G”。

在这篇论文中,PacBio研究人员表示他们可以通过多次读取相同分子(平均约10次)来实现超高质量的PacBio测序。这意味着他们最终得到的CCS读数的错误率与Illumina读数大致相同,但长度却比Illumina读数要长得多。

通过这种方式,他们产生了高度准确(99.8%)的HiFi读数,平均长度在13.5 kb。他们用新方法对研究透彻的HG002/ NA24385人类基因组进行测序,发现单核苷酸变异(SNV)的检出率为99.91%,插入缺失(< 50 bp)为95.98%,而结构变异为95.99%。

许多研究人员对新方法表示期待,认为这是迈出了一大步。Inscripta公司的Deanna Church博士则提出了polish的问题,她想了解这种新方法是否仍然需要。polish是指将PacBio长读数与Illumina短读数结合起来。通常,将短的Illumina序列覆盖在长的PacBio序列上,对其进行polish,或找出错误在哪里。

Wenger表示,这种方法不需要polish。“这些读数的原始准确率在99.8%左右,这与短读数的准确性相似,”他说。不过,他也指出,尽管错误率相似,但错误类型不同。插入缺失可能是PacBio测序容易栽跟头的地方,这是由测序性质决定的。

既然这么优秀,为什么不是每个人都切换到这种技术?Ginkgo Bioworks的首席科学家Keith Robison认为,主要障碍在于成本。“每个PacBio流动槽只能提供这么多的读数,因此你只能选择大量质量较高的读数,或者选择少量质量超高的读数,”他指出问题在于实验室愿意支付多少费用,以较少的通量换取较多的变异信息。

未来,除了人类基因组学方面的应用,这种方法也有望应用在宏基因组学以及动植物基因组的组装上。

原文检索

Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome

Nature Biotechnology (2019)

不用在读长和准确性之间做选择题,PacBio发表新方法相关推荐

  1. TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法

    <TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...

  2. 史上最全的长读长数据校错方法大比拼

    A comparative evaluation of hybrid error correction methods for error-prone long reads               ...

  3. RNA-seq需要多长的读长?

    Genome Biology:RNA-seq需要多长的读长? 随着新一代测序(NGS)的读长在不断增长,研究人员也开始纠结:到底多长的读长才合适?双端测序是不是优于单端测序?近日,康奈尔大学维尔医学院 ...

  4. 不用去读长江商学院了!!!精髓全在此!

    不用去读长江商学院了!!!精髓全在此! 经营者要知道的11组数据    1.老板利润:15%-20%,低于20%说明管理不力,要调整.低于15%属于投资失败. 2.人员工资:17%-22%,高于22% ...

  5. 读《我们现在怎样做父亲》想到的

    读<我们现在怎样做父亲>想到的   初读鲁迅是在小学的时候,<从百草园到三味书屋>,还有叔叔的书法字帖上的<论雷峰塔的倒掉>,儿时的读物极少,所以反复地翻着,虽然懵 ...

  6. 稍纵即逝,读博期间要注意的事情 / 读博期间一定不要做的事

    稍纵即逝,读博期间要注意的事情 读博期间一定不要做的10件事 tip:配图除了缓解文章疲劳,就没有其它意图了.   时间稍纵即逝,博士期间的科研时间其实非常紧张和短缺.对于刚入学的博士新生,尤其是直博 ...

  7. 引入Hub再生的最短帧长及主机之间距离的最大值计算

    引入Hub再生的最短帧长及主机之间距离的最大值计算 @(计算机网络) 首先看一道题.相关的一个小的知识点想了很久,查了很多书,资料,最后只能暗自说一句,找到有效信息真难.历时三个小时求索不得,出去吃了 ...

  8. CABasicAnimation,CAKeyframeAnimation,CATransition,CAAnimationGroup,UIBezierPath之间做动画的不同点和各自的使用范围。

    CABasicAnimation,CAKeyframeAnimation,CATransition,CAAnimationGroup,UIBezierPath之间做动画的不同点和各自的使用范围. CA ...

  9. 乐鑫Esp32学习之旅 18 入门京东微联·小京鱼的控制面板H5开发,读懂vue语法,做自己的控制页面。

    本系列博客学习由非官方人员 半颗心脏 潜心所力所写,仅仅做个人技术交流分享,不做任何商业用途.如有不对之处,请留言,本人及时更改. 1. 爬坑学习新旅程,虚拟机搭建esp32开发环境,打印 " ...

最新文章

  1. hdfs.DFSClient: Exception in createBlockOutputStre
  2. php后台登录页修改成ajax,使用php后台给自己做一个页面路由,配合ajax实现局部刷新。(示例代码)...
  3. VTK:二次抽取用法实战
  4. 计算机管理员相关知识,计算机管理员述职报告范文
  5. 高效实用Kafka-深入理解Kafka启动配置(使用kafka自身内置Zookeeper)
  6. Eclipse不编译java文件的解决方法
  7. 转:百度手机地图网络性能优化实践
  8. 【sampleDateFormat】对日期进行解析
  9. [渝粤教育] 郑州财税金融职业学院 玩转e时代 参考 资料
  10. HDOJ 1394 Minimum Inversion Number
  11. 配电网重构知识及matlab实现
  12. [橘汁仙剑网出品]仙剑奇侠传六全剧情视频动画配音版[1080P][720P][H264]
  13. java一键生成《数据库设计文档》
  14. 金书------LiYu's personal knowledge wiki
  15. 进位位判别法_判断加减法溢出时,可采用判断进位的方式,如果符号位的进位为C...
  16. pwm脉宽调制c语言程序,MCS-51系列单片机C语言编程PWM脉宽调制器程序模板
  17. 谷歌,互联网界的“彩蛋狂魔”
  18. JAVA入门第二季 第一章 类和对象
  19. 欧拉角和四元数之间是如何转换的?
  20. vulnhub靶机-djinn2

热门文章

  1. 一文详解LOAM-SLAM原理深度解析
  2. java2019 数据结构算法面试题_GitHub - sjyw/java-interview: 史上最全Java面试题汇总与解析(505道):2019最新版...
  3. com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'rtjhyt' in 'field list'
  4. Python之%s%d%f
  5. harmonyos分层,HarmonyOS开发--1、组件化的设计方案
  6. microsoft公式3.0_用了20年的word,居然不知道公式还可以这样输入
  7. 土壤微生态文献包免费领取 | 150篇近两年高影响因子土壤微生态相关文章
  8. 蚂蚁森林合种计划(2020.10.31,7天有效,每周更新)
  9. Science:固氮(The nitrogen fix)
  10. 下面属于java的object_在JAVA中,下列哪些是Object类的方法()