不用在读长和准确性之间做选择题,PacBio发表新方法
不用在读长和准确性之间做选择题,PacBio发表新方法
来源: 2019/8/19 16:21:56 点击:125
从一开始,研究人员似乎就面临着艰难的选择。一边是Illumina产生的短序列,高度准确但读长很短,另一边则是Pacific Biosciences和Oxford Nanopore产生的长序列,但准确性却无法让人满意。研究人员的梦想是拥有既长又准确的测序读数。
如今,PacBio研究团队对现有的单分子实时测序(SMRT)技术进行了调整,让人们离这个目标又近了一步。这篇题为“Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome”的论文于本周发表在《Nature Biotechnology》杂志上。
“文章首次介绍了一种方法,能够产生既长又准确的读长,”PacBio生物信息学首席科学家Aaron Wenger指出,他也是这篇论文的第一作者。这种新方法是基于PacBio的环状一致性测序(CCS)模式。
PacBio的CCS系统是在线性DNA分子的两端连接发夹结构的接头,以形成SMRTbell模板。聚合酶从接头处出发,不断添加碱基,产生序列读数。它通过这种方式在两个接头之间来回走动,产生HiFi(高保真)读数。通常,CCS不被认为是长读长技术。Wenger指出,这种高准确性的代价就是读长只有1-2 kb。不过,他们如今利用CCS方法生成了长度超过10 kb的准确读数。
他们是如何做到的呢?Wenger表示,文中提到的一个关键创新点是“预延伸”。由于PacBio测序依赖于不断拍照的相机(就像电影一样),聚合酶之间都是彼此独立的。它们不断添加核苷酸,直至失去活性。
聚合酶脱落有各种原因,通常是因为DNA受损。为此,PacBio将重点放在DNA质量上。他们设计出一种方法,最大限度减少受损DNA的上样机会。Wenger表示,他们在上样DNA之前就开始测序反应,延伸几小时之后,如果聚合酶仍然存在,则可断定DNA没有受损。选择性地上样DNA是利用CCS方法产生长读数的关键。
此外,研究人员还利用SageELF仪器来确保所选DNA分子的大小相同。因为他们一旦知道分子的大小,就清楚预延伸的最佳持续时间。这种新颖的调整也是关键点,因为它能够让聚合酶在测序仪内部持续工作更长时间。
PacBio读数通常有着相当高的错误率(大约在15%,而Illumina在0.1%),但这些错误往往是随机的,因此如果相同的区域被测序多次,则会产生一致性(consensus)序列。比如说错误率为1%,测序深度为100X,那么99条读数可能都显示“A”,而有一条读数显示“G”。这时你就可以确定碱基是“A”而忽略“G”。
在这篇论文中,PacBio研究人员表示他们可以通过多次读取相同分子(平均约10次)来实现超高质量的PacBio测序。这意味着他们最终得到的CCS读数的错误率与Illumina读数大致相同,但长度却比Illumina读数要长得多。
通过这种方式,他们产生了高度准确(99.8%)的HiFi读数,平均长度在13.5 kb。他们用新方法对研究透彻的HG002/ NA24385人类基因组进行测序,发现单核苷酸变异(SNV)的检出率为99.91%,插入缺失(< 50 bp)为95.98%,而结构变异为95.99%。
许多研究人员对新方法表示期待,认为这是迈出了一大步。Inscripta公司的Deanna Church博士则提出了polish的问题,她想了解这种新方法是否仍然需要。polish是指将PacBio长读数与Illumina短读数结合起来。通常,将短的Illumina序列覆盖在长的PacBio序列上,对其进行polish,或找出错误在哪里。
Wenger表示,这种方法不需要polish。“这些读数的原始准确率在99.8%左右,这与短读数的准确性相似,”他说。不过,他也指出,尽管错误率相似,但错误类型不同。插入缺失可能是PacBio测序容易栽跟头的地方,这是由测序性质决定的。
既然这么优秀,为什么不是每个人都切换到这种技术?Ginkgo Bioworks的首席科学家Keith Robison认为,主要障碍在于成本。“每个PacBio流动槽只能提供这么多的读数,因此你只能选择大量质量较高的读数,或者选择少量质量超高的读数,”他指出问题在于实验室愿意支付多少费用,以较少的通量换取较多的变异信息。
未来,除了人类基因组学方面的应用,这种方法也有望应用在宏基因组学以及动植物基因组的组装上。
原文检索
Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome
Nature Biotechnology (2019)
不用在读长和准确性之间做选择题,PacBio发表新方法相关推荐
- TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法
<TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...
- 史上最全的长读长数据校错方法大比拼
A comparative evaluation of hybrid error correction methods for error-prone long reads ...
- RNA-seq需要多长的读长?
Genome Biology:RNA-seq需要多长的读长? 随着新一代测序(NGS)的读长在不断增长,研究人员也开始纠结:到底多长的读长才合适?双端测序是不是优于单端测序?近日,康奈尔大学维尔医学院 ...
- 不用去读长江商学院了!!!精髓全在此!
不用去读长江商学院了!!!精髓全在此! 经营者要知道的11组数据 1.老板利润:15%-20%,低于20%说明管理不力,要调整.低于15%属于投资失败. 2.人员工资:17%-22%,高于22% ...
- 读《我们现在怎样做父亲》想到的
读<我们现在怎样做父亲>想到的 初读鲁迅是在小学的时候,<从百草园到三味书屋>,还有叔叔的书法字帖上的<论雷峰塔的倒掉>,儿时的读物极少,所以反复地翻着,虽然懵 ...
- 稍纵即逝,读博期间要注意的事情 / 读博期间一定不要做的事
稍纵即逝,读博期间要注意的事情 读博期间一定不要做的10件事 tip:配图除了缓解文章疲劳,就没有其它意图了. 时间稍纵即逝,博士期间的科研时间其实非常紧张和短缺.对于刚入学的博士新生,尤其是直博 ...
- 引入Hub再生的最短帧长及主机之间距离的最大值计算
引入Hub再生的最短帧长及主机之间距离的最大值计算 @(计算机网络) 首先看一道题.相关的一个小的知识点想了很久,查了很多书,资料,最后只能暗自说一句,找到有效信息真难.历时三个小时求索不得,出去吃了 ...
- CABasicAnimation,CAKeyframeAnimation,CATransition,CAAnimationGroup,UIBezierPath之间做动画的不同点和各自的使用范围。
CABasicAnimation,CAKeyframeAnimation,CATransition,CAAnimationGroup,UIBezierPath之间做动画的不同点和各自的使用范围. CA ...
- 乐鑫Esp32学习之旅 18 入门京东微联·小京鱼的控制面板H5开发,读懂vue语法,做自己的控制页面。
本系列博客学习由非官方人员 半颗心脏 潜心所力所写,仅仅做个人技术交流分享,不做任何商业用途.如有不对之处,请留言,本人及时更改. 1. 爬坑学习新旅程,虚拟机搭建esp32开发环境,打印 " ...
最新文章
- hdfs.DFSClient: Exception in createBlockOutputStre
- php后台登录页修改成ajax,使用php后台给自己做一个页面路由,配合ajax实现局部刷新。(示例代码)...
- VTK:二次抽取用法实战
- 计算机管理员相关知识,计算机管理员述职报告范文
- 高效实用Kafka-深入理解Kafka启动配置(使用kafka自身内置Zookeeper)
- Eclipse不编译java文件的解决方法
- 转:百度手机地图网络性能优化实践
- 【sampleDateFormat】对日期进行解析
- [渝粤教育] 郑州财税金融职业学院 玩转e时代 参考 资料
- HDOJ 1394 Minimum Inversion Number
- 配电网重构知识及matlab实现
- [橘汁仙剑网出品]仙剑奇侠传六全剧情视频动画配音版[1080P][720P][H264]
- java一键生成《数据库设计文档》
- 金书------LiYu's personal knowledge wiki
- 进位位判别法_判断加减法溢出时,可采用判断进位的方式,如果符号位的进位为C...
- pwm脉宽调制c语言程序,MCS-51系列单片机C语言编程PWM脉宽调制器程序模板
- 谷歌,互联网界的“彩蛋狂魔”
- JAVA入门第二季 第一章 类和对象
- 欧拉角和四元数之间是如何转换的?
- vulnhub靶机-djinn2
热门文章
- 一文详解LOAM-SLAM原理深度解析
- java2019 数据结构算法面试题_GitHub - sjyw/java-interview: 史上最全Java面试题汇总与解析(505道):2019最新版...
- com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'rtjhyt' in 'field list'
- Python之%s%d%f
- harmonyos分层,HarmonyOS开发--1、组件化的设计方案
- microsoft公式3.0_用了20年的word,居然不知道公式还可以这样输入
- 土壤微生态文献包免费领取 | 150篇近两年高影响因子土壤微生态相关文章
- 蚂蚁森林合种计划(2020.10.31,7天有效,每周更新)
- Science:固氮(The nitrogen fix)
- 下面属于java的object_在JAVA中,下列哪些是Object类的方法()