Understanding Accuracy in SMRT Sequencing

【字体: 大 中 小 】 时间:2015年04月29日 来源:基因有限公司

编辑推荐:

  第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达10-15kb(*长>40kb),这是如何实现的呢?这是因为SMRT技术在与DNA测序精确度相关的三个方面均有独到之处……

介绍

第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达10-15kb(*长>40kb),这是如何实现的呢?这是因为SMRT技术在与DNA测序精确度相关的三个方面均有独到之处:

1. Consensus accuracy(一致性准确性)
2. Sequence context bias(测序偏好性)
3. Mappability of sequence reads(测序reads的map表现)

本文将从专业客观的角度从这三方面详细阐述SMRT测序技术的表现,图文并茂,数据详实,请各位看官留步,细细品味。

*Let Professionals Serve Professionals基因有限公司 www.genecompany.com*

1. Consensus accuracy(一致性准确性)

一个典型的测序过程通常包括三个基本步骤:(i)生成测序reads,(ii)将生成的reads mapping到已知的参考序列上,(iii)为了得到*终的序列而生成consensus。如果DNA样本是未知起源的,那么第(ii)步就会被de novo基因组组装所代替,以便生成一个新的参考基因组。*后一步是将原始测序reads mapping到assembly结果。

为了使大家更好的理解SMRT测序技术是怎样达到准确度>99.999%的,图1我们先来review一下在second-generation sequencing系统中,测序结果是怎样得到的。

在这个例子中,一条120bp的read被mapping到参考基因组上,红色箭头表示与参考基因组不一致的碱基。但是我们不能单凭这一条read的mapping结果就给出生物学结论,因为我们不知道这种不一致究竟来自于真正的生物学变异还是仅仅是由于测序错误导致的。同样,单凭一条read也无法call出heterozygous SNPs,因为在这种变异里,我们至少需要来自父方和母方染色体的各一条read。因此,要想获得真实准确的生物学发现,必须通过将多条reads进行averaging,然后与参考基因组的相同区域进行map,换句话说,需要进行building consensus。

在这个例子中,来自于10条reads的average序列信息(相当于10?#65289;被用于判断与参考位置究竟是match,还是homozygous SNPs,亦或是heterozygous SNPs。那么,同样的策略其实也被用于SMRT测序技术中(见图2)。


 
SMRT测序可以产生更长的reads(平均读长可达10-15kb,*长>40kb),但是为了与图1一致,便于理解,我们在图2还是只看120bp的长度。虽然在SMRT技术中,single-pass reads更容易出错(平均错误率11%),这些错误主要由于deletions(水平红线)和insertions(垂直红线)引起。考虑到SMRT-sequencing reads的这些特征,Pacific Biosciences公司开发了名为BLASR1的mapping工具,专门为mapping SMRT-sequencing reads进行了优化。尽管单次读取(single-pass)的错误率稍高,但是使用BLASR还是可以准确的将SMRT-sequencing reads mapping到参考序列的相应位置。因此,正如图1中二代测序的例子一样,无论哪种采用技术,没有人会关注一个碱基只被测一次的结果,*终结果都是经过consensus分析之后得到的,比如,当做到10?#30340;时候,每个位置的序列信息就是由10次读取之后产生的平均结果而定(如图中垂直的框)。所以,对于PacBio三代测序来说,针对每一个碱基,10次读取中有9次都是正确的,足够让我们判断出该位置的正确信息。

根据SMRT-sequencing reads的这一特点,PacBio公司也开发了一个名为Quiver的consensus工具,可以生成高质量的consensus序列(www.pacbiodevnet.com/Quiver)。

然而,如果测序方法本身存在系统错误,无论consensus之后的序列是不是正确,测序结果都将会受到影响。也就是说,如果某个碱基被系统地读错,那么在consensus之后它也仍然是错的,且这一错误是无法通过增加coverage克服的。而SMRT测序技术的consensus准确率之所以能够>99.999%,*关键的一点就是由于single-pass的错误是随机错误,这意味着随着coverage的增加,这种随机错误可以很快被消减掉。这点已经有多篇publications进行了理论及实践验证2,3。图3说明了SMRT测序的准确度与coverage之间的关系,星号代表与reference达到100%一致。


 
为了判断准确度是否能达到QV50或以上,需要把consensus序列与已知的精准的参考序列相比较(例如已有金标准参考序列的物种)。可以采用某些已被Sanger测序广泛测过的细菌基因组作为标准,如E.coli和S.aureus。该图表明了虽然SMRT-sequencing reads的单次读取的准确性比其他方法略低,但是一旦增加coverage,准确率就可以快速提升,很多情况下可以实现完美的参考基因组。我们可以从Table 1看到,SMRT测序的准确性甚至可以达到>QV60,也就是1百万个碱基里面只发生1个碱基错误。

SMRT Sequencing的consensus准确率可以超越其他测序方法,就是因为它是随机错误。这也是很多研究都采用SMRT Sequencing来验证基于其他平台发现的SNPs的根本原因2,4-Table 1中高亮显示的就是consensus之后的准确性。在该例中,对于任何测序平台来说,有意义的也都是consensus结果,而非单次读取的结果。

图4是关于SNP验证的代表性的例子,直接用SMRT测序数据验证Illumina测序平台产生的SNP call,清楚表明了SMRT测序准确识别生物学变异的能力。

如何理解PacBio的准确度?相关推荐

  1. 精确度,准确度,精密度关系

    1.精确度,准确度,精密度的关系 三者得关系大体可以理解为,准确度+精密度 = 精确度,准确度反应距离真值得偏差,精密度反应测量得稳定性,精确度反应二者之综合. 三者得主次关系:精密度>准确度  ...

  2. 史上最全的长读长数据校错方法大比拼

    A comparative evaluation of hybrid error correction methods for error-prone long reads               ...

  3. 关于QVariant 的学习一点分享

    关于QVariant 的学习一点分享 目录 **关于QVariant 的学习一点分享** Variant类的开发手册解读 QVariant 类的支持的类型: 常用函数: QVariant 变量在类之间 ...

  4. 数据分析模型 第十一章

    仿真法,自助法 仿真法/统计模拟方法(simulation based methods) 自助法(Bootstrap method) 三. 结语 在最后一章,小弟为大家介绍两个统计方法,说老实话,这两 ...

  5. 【AI】图灵奖得主 Yann LeCun 最新文章 :自监督学习,人工智能世界的“暗物质”...

    来源:AI前线 作者:Yann LeCun ,Ishan Misra 近年来,AI 产业在开发"可以从大量经过细致标记的数据中学习的 AI 系统"这个研究领域上取得了巨大进步.这种 ...

  6. ChatGPT 是什么?

    ChatGPT是一个基于人工智能技术的对话系统,旨在实现与用户进行自然交互和对话.这个系统采用了GPT(Generative Pretrained Transformer)技术,能够通过学习海量文本数 ...

  7. 贝索斯发布年度致股东信:亚马逊要高标准满足客户-20180420

    金融界美股讯:当地时间本周三,亚马逊首席执行官杰夫·贝索斯(Jeff Bezos)公开其年度致股东信.在信中,贝索斯强调了运营业务时设立高标准的重要性.通过设立高标准,公司能够实时满足消费者不断提升的 ...

  8. 我们在文本摘要方面取得了什么成就?

    论文:<What Have We Achieved on Text Summarization?> Dandan Huang1,2∗, Leyang Cui1,2,3∗, Sen Yang ...

  9. 2018年度托福考情分析——听力篇

    http://toefl.xiaoma.com/tuofuzixun/20190102/481820.html http://km.xhd.cn/news/777383.html 听力部分 纵观201 ...

最新文章

  1. 从洗牌算法谈起--Python的random.shuffle函数实现原理
  2. openstack运维实战系列(十)之nova指定compute节点和IP地址
  3. Oracle外键需要建索引吗?
  4. 从零写一个编译器(十一):代码生成之Java字节码基础
  5. intersect函数_PHP array_intersect()函数与示例
  6. 阶乘末尾连续零的个数
  7. HLSL内置函数一览
  8. 【转载】StreamInsight系列-QueryTemplate\QueryBinder\Query
  9. 10 分钟上手 Vim 编辑器,常用命令大盘点!
  10. Net share 命令详解
  11. VPS好用吗?VPS和物理机怎么选择?
  12. 移动端 touch事件
  13. 捷豹:车到用时方知养,可知彼时恨太迟
  14. Re: 客户协作 OVER 合同谈判
  15. 3900x做服务器性能怎么样,AMD Ryzen 9 3900X评测:向消费级性能王者宝座进发
  16. 贵州大学oj C++ 第五次 12.房产税费计算
  17. 嵌入式系统开发笔记81:嵌入式系统的本质
  18. 微机原理与接口技术[第三版]——第五章课后习题答案
  19. 基于 短信认证 通过 华为、H3C 结合 OpenPortal认证计费系统 实现 网络准入 短信验证码 访客实名认证
  20. The Pilots Brothers refrigerator's 题解

热门文章

  1. 公差基本偏差代号_《公差配合与技术测量》试题答案卷
  2. confirm弹窗确定按钮换文字_第二章(第9节):弹窗处理
  3. YOLOV5 的小目标检测网络结构优化方法汇总(附代码)
  4. 如何改进YOLOv3使其更好应用到小目标检测(比YOLO V4高出4%)
  5. 妙啊!不怕遮挡的图像线段匹配 SOLD2,还能联合自监督线段检测|CVPR2021 Oral
  6. ECCV2020 最佳论文提名 | 流感知技术
  7. 从原理到实操,看当前最佳的YOLO V4是如何炼成的?
  8. 立体相机开发|几何感知的实例分割
  9. 中国女博士的「水淹食堂」大法:单目视频完美重建3D场景,画面毫无违和感...
  10. News | 经有限数据研究显示瑞德西韦有望治疗冠状病毒患者