Genome Biology于2013年7月刊发表的一篇题为《The advantages of SMRT sequencing》的综述,作者分别是大名鼎鼎的诺贝尔奖得主Richard Roberts、美国Broad研究院的计算生物学家Mauricio Carneiro、美国冷泉港实验室的生物信息学家Michael Schatz,他们三人可谓是新一代测序应用的风云人物,分别用SMRT测序技术开辟了甲基化组学、基因分型验证混合拼接组装等方面的突破性进展,相信看过全球访谈系列的读者都能耳熟能详了。


 
该综述开篇名义,在新一代测序技术中,SMRT测序往往因通量小和一直以来的关于准确率低的谣言而被忽视,但事实上,超长读长、实时检测碱基修饰、超高精度这三个特点正使得SMRT成为完成小基因组完整测序的最理想工具。综述的目的是为了给三代技术答疑解惑提供提纲式的论据框架,并推荐最具代表性的文献,所以文末的18篇参考文献是三代在小基因组测序应用中的集大成者。综述也再次重申了测序的意义,认为不能为了测序而测序,测序只是手段,是开端,目的是为了发现功能基因,回答基因功能和疾病表型的关联,不能获得可注释级别的精细图甚而完整图的任何测序行为绝不是科技转化的驱动力。

因此,在启动大量经费进行大规模测序时,理性地进行项目评估是必须要率先迈开的一步。比如综述给了某个5.2 Mb炭疽基因组(B._anthracis Ames Ancestor)进行读长评估的例子,同样的覆盖度下100 bp读长最终获得98个Contig,1000 bp读长最终获得31个Contig,5000 bp读长最终获得1个Contig。基于短读长和偏好扩增的二代技术实现的只能是大量的片段化组装,要完成完整或精细组装还需要额外的实验操作和后续测序,总费用将非常昂贵。

综述引用的其中两篇文章(Finished bacterial genomes from shotgun sequence data. Genome Res 2012, 22:2270-2277.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. [http://arxiv.org/abs/1304.3752])都提到了测序评估和成本比较,这个成本是在完成基因组完整测序的基础上计算的,而且不再是以往的以$/Mb计算,因为深谙测序韬略的有识之士心里都清楚,单纯的数字游戏是不能给项目成本预算提供任何实质性帮助的。

其中《Reducing assembly complexity of microbial genomes with single-molecule sequencing》这篇文章给出的分析最为详尽,发起人是美国国家生化防卫分析与对策中心(NBACC)的Sergey Koren和Adam Phillippy以及美国农业部(USDA)的Timothy Smith等人。

他们为了评估测序项目,在数据库中找了2267种已经获得完整基因组图谱的微生物和古菌,并根据内部重复序列的长度分成三类:

第一类在数量上占69.07%,基本上只含有0.5-5 Kb长度的重复序列;

第二类占7.59%,主要含5-7 Kb长度的重复序列;

第三类占23.33%,含有7 Kb以上长度的重复序列。

然后他们分别采用代表二代的500 bp读长序列和代表三代的5000 bp读长序列,通过软件算法进行模拟拼接,主要评估读长能否在全基因组范围内跨越所有的重复序列,以Gap数量作为最终评估指标,而覆盖度方面,

二代假设成无限程度覆盖模式,三代仅用50-200X。最终的结果是:第一类中,以Bacillus anthracis Ames为例,三代方法能拼成完整图,但二代方法还留有20个Gap;第二类中,以Yersinia pestis CO92为例,

三代方法同样能拼成完整图,但二代方法还留有161个Gap;第三类中,以Escherichia coli O26:H11 11368为例,三代方法仅留有16个Gap,但二代方法还留有171个Gap。考虑到以上只是软件模型模拟出来的结果,他们还专门选择了6个菌株分别在PacBio、454、MiSeq平台上进行实际测序,最终验证了这一模型的可靠性。且PacBio经Quiver打磨后的精度达到并超过了99.99995%,而一般完成基因组完整图的精度级别在99.999%,所以PacBio在精度上完全胜任。

在对三代试剂更新换代进行一番分析后,他们继续得出结论,相当于用三代方法,近75%的微生物和古菌基因组都可以获得完整图,或者说99%都可以控制到Gap数量10个以内,覆盖度则需要50-200X,一般情况下都是100X,100X以上的部分对组装的贡献几乎为零,即100X三代数据几乎可以包打天下(他们发现组装效果和基因组大小之间不存在明显对应关系,即这套模拟的结论同样可以应用到大型基因组上);而二代数据即使用到无限级覆盖度,都不能获得完整图,因此后续方案设计和高昂费用将是个噩梦。

那么后续的补洞费用到底有多高昂呢,或者说真正意义上获得完成图的总费用到底是多少呢?!直接综合两篇文章(Finished bacterial genomes from shotgun sequence data. Genome Res 2012, 22:2270-2277.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. [http://arxiv.org/abs/1304.3752])的分析,费用数据主要来自Duke大学和Illinois大学的实验室和外部合作机构,我们来看下总的结果。假如用Illumina平台对5 Mb基因组进行测序,采用ALLPATHS组装,之后预留50个Gap必须手工填补,总共需要花费$ 13,124。

如果这些Gap后续用PacBio长片段测序去填补,成本直接缩小至$2,952。那么这个成本算是终极廉价了吗?就怕你不敢想象!

不要忘了,NGS测序容易引入系统误差,尤其是早期NGS系统。既然如此,不如干脆忘掉早期NGS数据,推倒重来吧!假如换成PacBio从头测序,用没有升级的RS系统,一个SMRT Cell产出125 Mb数据量,那么一个5 Mb基因组需要花费6个SMRT Cell(100-150X),成本是$1,625,得到完整基因组图谱。

更进一步,假如换成升级后的RS II系统,用XL-C2试剂盒,一个SMRT Cell的通量大约500 Mb,仅用一个SMRT Cell就可以获得100X覆盖度,算上建库、质控、测序耗材总共花费为$ 636.96,得到的就是完整基因组图谱,不需要后续补洞。

文章作者没有进一步计算,但考虑到PacBio在2013年Q4又推出了P5试剂盒,平均读长达到了8500 bp,通量达到了0.8-1 Gb/SMRT Cell,如此一来,对一个5 Mb基因组进行从头测序,仅需$400。$13,124+X(X为Illumina测序成本)对比$400,如果这个成本都不会选择,科学家们就要被中国大妈耻笑了。

因此,无论从项目评估和测序成本两方面进行考量,三代测序技术都是最优的,更何况还可以在测序同时实时检测碱基修饰,这也无怪乎业界已经将三代测序定义为微生物测序领域的金标准。

评估考核还可以适当引申到当下炙手可热的临床样本靶向测序领域,这需要从通量的角度上去做理性的选择。

比如在样本数量不多的前提下,那么就完全可以选择三代作为主导做单倍体分型、稀有突变鉴定、mRNA可变剪切、未知碱基修饰等精细分析,但如果样本数动辄几万例,那么只能选择高通量的二代作为主导做传统的已知突变筛查等工作,此时三代可以在复杂基因分型场合作配合验证。

所以三代测序还有必要在通量上不断寻求突破,就技术而言,这是它与二代相比的唯一弱点。

The advantages of SMRT sequencing相关推荐

  1. Advantages of genome sequencing by long-read sequencer using SMRT technology in medical area

    因为短读长测序仪丢失了太多基因组元件信息,该团队用PacBio的长读长测序仪作为替代.他们写道:"与其他测序技术相比,PacBio RS II具有四个主要优点:长读长.高一致性.低偏差.同时 ...

  2. PacBio SMRT Sequencing

    细节 CD Genomics 提供 PacBio SMRT 测序以补充我们的 NGS 设施.通过利用 PacBio 开发的长读长和单分子测序能力,我们很自豪能够提供先进的基因组 从头 组装解决方案和全 ...

  3. 三代测序(SMRT Sequencing)

    三代测序(SMRT Sequencing) 白墨 目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single ...

  4. A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio

    A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio     由Pa ...

  5. Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical dia

    Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical dia ...

  6. 图解三代测序(SMRT Sequencing)

    目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)S ...

  7. Single Molecule Real-Time Sequencing

    Single Molecule Real-Time Sequencing Published July 9, 2016 Recently, I have witnessed the uprising ...

  8. Long-read sequencing for improved analysis

    OEM代工 ,NGS ,Tecan合作 ,基因组学 ,Cavro ADP 下一代测序现已在整个生命科学领域得到广泛使用,但是常用的短读测序方法经常会受到GC碱基对的影响.结合短读数固有的作图模糊性,通 ...

  9. 三代测序原理与数据文件简介(SMRT+Nanopore)

    三代测序原理与数据文件简介(SMRT+Nanopore) 一生雾梦 2019-12-03 20:48:42  1578  收藏 2 分类专栏: 前沿文献分析 文章标签: 三代测序(SMS) SMRT  ...

最新文章

  1. 解决远程桌面无法连接问题
  2. linux的模块化,GoboLinux 017 发布,模块化的 Linux 发行版
  3. python 中 pynlpir错误 Cannot Open Configure file pynlpir解决
  4. Vue parse之 从template到astElement 源码详解
  5. 魅族使用华为鸿蒙,魅族官宣接入华为鸿蒙,以后我们还能用魅族自家的flyme系统吗?...
  6. 【Java】俄罗斯方块Java版
  7. 【Windows Server】由于没有远程桌面授权服务器可以提供许可证
  8. 作为一个新手程序员该如何成长
  9. VS Code、Atom、​Sublime Text:谁才是真正的编辑器之王?
  10. Ubuntu 18.04.1 LTS 安装网易云音乐,告别图标无法点击
  11. 台式电脑有哪些零件组成 台式电脑主件的形象解释
  12. php 2038,php实现兼容2038年后Unix时间戳转换函数
  13. 数据安全--14--隐私保护治理浅析
  14. AI Conference:2018, 不容错过的世界人工智能大会 | 抢票
  15. react 实现渐变色背景样式
  16. Ubuntu、Linux、Unix的联系与区别
  17. 高龄白菜java学习第101天(java数据结构和算法(19))
  18. 卧槽!终于知道涛哥我为啥赚不到钱了
  19. 印度为何能频频培养出全球顶尖的程序员?
  20. Excel函数公式大全—函数真经

热门文章

  1. html点击屏幕向右移动,HTML – 一旦打开,如何使移动页面适合屏幕?
  2. 一文详解实时稀疏点云分割
  3. RGPNET: 复杂环境下实时通用语义分割网络
  4. java Opencv 图片修复 Photo
  5. OpenCV java 线性滤波(16)
  6. java opencv4.40图片实现人脸识别(2)
  7. Python生物信息学③提取差异基因
  8. java fseek_转到C中的二进制文件的某个点(使用fseek),然后从该位置读取(使用fread)...
  9. Conda 为什么越来越慢?
  10. STE:中科院微生物所胡松年组揭示一年内医院ICU环境菌群的生物多样性