SMRT测序技术及其在微生物研究中的应用

唐勇1,2, 刘旭3

摘要:高通量测序技术的发展为研究者深入探索微生物世界提供可能。随着以Pacific BioSciences(PacBio)公司的单分子实时测序(Single molecule real time sequencing,SMRT)为代表的第三代测序(Third generation sequencing,TGS)技术逐渐发展成熟,微生物研究方法正面临又一次新的变革。SMRT测序技术凭借其特殊建库方式(SMRTbell)和超长的测序读长等特点,为微生物16S rRNA基因全长测序提供新的选择。同时,为组装完整可靠的宏基因组和微生物全基因组提供新方法。随着PacBio测序平台的成本大幅下降,SMRT测序技术的PacBio系列平台开始逐渐被应用于微生物16S rRNA基因测序、宏基因组测序和全基因组测序研究中。综述了SMRT测序技术的技术原理和特点及其在微生物16S rRNA基因全长测序、宏基因组测序等方面的应用,并分析了目前SMRT测序技术在微生物各方面研究中的优势和存在的问题,提出基于SMRT测序技术获得的长片段在后期分析中存在的问题。SMRT测序技术将越来越多地引入到微生物研究中,期望为将要选择使用SMRT测序技术研究微生物的研究人员提供一定参考。

关键词:第三代测序    单分子实时测序    微生物

SMRT Sequencing and Its Application in Microorganism Studies

TANG Yong1,2, LIU Xu3

Abstract: The development of high-throughput sequencing has provided power for researchers to further explore the microorganism. Along with rapid advances of third generation sequencing(TGS)technologies, especially single molecule real time sequencing(SMRT)developed by Pacific BioSciences(PacBio), methods of studying micro-organism are going through a revolutionary change. SMRT sequencing technology, for its special SMRTbell sequencing libraries and super-long reads length, provides a new choice for sequencing full length of 16S rRNA, and also provides a novel method for acquiring accurate and reliable metagenome and whole genome sequence of microbial species. With the cost of sequencing using SMRT sequencing technology remarkably reduced, a growing number of microbial studies will be performed with the PacBio series platform based on SMRT technology, including sequencing of 16S rRNA gene, metagenome sequencing, and whole genome sequencing. Here, we reviewed the principle and characteristics of SMRT sequencing technology and its application in full length sequencing of 16S RNA, metagenome sequencing, and transcriptome sequencing of microorganism. Further we analyzed the advantages and issues while SMRT sequencing technology is used in studying microorganism, as well as the potential issues of download analysis of SMRT reads. This review is aimed to provide advice or reference for researchers who will employ SMRT sequencing technology into microbial studies.

Key words: third-generation sequencing     SMRT     microorganism

以Sanger测序法[1]为代表的第一代测序技术为分子生物学研究带来一场彻底的变革。Sanger测序技术已经为分子生物学研究服务近40年,其为科学研究所作出的贡献有目共睹。尽管第一代测序技术有着其不可替代的优势,但是其低通量的缺陷终究无法完全满足研究需要。21世纪,测序技术发展进入快车道,第二代测序技术[2]和第三代测序技术[3]相继问世。以Roche/454[4]、Illumina/Solexa[5]等测序平台为代表的第二代测序技术解决测序通量和测序价格问题,引起生命科学研究方法大变革[6],但是,第二代测序技术也遗留下测序读长短的缺陷[7]。因此,为解决读长问题而发明的第三代测序技术应运而生[3]。

目前主流的第三代测序技术主要包括牛津纳米孔公司(Oxford Nanopore)的单分子纳米孔测序技术(The single-molecule nanopore DNA sequencing)、Helicos公司的真正单分子测序技术(True single-molecule sequencing,tSMS)和Pacific Biosciences(PacBio)公司的单分子实时测序技术(Single-molecule real-time,SMRT)[8]。其中,牛津纳米孔技术有限公司开发的单分子纳米孔测序技术以超长读长和轻便见长[9],然而,由于其测序错误率高达35%[10-11]无法在研究中推广;Helicos公司的tSMS测序技术费用偏高[12],项目基本处于停滞状态。目前,最成熟的第三代测序平台莫过于基于SMRT测序技术的PacBio系列平台。

测序技术的发展对微生物研究的推动作用明显,尤其是不可培养的微生物和复杂环境微生物的研究[13-14]。目前,微生物研究依然以第二代测序技术为主。但是,随着基于SMRT测序技术的PacBio系列测序平台的进一步成熟,其必将成为微生物研究者手中的另一柄利剑。因此,系统了解SMRT测序技术的特点及其在微生物研究中的应用进展,对微生物研究者具有指导意义。本文将介绍SMRT测序技术的原理和特点,详细列举SMRT测序技术在微生物16S rRNA基因全长测序、宏基因组测序和微生物全基因组测序中的应用,以及下游分析中存在的问题,旨为使用SMRT测序技术研究微生物的研究人员提供一定参考。

1 SMRT测序技术原理

和其他两个单分子测序技术原理一样,SMRT测序技术也采用边合成边测序的策略。SMRT测序技术的核心是零模波导孔(Zero mode waveguide,ZMW),ZMW是直径20-50纳米的纳米孔,底部固定有DNA聚合酶[15]。数百纳米的激光照着DNA聚合酶所在的ZMW底部而发生衍射照亮狭小的范围,从而刚好检测到进入ZMW底部的碱基所携带荧光基团,而避免背景干扰(图 1-A[16])。每个ZMW可以结合一个DNA模板,其测序过程(图 1-B[16])是:(1)DNA聚合酶捕获DNA单链模板并结合在活性位点上;(2)被不同染料标记的脱氧核苷酸进入ZMW底部检测区与聚合酶结合;(3)基于脱氧核苷酸在ZMW底部停留时间判断是否匹配;(4)被标记的磷酸基团被切割并释放[12]。

图 1 SMRT测序技术原理[16]

图选项

2 SMRT测序技术特点

作为第三代测序的基本特点,测序长度是SMRT测序技术的优势之一。Ferrarini等[17]使用PacBio RS平台,P4/C2试剂对叶绿体基因组进行测序,结果获得平均reads长度为3 936.66 bp,一致序列的平均碱基错误率为1.3%。Shearman等[18]使用最新的PacBio SR Ⅱ平台和C4试剂测序,成功获得长度大于26 kb的reads。理论上,在最新的PacBio SR Ⅱ平台下,使用P6/C4试剂测序能够获得的最长reads可以达到60 kb[16]。由于DNA聚合酶在激光的照射下会逐渐失活,因此其测序长度不可能永远增加[19]。

测序错误偏高是所有测序技术都面临的问题。基于纳米孔测序技术的MinION测序仪和基于SMRT测序技术的PacBio平台测序reads错误率分别达到40%和15%[11, 20]。然而,PacBio测序平台所产生的测序错误为随机分布的单碱基错误、插入或缺失[20-21],凭借这一特点,PacBio引入环化测序的策略成功将测序准确度提高,即将双链模板两端加载发夹结构接头,形成环状的测序模板(SMRTbell),然后对模板循环测序[22]。该测序方案可以保证相同碱基被多次测序,结合错误随机模型,采用多重比对可以修正错误碱基,从而获得高准确度reads[23]。该方案在全长16S rRNA基因测序、转录组测序等对reads长度要求相对较低,但是对测序准确度要求较高的研究中非常有效[24-25]。

测序速度快是SMRT测序技术的另一特点。相比动辄运行数天的第二代测序技术,SMRT测序技术每个run运行时间最短近0.5 h[16]。虽然,每个run输出的数据量远远不及Hiseq2500等第二代测序技术,但是在对时间要求较高的情况下,SMRT测序技术无疑极具优势(表 1),如在临床检测或者疫情爆发等情况下。

表 1 主要高通量测序仪器参数[16, 26-28]

表选项

3 SMRT测序技术在微生物研究中的应用3.1 微生物16S rRNA基因测序

自2006年,Sogin等[29]首次成功将高通量测序技术(罗氏454)用于深海环境微生物多样性调查,16S rRNA基因高通量测序片段选择一直存在争议[30],全长DNA测序无疑可以彻底终止这一争论。SMRT测序技术在复杂环境微生物的研究中所具备的优势已经被多次证实[24, 31]。随着SMRT测序技术的技术成熟和测序成本降低,第三代测序技术在16S rRNA基因测序中的应用越来越多。

肠道微生物与宿主的生长、免疫和健康息息相关,对肠道微生物调查有利于对相关疾病的标记与治疗。2013年,Hu等[32]采集23个采用不同分娩方式出生的新生儿的粪便(10个孩子母亲患有糖尿病和13个孩子母亲未患糖尿病),采用PacBio RS平台测序粪便中16S rRNA基因的V3-V4区,分析PASS数大于3的CCS reads,结果得到与其他实验相反的结果:不同分娩方式对新生儿的粪便微生物没有影响,而母亲患病状态对新生儿肠道微生物组成有显著的影响。泡菜中含有大量乳酸菌和其他杂菌,四川家庭自制泡菜微生物的组成并不清楚。2017年,Cao等[33]在重庆7个地区采集到38份10年以上的泡菜盐水,通过滴定法分为高酸度、中等酸度和低酸度3组。采用SMRT测序技术(PacBio SR Ⅱ /P6-C5)对38个样本的16S rRNA基因全长进行测序。通过分析聚类和注释分析得来自371个属的593个种(包括35个门),其中,Lactobacillus acetotolerans的丰度与酸度呈正相关。此外,Serratia marcescensStenotrophomonas maltophilia等机会致病菌也在样本中检测到。酸度越低,物种多样性越高,乳酸菌属内的菌种越多(丰度大于1%),机会致病菌越多。该研究为自制泡菜的进一步研究提供了参考,且表明需要对自制四川泡菜内的机会致病菌深入研究。

3.2 宏基因组测序

宏基因组是指环境中的所有微生物基因组的总和[34-35]。2000年,Rondon等[35]首次通过构建宏基因组文库研究土壤微生物多样性,并开启了环境微生物研究的新篇章。随着高通量测序价格大幅下跌,获得大批原始宏基因组测序数据已经不再是难题,而真正的研究瓶颈在于数据分析环节。其中,微生物参考基因组缺乏是宏基因组数据分析主要障碍。目前,已有参考基因组的微生物数量与自然界存在的微生物数量相去甚远(表 2)。因此,从复杂的宏基因组数据中完整而准确地构建微生物基因组草图成为分析流程的首要任务[36]。第二代测序技术由于测序片段短的问题导致组装困难,第三代测序技术有望彻底解决这一问题。

表 2 微生物参考基因组统计

表选项

2016年,Frank等[37]采用Hiseq2000和PacBio RS Ⅱ两种平台结合的测序方式对沼气反应器内的微生物宏基因组进行研究。其中,构建插入片段为1.5 kb的SMRTbell文库使用P4/C2试剂测序。分别单独组装两份数据,再采用混合组装的方式组装。结果表明,混合组装的方式得到的组装序列长度高于单独组装。该试验结果表明SMRT测序技术对微生物宏基因组研究有提高作用。Frank等采用混合的方式是考虑SMRT测序技术测序成本(深度)的问题,而采用较为折中的方案。事实上,随着PacBio系列测序平台的普及和价格快速下降,SMRT可以完全取代第二代测序。2017年,Driscoll等[38]从美国克拉马斯湖中采集水样并共培养。然后采用PacBio测序平台进行宏基因组测序并得到348 623条平均长度达到7 737 bp的PacBio reads,经过质量过滤和组装,他们发现成功组装出3个微生物基因组草图。Driscoll等的实验证明SMRT测序技术在低复杂度环境微生物宏基因组组装中是有效的。

3.3 微生物全基因组测序

对无参考基因组的物种,采用测序并从头组装获得全基因组图谱的方式称为全基因组测序。SMRT测序技术测序长度能够帮助研究人员在组装全基因组时成功跨过重复片段、低复杂区域,从而组装出完整性更好的全基因组[39]。2013年,Chin等[40]设计并开发针对SMRT测序数据组装微生物全基因组的算法(HGAP),他们使用该方法成功组装了包括大肠杆菌(E. coli)在内的16个基因组,其中,3个基因组已经有完整的基因组,新组装的基因组与参考基因组一致性达到99.9999%。他们的实验证明结合SMRT测序技术和Illumina测序技术进行全基因组测序准确有效。Paulinella chromatophora是研究植物质体的重要模式生物,2017年,Lhee等[41]研究发现一个具有光合作用的新种(P. micropora sp. nov.),通过构建SMRTbell库,并使用PacBio RS Ⅱ测序平台测序获得16 Gb数据,使用HGAP算法组装得到长度为976 991 bp的全基因组。通过全基因组水平的比较证实其为新的种。

除了完全采用PacBio reads进行全基因组组装,通过与第二代测序技术组合的方式也是常用的微生物全基因组组装方案,该方法能够有效提高组装准确性并降低测序成本。葡萄孢菌(Botrytis cinerea)是广泛存在的植物病原真菌,研究人员先后使用第一代和第二代测序技术对全基因组测序,但是,其中仍然存在较多缺失和错误,2016年,Van Kan等[42]采用SMRT测序技术和第二代测序技术结合的方式对葡萄孢菌全基因组测序,de novo组装得到由18条染色体组装的新基因组,测序深度和完整性得到大幅提高。同时,他们采用RNAseq数据对基因组进行验证和基因注释。

4 结语

微生物物种数量庞大,而环境微生物复杂性决定了其对研究技术的高要求。尽管第二代测序技术为微生物研究带来了革命性的改变,但是,以SMRT测序技术为代表的第三代测序技术取代第二代测序技术成为微生物研究的主要手段是必然趋势。SMRT测序技术已然领跑第三代测序技术。但是,SMRT测序技术仍然存在较大的问题,如测序费用高、测序错误率偏高等。

目前,SMRT测序技术在微生物研究领域应用最成熟且最多的还是微生物全基因组测序。而SMRT测序技术在复杂环境微生物宏基因组研究中还存在诸多问题需要解决,已有的研究也只是浅尝辄止。目前,在我们文献查阅的范围之内,还没有发现真正将SMRT测序技术应用于复杂环境微生物研究,因此,这方面还需要进一步探索。SMRTbell库构建方法的提出为SMRT技术在微生物16S rRNA基因全长测序提供了可能,最近两年逐渐在研究中被采用。但是,目前16S rRNA基因注释数据库还存在注释物种少,参考序列长度短的问题,这无疑将降低16S rRNA基因全长测序数据分析的准确性。

SMRT测序技术及其在微生物研究中的应用相关推荐

  1. 《iMeta》综述 | 多组学在肿瘤微生物研究中的应用

    文章标题:Applying multi‐omics toward tumor microbiome research 发表期刊:iMeta 作者单位:俄亥俄州立大学医学院放射肿瘤学系.俄亥俄州立大学詹 ...

  2. 第三代测序技术在微生物研究中的应用

    第三代测序技术在微生物研究中的应用 曹晨霞, 韩琬, 张和平 摘要: 1977年Sanger 发明的双末端终止法开启了测序之旅,而测序技术在30多年内不断革新. 每种新技术的出现都有超过前代产品的独特 ...

  3. 写一篇4000字左右的综述,题目为《单细胞测序技术在头颈部鳞癌中的应用价值》,主要包括的内容有:单细胞图谱类研究,肿瘤异质性研究,治疗反应研究,肿瘤微环境研究。...

    单细胞测序技术在头颈部鳞癌中的应用价值综述近年来,单细胞测序技术的发展为头颈部鳞癌的治疗和研究提供了新的方法.单细胞测序技术具有解析肿瘤基因组结构和功能的潜力,可以更好地理解头颈部鳞癌的致病机制,并为 ...

  4. 生物信息学技术在罕见病研究中的应用

    生物信息学技术在罕见病研究中的应用 罕见病简介 罕见病,或称罕见疾病,是指仅在极少数人身上发生的稀罕病症,所以也被称为孤儿病. 大部分的罕见病都是遗传病,即使疾病症状不会生来就有,也会伴随患者终身.许 ...

  5. 百姓基因:新一代基因测序技术及其在肿瘤研究中的应用

    基因测序技术的进步, 为分子生物学的发展, 起到了巨大的推动作用.传统的基因测序技术的重要代表, 是所谓的Sanger测序法, 这是一种以末端终止法为原理建立起来的技术.20世纪90年代开始启动的人类 ...

  6. NGS项目四:高通量测序在植物生物胁迫研究中的应用

    在植物生物胁迫研究方面,本文通过作者所精密相关课题组的研究,比较传统研究方法和高通量测序方法的优劣. Sun X, Tan Q, Nie Z,et al. Differential Expressio ...

  7. 射频功率放大器在超声导波技术管道损伤检测研究中的应用

    实验名称:基于超声导波技术的充液管道损伤检测实验研究 研究方向:无损检测 测试目的: 超声波是一种高频应力波,正是由于激发的频率较高,其能力衰减较快,传播距离有限.故在管道检测中,超声波检测技术需要逐 ...

  8. 大联合 - 单细胞测序在新冠肺炎研究中的应用进展 (PPT)

    2020年3月30-31日,NIH-HCA 2020联席会议通过在线会议形式顺利召开会议目的:通过将实验技术.数据管理和分析领域的重要研究人员召集在一起,就共享.标准.试点项目和跨联盟资源达成共识,为 ...

  9. 使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]

    摘要 通过对16S核糖体RNA(16S rRNA)基因进行测序来评估细菌多样性已广泛用于环境微生物学中,特别是自从高通量测序技术问世以来.这些技术带来的另一项创新是需要开发新的策略来管理和研究生成的大 ...

最新文章

  1. git 下载 github 上的代码
  2. .net数据根据字段进行分类(linq语句)
  3. school‘s movie demonstration
  4. vmware三种网络模式配置(转载)
  5. Elasticsearch 基础入门
  6. .NET Core开发日志——HttpClientFactory
  7. 版本字符串比较工具接口常用接口函数
  8. oracle 返回表的函数,oracle 返回表函数
  9. iwpriv工具通过ioctl动态获取相应无线网卡驱动的private_args所有扩展参数
  10. comparator 字符串比较大小_java – 如何使用Comparator比较空值?
  11. linux gcc编译只能编译一条,请教一个gcc编译器的问题啊
  12. kext updater使用方法_语言清晰度测量方法的前世今生
  13. 情感极性分析:基于情感词典、k-NN、Bayes、最大熵、SVM的情感极性分析
  14. python与excel-超简单:用Python让Excel飞起来
  15. 15_实现浏览器记录
  16. 2021考研数学二汤家凤接力题典1800
  17. manjaro 亮度调节
  18. java游戏仙剑外传李逍遥背_经典RPG游戏《仙剑奇侠传》李逍遥后期还在哪些版本中出现过?...
  19. java一只母牛 一年生头小牛_Java实现:工厂有一头母牛,一年生一头小母牛,小母牛五年后可以生小牛,问20年工厂有多少头牛?...
  20. 简单解读拼多多t.gif、tne.gif接口

热门文章

  1. IROS2021|DLL直接点云定位:一种基于点云地图的航空机器人定位方法
  2. 除了百度,国内还有哪些无人驾驶公司?
  3. 重磅直播|大规模点云可视化技术
  4. 自动驾驶汽车视觉- 图像特征提取与匹配技术
  5. ParameterizedType应用,java反射,获取参数化类型的class实例
  6. 2.JS执行上下文和变量对象
  7. Nat. Commun. | 序列到功能的深度学习框架加速工程核糖调节剂设计和优化
  8. SQLite | Python3导入csv到SQLite3
  9. 如何同步更新 Github 上 Fork 的项目?
  10. EL:谁说N素含量高就不固氮了