大家都知道,使用高通量测序技术解决微生物组学问题,已经成为一种成熟并且高效的技术手段。最近呢,我们的技术人员与科研工作者沟通时,发现很多人对组学研究存在不少模糊甚至错误的认识,为了便于大家学习到正确的知识,我们特意收集了最多、最受研究者们关注的典型十大错误认知,帮您梳理背后的逻辑,助您知其然知其所以然,明明白白做科研。

错误认知1:微生物组学测序,测序量越多越好

解析:微生物组学测序,大致呢可以分为五类,即纯培养微生物基因组denovo测序、微生物基因组重测序、微生物转录组测序以及基于混合型的宏样本多样性测序(也叫作扩增子测序)与宏基因组测序。

对于纯培养微生物基因组denovo测序、微生物基因组重测序而言,数据分析所需的数据量一般都有一定的限制,比如denovo测序在80-200×数据量时结果比较好,经验表明,120-150×数据量是大多数微生物基因组组装效果更优一些。而数据量过高,往往会导致软件不能有效调用数据进行组装组装最终失败,或者因运算量极大程度增大带来大量的时间和运算资源浪费,即便最终组装出来了,还有可能会导致基因组组装不准确,比如多拷贝的质粒或噬菌体等漏组装等等。

对于微生物重测序而言呢,理论上30×以上的数据量就足够了,实际工作中微生物一般在100×左右的测序深度,计算结果更为准确且运算效率较高。而很多软件默认识别最高200×的测序深度,过高了也没有被有效计算,除非大家还要专门修改软件代码和参数。

微生物多样性测序,每个样本3万条以上的有效测序reads,适用于绝大多数情况。对于这类研究,理论上是测序量越多越好,这样可以获得更多的低丰度物种的信息,但是实际上呢,使用通用引物进行PCR扩增时,已经决定了有多少种物种的代表基因分子被抓取出来了,仅仅在测序端增大测序量,可能会导致大量的duplication发生,导致无效测序,反而影响结果的准确性。从研究的意义上来看,低丰度的物种对于最终结果差异分析的影响几乎可以忽略,研究者往往更关注与表型变化相关的物种差异性,所以,多样性测序量,适量就好,过多也没有多大价值和意义。

宏基因组样本测序,一般测序量6G/样本,对于物种丰富度比较高的样本,测序量可以增加到10G/样本。目前而言,这些测序量也还是偏少的,更多的测序量可以发现或者组装出更多的基因。而实际研究中,宏基因组测序往往会测定很多样本,生物学重复加上不同的处理条件,最终样本量和测序量都会成倍增加。而现在的计算方法和很多科研单位、科技服务公司的计算资源,一般很难承受过大的数据量的严峻考验,这不仅仅是数据分析所需的硬件投入大大增加,还会使得分析时间指数级增长,对大家而言,都消耗不起呀。所以,虽然有些学者愿意拿出更多的经费增大测序量,但面对如此庞大的数据,在投入和产出比并不理想的情况下,大家也就不再盲目追求测序量的增加了。

而对于微生物转录组而言,看的是相对表达量和不同处理下的表达差异,200-500×的有效测序量,适合于大部分样本。更大的测序量,对于结果的准确性和精确性,并没有显著性提高。

总结一下,微生物组学测序研究,测序量适合就好,没必要盲目追求量大。正如中国老祖宗常说的一句话,知足常乐,适可而止。看来测序也很有哲学思维嘛。

错误认知2:微生物多样性测序,三代技术比二代测序技术好

解析:在微生物多样性研究中,有三种比较成熟的、基于测序的方法,分别是基于一代测序的荧光定量PCR方法、基于二代测序的扩增子测序方法和基于三代测序的全长Marker基因测序方法。目前最主流、通量最大、价格最便宜、效果最好、数据库最丰富的就是基于二代测序技术的扩增子测序方法。近年来,三代单分子测序测序技术的日益成熟和价格的持续下调,为微生物多样性的研究带来了新思路。三代测序reads有效读长是比较长的,完全可以将Marker基因测通,从而呢可以获得基因的全长序列。大家应该可以想到,使用全长序列进行比较分析,肯定会比使用局部序列分析更能确定序列来源啦,所以使用三代测序获得的全长Marker基因往往可以把物种区分的更加精细,这在很多情况下会优于二代测序的基因局部序列分析结果。

目前使用较为成熟的三代测序仪是PacBio Sequel II,用在对16S rDNA的全长测序上。但是目前三代测序技术在微生物多样性研究中受限于以下几点:

① 因为价格问题,有效测序量较低,适合于研究丰度较高的物种,而中低丰度的物种可能无法被有效测到;

② 测序的准确性仍旧逊于二代测序技术,尤其是Nanopore测序仪的数据准确性;

③ 目前适合于全长marker基因的物种分类数据库,存在严重的库容量不足的问题,远远无法跟二代测序数据对应的微生物物种分类数据库媲美,导致测序出来的全长基因无法确认是什么物种,也就无法进行物种分类了。

总结一下,每种测序技术都各有各的自身优势和各自不同的应用场景,并不能直接说哪种测序技术一定优于另外一种甚至替代另外一种,根据自己的科研需求选择合适的方法,才是王道。

错误认知3:宏基因组测序,完全可以代替扩增子测序

解析:扩增子测序的原理是基于一个特定的marker基因来研究样本中有什么物种或者什么环境的改变、什么处理方式的改变等等,最终是如何影响样品中物种变化的。如果marker基因选的比较合适,扩增子测序确实是一种比较好的在物种水平上研究微生物的方法。

而宏基因组测序的原理是通过基因组的测序组装并预测和注释各类基因,在基因和大片段序列的水平上研究样品中微生物的潜在功能或者基因与表型的相关性。宏基因组研究通过对基因的详细注释和不同分类,推测微生物的功能进而锁定目标基因。

宏基因组更关注基因的类型、丰度等层面的变化,虽然也可以通过组装出来的大片段序列通过算法推测是什么物种,并大致统计该物种的丰度,但这与扩增子测序直接使用更优的marker基因直接研究物种丰度和种类变化,在准确性上是大打折扣的。

总结一下,可以简单地理解,宏基因组是回答微生物菌群的基因情况而扩增子测序是回答微生物菌群的物种情况的,二者不能彼此替代,大家需要根据自己的研究目的进行选择。

错误认知4:微生物多样性测序结果分析时,不必进行数据的抽平处理

解析:微生物多样性测序研究的所有数据分析,都是基于OTU的注释信息表完成的,主要包括微生物的物种分类注释信息以及丰度信息。我们在这里谈的丰度是相对丰度,是基于测序量的reads数来计算的。而在样品制备中,在很多环节都会导致数据量的不可控,比如说吧,不同样本之间由于基于marker基因如16S rDNA的PCR存在扩增效率的差异问题、样本批次问题,在建库和上机环节,又存在样本和批次间的测序接头引物添加效率差异问题、上机文库定量差异问题以及测序偏好性问题、产出的数据质控问题等等,无法保证每个样品上机前分子数一致以及下机后的有效reads数保持一致,必然会带来样品之间测序量的不同。举个例子,样本A测序后获得3万条reads,分析出500个OTU,丰度最高的OTU是350×,而样本B测序后获得10万条reads,分析出800个OTU,丰度最高的OTU是800×,现在无法说直接样本B的物种种类和物种丰度就一定比样本A多,因为二者的起始测序量本身就不同,需要排除测序量带来的影响。

在早期的研究中,很多学者没有对样品的测序量进行均一化处理,其实原因也很简单,主要是测序太贵,并且各个样本之间测序量本身都差不多,测序量的均一化处理对于结果的影响并不显著。但是现在不同了,一来呢,测序变得非常廉价,测序量极大程度增大了,二来呢,样品类型也更加多样化,导致样品之间的实际测序量差异度明显增大。这种情况下,比较合理和准确的研究方法,就是对样品的测序量进行均一化处理,保证各个样本在相同的测序量水平上进行比较。

均一化处理的方法有两种,一种是在分析样本之间的数据时,每个样本中每个OTU的丰度值都变换成该OTU相对于该样本总OTU的丰度占比,然后再比较不同样本之间同一种OTU的丰度。这种方法的优点是可以保留所有的OTU,缺点是数据很不直观。

第二种方法是,在最初的reads水平上进行数据量的抽平,一般又分为以最低样本的测序量为基准进行抽平,和设定一个不超过最低样品测序量的数值进行抽平两大类。这种方法的优点是分析更加直观快捷,目前这种方法是使用最多最主流的。

总结一下,从严谨的角度来说,多样性测序需要进行样本之间的测序量均一化处理,其中最主流的方法是以最低样本的测序量为标准进行reads层面的抽平。

错误认知5:纯培养微生物基因组测序,也需要做生物学重复

解析:纯培养微生物基因组测序呢,主要是指基因组的denovo测序,即通过测序和后续的组装还原出微生物的基因组信息,在此基础上进行基因层面的各类功能注释。实际上,我们能够通过肉眼看到的纯培养的微生物菌落或者液体培养后获得的菌体,那含有的微生物细胞数目可是数以亿计的,在理论上,其实每个细胞都是一个独立的个体。个体之间,确实可能会存在着基因组序列上的差异,这主要是微生物基因组发生自发突变导致的。但是呢,微生物基因组的自发突变频率那可是极低的,有统计给出的数值是10-5~10-8。如果考虑到测序和组装算法自身的系统误差导致的最终组装结果的不准确性,基因组的自发突变带来的碱基不一致基本可以忽略不计了。

所以,对于纯培养的微生物基因组而言,进行DNA层面的全基因组测序时,无需考虑生物学重复和技术重复问题,极端一点说,微生物菌体中数以亿计的细胞之间,不也是个体之间的重复吗?

好啦,关于微生物组学测序的错误认知,本期就先分享前5个,不知以上知识,您get到了吗?如果还想的错误认知讲解,可点击链接:http://interact.majorbio.com/article/detail/349,进行查阅

微生物组学测序十大错误认知相关推荐

  1. 如何做好微生物组学代谢组学联合分析研究?

    微生物组学&代谢组学联合分析 近年来,随着微生物组学研究的不断发展和持续火热,越来越多的研究者跳出单一的微生物研究,开始将微生物组学和代谢组学联合起来,从物种.基因以及代谢产物等水平共同解释科 ...

  2. 基于三代测序技术的微生物组学研究进展

    基于三代测序技术的微生物组学研究进展 2020-09-04 09:16 微生物通常指一切难以用肉眼观察到的微小生物, 包括细菌.病毒.古菌.真菌以及一些微小的原生生物.微生物体积微小.结构简单, 却又 ...

  3. Feature|微生物组学研究的机遇与挑战

    微生物组学研究的机遇与挑战 导读 在过去的几年中,微生物组的研究大大地改变了我们对人类生物学的理解.人体内存在着数以万亿计的微生物,远高于人体细胞的数目,这些微生物对人体健康不可或缺.随着微生物组学研 ...

  4. 南土所褚海燕组综述微生物组学的技术和方法及其应用

    DOI: https://doi.org/10.17521/cjpe.2019.0222 微生物组学的技术和方法及其应用 高贵锋 褚海燕* 中国科学院南京土壤研究所, 南京 210008 摘  要微生 ...

  5. Microbime:微生物组学领域的标准制定

                    简介                  标题:Developing standards for the microbiome field 微生物组学领域的标准制定 杂志 ...

  6. 国家微生物科学数据中心微生物组学数据汇交指南

    科学家们往NCBI/EMBL/DDBJ等数据库提交的组学数据,也可以提交到国家微生物科学数据中心(NMDC,http://nmdc.cn/)了! 感受数据提交服务亮点: 线上全流程数据汇交,为您带来便 ...

  7. 没有云平台,又不会代码?MicrobiomeAnalyst:一款综合的可视化微生物组学数据分析网页工具

    文章目录 简介 文章简介 主要功能模块 16S多样性分析展示 数据上传及格式要求 数据完整性检查 数据过滤 数据标准化 分析主界面 可视化 堆叠柱状图 交互饼形图 Alpha多样性 Beta多样性 核 ...

  8. MicrobiomeAnalyst:一款综合的可视化微生物组学数据分析网页工具

    陕西省微生物研究所 常帆 主要研究方向为土壤微生态,同时负责服务器维护和相关流程搭建. 简介 文章简介 MicrobiomeAnalyst,综合微生物组学数据网页工具,2017年发表在Nucleic ...

  9. Cell子刊:微生物组学研究的突破与瓶颈

    本文转自肠道产业,点我阅读原文 https://mp.weixin.qq.com/s/ADq-xtRKg82SSgtEj6bcMA 这是<肠道产业>第 556 篇文章 编者按 在过去的 1 ...

最新文章

  1. Ubuntu10.04下PDF中文无法显示或显示乱码的解决方法
  2. 企业跟风移动考勤市场,变革下的移动考勤应该怎么玩?
  3. 科达南沙电子警察“扩编”
  4. c++ primer 5th 习题11.14自己编写的答案
  5. 如何在postgresql中模拟oracle的dual表,来测试数据库最基本的连接功能?
  6. 再谈要不要成为全栈工程师
  7. Unity2020.1新功能探路:光照相关更新
  8. 银联接口(注意项备忘)
  9. github访问慢解决办法
  10. 使用Python和Numpy进行波士顿房价预测任务(二)【深度学习入门_学习笔记】
  11. C++/CLI学习入门
  12. MedPy医学图像评价的python库
  13. QCC3007--打印库文件 log
  14. 高考全国卷导数题分类
  15. Ubuntu 20.04双拼输入法
  16. 葫芦书笔记----循环神经网络(RNN)
  17. Chrome OS 旅程的下一步
  18. 如何做一名优秀的助教@助教的那些事(助教总结)
  19. Erlang/OTP 构建 Application
  20. 查询各部门总工资最高的部门中工资最高的员工姓名,工资,所在区域,部门

热门文章

  1. 企业网站被黑客攻击了怎么办
  2. 气象地图gis php代码,基于百度地图API实现自动气象站点信息显示
  3. 雷达原理-雷达发射机
  4. 图片转文字微信小程序使用方法
  5. MATLAB/Simulink中的S函数报错
  6. 我的世界服务器皮肤显示不出来,我的世界怎么让皮肤显示,怎么没有皮肤显示不出来怎么办啊...
  7. 雷柏MT750w鼠标无线蓝牙连接教程
  8. FLOPS和TOPS的区别 以及 算力的计算方法
  9. 芯片TOPS的真实性 - 解释 ( 标量 ,矢量, 张量)
  10. 新版ideal2021配置Tomcat