摘要:

16SrRNA基因是微生物生态学中应用最广泛的标记基因,通常根据16S测序结果来估计微生物群落中细菌和古菌的比例。然而由于不同生物体含有不同的16S基因拷贝数(gene copy numbers, GCNs),更大GCNs的分支往往会在测序中得到更多的序列,从而使得结果的相对丰度高于实际值。近来,一些基于测序基因组来预测GCNs的方法陆续被开发出来,这些方法使用了系统发育的方法以纠正前述偏差,但其预测的准确性还没有经过评估。本文作者基于6800个公共测序基因组并运用多种系统发育方法,对16S GCNs在细菌和古菌分支上的可预测性进行了系统评估,并在更广泛的类群和来自不同环境的635个微生物群落中,对PICRUSt、CopyRighter、PAPRICA等三个最近公布的方法的预测准确性进行了评估。

结果发现,无论哪种方法,16S GCNs只能准确预测一个有限的分类群(<15% divergence)。一致的是,这些工具在预测全基因组时表现出较低的准确度,在某些情况下,甚至只能解释不到10%。几个测试微生物群落之间的工具也存在很大的误差。微生物群落的最相似序列分类指数(nearest sequencedtaxon index, NSTI),即测序基因组的平均距离,对于非动物相关样本可以进行有力预测,但对于动物相关样本结果稍逊。因此,一般情况下作者不建议在微生物研究中纠正16S GCNs。

1.从系统发育的角度16S GCNS的可预测性

16S GCNs的自相关函数,即在一定的系统发育距离上两个随机挑选的OTU的GCNs之间的相关性,随着系统发育距离的增加而适度衰减(图1A),在系统发育距离约15%的情况下下降到0.5以下,在系统发育进化距离约30%时降为0。因此,16S GCNs的预测对于具有大于约15%的NSTD的分支和接近NSTD大于约30%的分支是不准确的。为了明确测试这一结论,作者基于SIVLA衍生树随机16S GCNs进行预测,并比较了这些预测和从已知的完整测序基因组的GCNs。作者使用了以下常见的两种重建算法预测GCNs:对于CopyRighter和PICRUSt使用PIC算法, 对于PAPRICA使用subtree averaging算法。结果发现所有的预测方法仅实现了NSTD低于15~30%的高精度(图1C),符合原本基于自相关函数的期望。在SILVA衍生的树中,大约49%的OTU具有大于15%的NSTD,并且大约30%的OTU具有大于30%的NSTD(图1B)。由于Silva数据库中自然界的环境微生物群落不是纯随机的取样,因此这些生物一般预测NSTDs会较低。此外,很可能有大量的原核生物尚未被包括在SILVA,例如从最近发现的或尚未发现的一些门,NSTD可能大于30%。因此,基于测序基因组的16S GCNS的预测对于大多数现存的天然环境中的原核分支来说是不准确的,树的拓扑和分支长度的误差可能降低系统发育重建工具的预测精度(图1C)。

图一 16S基因拷贝数的系统发育信号

(SILVA衍生树)

2.第三方预测工具的评估

前面的分析表明,基于可用测序基因组的16S GCNs的系统发育预测对于大量的原核分支来说是不准确的,特别是那些仅具有少数测序代表的物种。这一发现引发了对16S GCNs可以准确预测典型环境群落的质疑,16S GCN校正应该被系统地应用于每一个微生物群落研究。因此,作者测试了PICRUSt v1.1.1、CopyRighter v0.46和PAPRICA v0.4.0b最近出版的三种工具的预测精度。作者进行了两种类型的测试:第一个测试将上述测序基因组的GCNS与基于基因组16S序列的每个工具预测的GCNs进行比较;第二个测试将每个工具的预测与其他两种工具的预测进行比较,对于Greengene 16S rRNA数据库中的所有OTU以及来自不同范围环境中的635个微基因组中发现的原核OTU进行比较。结果发现,三种工具的预测准确度和以真GCNs的解释方差的部分来测量的预测精度通常随着基因组的NSTD而降低(图2)。对于PICRUSt和PAPRICA,R2甚至对NSTD在30%以上都是负的。

图二 GCN预测工具对

已知GCN基因组的评价

不同的工具之间在评估整个Greengene数据库时,预测的GCNs与其他工具的预测中方差最多为25%(图3)。CopyRighter和PICRUSt使用相同的输入基因组和相似的参考树集合,然而所得结果基本不同(图3a)。当考虑依赖于OTU的NSTD工具之间的差异时,发现R2随着NSTD的增加而迅速减小,并且在NSTD低于20%时变成负(图3d-f)。

图三 基于Greengenes各工

具之间16S GCN预测的比较

作者用635个样本来比较这三种工具,发现对于任何两种工具来说(CopyRighter vs. PICRUSt,PICRUSt vs. PAPRICA, CopyRighter vs. PAPRICA),第一工具预测的方差由第二工具(R2)的预测解释低于0.5的超过84%的样本,低于0.1超过55%的样本(图4)。在许多情况下,工具之间的一致性甚至比工具之间不相关的预测更差。在PICRUSt和PAPRICA之间发现了最差的一致性,而CopyRighter和PICRUSt之间发现了最好的(但仍然是不好的)一致性。这进一步加强了文章的结论,现有的GCN预测工具对这些样本中的许多样本表现不佳,即使只考虑与动物相关的样本(例如人类皮肤样本)。动物样本被认为是比其他环境更好的研究,并通常具有较低的NSTIs(加权平均NSTD的OTU),结果发现工具之间仍存在不一致性。一种解释是,即使在人类相关的微体系中,许多具有高NSTD的OTU降低了总体预测精度。事实上结果发现,在大多数样本之间的工具之间的不一致性不是单独由一些特异OTU驱动,而是反映在每个样本中大量OTU的中度到较差的一致性。而对于非动物样本,则趋势更为明显。很可能是由于许多被忽略的分类,尤其是研究不够深入的门类,甚至比一些特异的OTU具有更大的NSTD。

图四 GCNs预测工具在

微生物群落中的一致性

以前的研究曾经使用模拟群落来测试16S GCNs的可预测性,表明正确的校正GCNs可以提高微生物群落组成的估算准确性。因此,使用模拟群落而不是自然群落,可以使GCNs得到很好地预测,因为每一个单位的GCNs都是已知的。

结论:

作者评估了16S GCNs的系统发育保守性,并使用几种常见的系统发育重建算法研究了GCNs的可预测性。其研究结果表明GCNS或许并不能预测大量现存的原核分支。此外,作者评估了三种可用的16S GCN预测工具在一组完全测序基因组上的准确性,以及在Greengene 16S数据库和来自广泛环境的微生物群落中的OTU的准确性。分析结果表明,现有的工具在大部分基因组与OTU测试中表现不佳;对于超过85%被检查的微生物群落,GCN预测在几种工具之间差异很大。因此,由于测序基因组覆盖不足,16S GCN预测对于现存的原核多样性的很大一部分是不精确的,这与通常的假设恰恰相反。因此作者建议,16S GCNs应仅在具有低NSTI(15%)的微生物群落的研究中被校正。

参考文献:

Louca S, Doebeli M, Parfrey L W. Correcting for 16S rRNA gene copy numbers in microbiome surveys remains an unsolved problem[J]. Microbiome, 2018, 6(1): 41.

https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0420-9

中国科学院生态环境研究中心

环境生物技术重点实验室

邓晔 研究员课题组发布

作者:吴悦妮

猜你喜欢

10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大  Cell微生物专刊

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:生信宝典 学术图表 高分文章 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板 Shell  R Perl

生物科普  生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1500+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

Microbiome: 16S rRNA基因拷贝数应该被校正吗?相关推荐

  1. Microbiome:使用16S rRNA基因数据集实现种水平的分类

    编译:A国民少女,编辑:小菌菌.江舜尧. 导读 16S rRNA基因测序的低成本促进了人口规模的分子流行病学研究.现有的计算算法可以将16S rRNA基因序列解析为高分辨率扩增子序列变体(ASV),这 ...

  2. MPB:微生物所东秀珠组-​​基于16S rRNA基因和基因组序列对细菌物种的初步鉴定...

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  3. 如何快速评估16S rRNA基因引物的覆盖率及特异性

    背景 无论是在进行细菌.古菌高通量测序前,还是细菌.古菌qPCR前,最纠结的问题永远是引物选择.评估引物效果最重要的两个指标是覆盖率(coverage)和特异性(specificity).简单讲,覆盖 ...

  4. RiboFR-Seq:将16S rRNA与宏基因组连接的方法

    摘  要 16S rRNA扩增子分析和宏基因组测序是研究微生物群落的两种主要的独立方法.近年来,许多研究将这两种方法结合起来使用,但下游的数据分析是分开进行的,在分类和功能上总是产生不一致或冲突的结果 ...

  5. 细菌或原核生物16S rRNA

    细菌核糖体RNA(rRNA)有三种类型:5S rRNA(120bp).16S rRNA(约1540bp)和23S rRNA(约2900bp).5S rRNA基因序列较短,包含的遗传信息较少,不适于细菌 ...

  6. 16S rRNA测序鉴定分析实验

    一.实验简介 DNA测序菌种鉴定实验是一种基于DNA测序技术进行的微生物鉴定方法.该方法通常基于16S rRNA基因序列进行分析,该基因是细菌和古菌共有的序列,但在不同的菌株中存在变异.通过对菌株的1 ...

  7. MicFunPred——最新16S rRNA扩增子数据功能预测数据库

    近年来,基于扩增子测序进行物种的功能预测是研究微生物群落功能的主要方面,目前最常用的软件包括Tax4Fun以及PICRUSt2.关于这两款软件的使用方法详可参见凌波微课|扩增子研究第十六讲:扩增子测序 ...

  8. Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读

    文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...

  9. Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置

    文章目录 简介 工作原理 优势 功能模块 软件安装 数据库配置 **CheckM数据库** **KRAKEN数据库** **NCBI_nt** **NCBI物种信息** **人类基因组bmt索引** ...

最新文章

  1. R语言单变量分析实战:汇总统计(Summary Statistics)、频率表(Frequency Table)、图表(charts: boxplot、histogram、density)
  2. 华为擎云w510_鸿蒙系统之后,华为突然官宣新生态,正式对windows说不
  3. 十二年 10 次 IT 大考 猪八戒网的系统架构和开发流程经历了什么?
  4. php静态方法场景,深入介绍PHP中的static的修饰方法和yield的使用场景
  5. 【pyqt5学习】——graphicView显示opencv图像
  6. 程序员面试金典 - 面试题 16.20. T9键盘(数组)
  7. android微信支付坑,微信支付踏坑之旅
  8. python模块request怎么安装_安装 request模块
  9. 机器学习-K近邻项目实战
  10. super方法 调用父类的方法
  11. 当你写爬虫抓不到APP请求包的时候该怎么办?【高级篇-混淆导致通用Hook工具失效】...
  12. iview上传文件案例
  13. python opencv保存图片到指定路径_OpenCV-将图像保存到所选的特定文件夹
  14. 一台电脑如何同开两个或多个飞信?
  15. 毕业5年决定你的一生_4
  16. BIO、NIO、AIO的简单个人理解,同步异步和阻塞非阻塞的简单理解
  17. 思凡软件(思凡全功能拓扑检查工具)
  18. 微信小程序获取用户openid(详解)
  19. 《Labeled Data Generation with Inexact Supervision》 KDD-2021 论文阅读
  20. BUUCTF RSA题目全解3

热门文章

  1. 如何开好一个 OKR 评审会议?
  2. ROS建立URDF模型
  3. 计算机网络各种传输介质说明
  4. 如何确定python对应电脑版本_查看Anaconda版本、Anaconda和python版本对应关系和快速下载...
  5. python调用webservice接口实例_python发布webservice接口
  6. 苹果公司提出Mobile-ViT | 更小更轻精度更高,MobileNets或成为历史
  7. 综述:AI系统安全的实用方法介绍
  8. 既可生成点云又可生成网格的超网络方法 ICML
  9. 事件相机角点检测,从原理到demo
  10. ceph 代码分析 读_分布式存储 Ceph 的演进经验 SOSP 2019