文章速递

Title: A new genomic blueprint of the human gut microbiota

DOI: 10.1038/s41586-019-0965-1

Journal: Nature [IF 41.577]

First Authors: Alexandre Almeida

Correspondence: Alexandre Almeida, Robert D Finn

Affiliation: European Bioinformatics Institute (EMBL-EBI)

Published: 2019-02-11

关键字: 新肠道细菌, 肠道细菌种类, 肠道菌群功能, 方法学

本研究从 European Molecular Biology Laboratory(EMBL)数据库的 75 个研究项目中收集到 11,850 个人类肠道菌群宏基因组的数据,并从中鉴别出 1,952 种潜在的、尚未被培养的肠道细菌
文章详细介绍了鉴别尚未被培养的肠道细菌的方法,并阐述了目前尚未被培养的肠道微生物的多样性;描述了其与已知肠道微生物物种进化关系和在各大洲样品中分布情况;概述其功能特征

结果表明,这些尚未被培养潜在的细菌使得已知肠道细菌的总种类数量增加了 281%;虽然在欧美人群中丰度比较低,但是在非洲、南美人群肠道这两个特定的肠道生态中缺失普遍却高丰度存在的;此外,这些潜在细菌缺失碳元素代谢、抗氧化和氧化还原功能相关的基因,富含铁 - 硫和离子结合的相关编码基因,意味着它们更加适合低氧和高铁的胃肠特殊的生态位。

这些结果在一定程度上揭示了潜在细菌难以捉摸的特征,也提高对已知培养的物种的了解。

1

研究背景

已知人肠道微生物与人体的健康联系紧密;得益于技术发展,鸟枪法宏基因组的研究能揭示肠道微生物的分类组成及其功能。目前大部分的研究都是基于数据集完成的,例如 Human Microbiome Project (HMP) 和 Human Gastrointestinal Bacteria Genome Collection (HGG),虽然也已经有培养组学研究收集了大量可培养的肠道微生物的基因组,但是仍有大量的未知的不可培养却具有潜在功能的微生物尚未系统研究。因此,构建一个比较完善的基因集势在必行

2

研究思路

3

研究结果

鉴别出大量的尚未培养潜在的物种

作者整合了 EMBL 数据库收录的 75 个研究项目,收集到 13,133 个宏基因组数据,覆盖了北美洲(n= 6,869,52%)、欧洲(n= 4,716, 36%)、亚洲、南美洲、大洋洲和非洲;年龄段覆盖了成人(n = 3,053, 23%)、婴儿、老人和青少年(图1)。经过基础质控之后,剩余 11,850 个样品用于后续分析。

鉴别尚未被培养的潜在的物种的分析思路:

① SPAdes 组装;

② MetaBAT 分箱:得到 242,836 bins;

③ CheckM 评估,bins 评估质量分等级;一共获得了 40,029 个 “near-complete” metagenome-assembles genomes(MAGs,下文统称精细 MAGs),52,347 个quality score(QS*)值大于 50 的中等质量 MAGs(图2);

④ MAGs 重现:分别用 2 种方法(MetaWRAP 和 co-assembly)重现上述得到的 MAGs,98% 的 MAGs 均得到重现(图3),说明本研究得到的 MAGs 具有稳定性和可重现性;

⑤ 去除非原核生物的 bins,最后获得 39,891 个精细 MAGs;

⑥ 比对数据库,确定 unclassified MAGs :分别比对到 human-specific reference (HR*)数据库和NCBI Reference Sequence Database(RefSeq*)数据库。其中 11,888 个 MAGs 在两个数据库中均没有找到同源相似的基因组,故定义为 unclassified MAGs (图4)。

⑦ unclassified MAGs 去复制,重构得到 1,175 个 metagenomic species(MGS);

⑧ 扩充 MGS :将精细 MAGs 和中等质量 MAGs 比对回 1,175 个 MGS,把仍然未分配到任何一个 MGS 的 MAGs 再次重构,又识别鉴定出 893 个细菌。

 将 1,175 个 MGS 加上扩充的 893 个细菌最后确定为尚未被培养潜在的物种合计 2,068 个;这些 MGS 代表了人类特异的但高质量参考数据库中缺乏的优质细菌基因组。

QS*:QS= completeness−5×contamination

HR*:HR 数据库是由 HMP 和  HGG 基因集分离2,468 个基因组,囊括了 956 个物种(其中 553 个分离培养于胃肠环境)组成的数据库。

RefSeq*:囊括了 8,778 个细菌完成图。

图1. 本研究收集的 13,133 个样品的地域、健康状况、年龄统计

图2. CheckM 评估 bins 的统计

图3. MAGs 技术重现评估比对情况

图4. 39,891 个 MAGs 与 HR 和 RefSeq 数据库比对情况

尚未被培养潜在的 MGS 物种表征和分布

为了鉴定这 2,068 MGS 的分类,作者将它们和 UniProtKB 数据库比对,结果 94% 的 MGS(n = 1,952)没有匹配到 UniProtKB 收录的分离单菌基因组,意味着它们代表着尚未培养候选物种,于是将它们定义为unclassified MGS(UMGS),后续的分析都是基于这些 1,952 UMGS 进行的。此外,虽然这些 UMGS 不能确定物种水平,但能不同程度地精确分类到门(98%)、纲(94%)、目(91%)、科(74%)和属(60%)水平。这说明了这些 UMGS 的大量蛋白是属于新的科或属,其中,注释结果中前三的科是 Coriobacteriaceae (20.6%),Ruminococcaceae (9.9%)和Peptostreptococcaceae (7.4%);前三的属是 Collinsella (17.7%), Clostridium (7.3%) 和 Prevotella (4.4%) (图5. a)。

随后,作者将原始 13,133 个宏基因组数据集的原始 reads 与 UMGS 比对,评估 UMGS 的普遍度和丰富度。结果发现,一半的 UMGS 至少能在 12个样品中找到,这些 UMGS 大部分属于梭菌纲下的 Ruminococcaeae 科和 Faecalibacterium 属(图5. b)。

图5. UMGS 的物种分布。a) 1,952 个 UMGS 的门、纲、目、科、属比例前5的分布;b) 在 13,133 个宏基因组样品中普遍度前 20 的 UMGS

接着,作者将 1,952 UMGS 与 HR 数据库中 553 个分离于胃肠道的单菌(human gut reference,HGB)进行进化树构建,以研究 UMGS 与已知胃肠细菌的进化亲缘关系。结果表明,这些 UMGS 使得人肠道细菌菌系(lineage)多样性增加了 281% ,厚壁菌门增幅最大。几个 UMGS 和放线菌高度相似,特别是 Collinsella 属(图6. a)。值得注意的是一些 UMGS 基因组属于 Cyanobacteria (Gastranaerophilales), Saccharibacteria, Spirochaetes 和 Verrucomicrobia(图6. b),这些可能对应着来自人类肠道的更罕见或更难以培养物种的进化枝,因为在 HGR 数据库中没有一个它们具有代表性的分离基因组

图6. UMGS 与HGB 的进化关系

随后,作者统计了本研究样品中 6 个大洲的样品中 UMGS 和 HGB 基因组的流行率和丰度,以推断这些 UMGS 与地域的关联。结果显示,UMGS 在大部分大洲的样品中比率偏低(图7. a),这个现象也解释了为什么先前的研究并没有发现它们;但在非西方化的非洲和南美洲样品中 UMGS 更加普遍,尤其是在丰度大于 0.01% ,至少存在 20% 样品的 UMGS 更加明显(图7. b)。

作者进一步评估 UMGS 的补充对宏基因组数据分类的改进,统计了分配给 HR、RefSeq 和 UMGS 三个数据集的读长百分比。在三个数据集联用的情况下,注释率为 72.8%,相比只用 HR 数据库提高了 23% ,相比 HR 和 RefSeq 联合提高了 17%。虽然 UMGS 收录物种数量比 HR 数据库的数量超过三倍,但增幅并不大,恰好说明了大多数的 UMGS 在大多数样品中以较低的丰度存在(图7. c)。但非洲(n = 21)和南美洲(n = 36) 读长利用率分别提高了 215% 和 278% 也进一步说明了这些UMGS 在这两个特定的肠道生态中是高丰度存在的。此外,为了推测还有多少未知的物种未被发现, UMGS 累积曲线的结果表明了欧洲和北美洲人群已有很好的覆盖度并趋向饱和;相反,在北美和欧洲以外的样本中,仍然以一致的速率检测到新的未培养物种(图7. d)。上述结果均强调了补充代表性不足的地区的样品对揭示人类肠道微生物群的全球多样性的重要性。

图7. UMGS 在五大洲的分布

UMGS 的功能特征

为了评估 UMGS 的功能特征和与 HGB 功能的差异,作者对 1,952 UMGS 和 553 HGR 先后进行了 antiSMASH、 InterProScan 和 KEGG 数据库的注释。首先,antiSMASH 数据库的注释结果发现,在 UMGS 和 HGB 分别找到的 85% 和 70 % 的 secondary metabolite biosynthetic gene clusters(BGCs)是新的代谢簇,意味着肠道微生物产生的天然代谢产物尚有大量并未被发现

接着,InterProScan 注释结果中,找到了 1,199 Genome Properties(GPs)和 115 metagenomics Gene Ontology(GO),这些 GPs 能在门水平上很好区分 UMGS 和 HGB(图8. a)(ANOSM R = 0.42, P < 0.001),尤其是 Bacteroidetes 和 Proteobacteria。同时,Actinobacteria、Firmicutes、Proteobacteria 和 Tenericutes 也有显著的区分(ANOSIM R ≥ 0.30),也分别找到了182、207、115 和 68 差异富集的 GPs。

KEGG 注释结果显示,Bacteroidetes 只有 8 个功能富集,Actinobacteria、Firmicutes、Proteobacteria 和 Tenericutes 富集了涉及铁运输的 21 个功能特征(图8. b)。

HGR 和 UMGS 功能组成数量的差异统计结果表明了 UMGS 碳元素代谢、抗氧化和氧化还原功能相关的基因数都比较少,但是富含铁 - 硫和离子结合的相关编码基因,意味着 UMGS 更加适合低氧和高铁的胃肠特殊的生态位。结果在一定程度上揭示了 UMGS 难以捉摸的功能特征,也提高对已知培养的物种的功能的了解。

图8. UMGS 有一个清晰的功能特征。a) 基于 GPs 的主成分分析;b) UMGS 和 HGB 中 Actinobacteria,Firmicutes,Proteobacteria 和 Tenericutes的 GO 注释分类的差异

4

讨论与总结

本研究鉴别出了 1,952 个尚未被培养潜在细菌物种,这些 UMGS 中几乎有一半不能归类到属水平,表明大量细菌多样性仍未被培养;这部分资源将助力该领域的研究。本研究尚存在一些问题有待解决:

① 虽然本研究用的是 92,143 个 MAGs 重构得到 MGS,73% reads 能进行分类,但是这和纯培养一样,算法本质还是偏向高丰度的物种,这意味着还有一些极低丰度的物种仍会被错过。

 非洲和南美洲的样品数严重不足,所以将这种研究扩展到覆盖全球的大队列是获得人类肠道微生物群景观的完整概述的必要条件。

 本研究只关注于细菌,肠道微生物中古菌、真核生物和病毒,需要进行更彻底的调查。

5

M 菌说

本研究的亮点在于如何从宏基因组数据中确定出尚未被培养潜在的肠道微生物。

参考文献

Almeida A, Mitchell A L, Boland M, et al. A new genomic blueprint of the human gut microbiota[J]. Nature, 2019: 1.

撰稿 | 三明治

责编 | Yanni

参考基因(组)集相关文章

  • Nature子刊:涵盖20多万个基因组的人体肠道微生物参考基因组集

  • Cell:Tara2.0基因表达的改变和群落的更替塑造了全球海洋宏转录组

  • Nature:基于宏基因组测序构建人类肠道微生物组参考基因集

  • NBT:人类微生物组千万基因的参考基因集

  • NC:全球柑橘根际微生物组的结构和功能

  • Cell子刊:人类微生物组参考基因集中的单体基因

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

宏基因组公共数据挖掘基因组集再发Nature相关推荐

  1. 他读博期间连发3篇Science,28岁任武大教授后再发Nature!

    全世界只有3.14 % 的人关注了 爆炸吧知识 来源:募格课堂整合自武汉大学.武汉晚报.半月谈等 有这样一位学者,读博期间以一作身份发表3篇Science,28岁成为武汉大学化学与分子科学学院教授再发 ...

  2. 打破校史!这位参与发表学校首篇Science的博士小姐姐,近日一作再发Nature

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要13分钟 Follow小博主,每天更新前沿干货 本文来源:科研大匠综合自西南交大新闻网.官微.扬华研究生新闻中心 转载自:募格学术 导读: 1 ...

  3. 易汉博承建的数据库再发Nature子刊

    数据资源是未来重要的战略资源.生物数据积累越来越多,高效规范地将其呈现出来有利于数据的进一步挖掘和利用,之前分享了我们承建的三篇NAR的数据库,包括中药数据.海洋天然产物数据和噬菌体预测工具等.这次介 ...

  4. DeepMind 再发 Nature,图神经网络解决物理难题

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:AI科技评论 DeepMind 作为<自然>期刊的大户,最近在 ...

  5. 第八篇!95后天才少年曹原再发Nature!

    来源:自科在线 编辑:nhyilin 2021年7月21日,"石墨烯驾驭者"曹原作为第一作者和通讯作者在国际顶尖学术期刊 Nature 发表了题为:Pauli-limit viol ...

  6. 一个 R 包带你挖掘宏基因组公共数据库

    本文转自"生信菜鸟团",已获授权 背景介绍 目前虽然已经有越来越多的宏基因组数据被上传到公共数据库,但由于种种原因(比如,需要消耗更多计算资源,不同研究之间的表型信息定义或格式不同 ...

  7. DAS工具: 利用去重、聚合和评分的策略从宏基因组中恢复基因组

    推荐指数:★★★★★ 阅读时间:6 分钟 文本字数:2260字 推荐理由: 佳作推荐 文章介绍了一种去重.聚合和评分策略--DAS工具,它灵活的结合了已建立的binning算法的优点.将DAS工具应用 ...

  8. 师从施一公,从造纸工人到清华教授,CNS12篇,柴继杰再发Science

    柴继杰,1966年生于辽宁,现任清华大学生命科学学院教授,博导,国家杰出青年基金获得者,全国优秀科技工作者,谈家桢生命科学创新奖获得者,已发表80多篇SCI,13篇CNS,他引12000+次. 主要科 ...

  9. 再发力!Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新SOTA准确率...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! [导读]无监督学习再发力!Facebook AI 研究团队的陈鑫磊.樊昊棋.Ros ...

最新文章

  1. R语言vtreat包自动处理dataframe的缺失值并生成对应的数据列_isbad来指示数据的原始缺失情况、查看特定字段缺失的那些数据行、查看数据集中多个字段的均值
  2. pytorch loss function 总结
  3. [ARM-assembly]-ARM ASM内联汇编学习
  4. java 安装报错2503_Windows安装Node.js报错:2503、2502的解决方法
  5. python字符串后面添加字符串_什么是字符串?怎样在Python中添加字符串?
  6. 2019 互联网大事记:谁是最后的赢家?
  7. BAD packet signature 18245
  8. php 设置post大小_post 数据大小的限制问题
  9. UVA12321 Gas Stations【贪心】
  10. 基于SSM的学生宿舍管理系统
  11. 关于Session、Cookie、Token你知道多少?
  12. Java - 类与对象
  13. 谷歌浏览器黑色主题设置
  14. Pytorch 实现情感分类
  15. 广告学计算机平面设计(1)形考5,(更新版)国家开放大学电大专科《计算机平面设计(2)》网络课形考任务1-5答案.doc...
  16. FIFO调度算法和LRU算法
  17. oracle裁员原因_导致Oracle全球性裁员的原因有哪些?
  18. 苹果电脑上不错的几款计时软件
  19. k8s----------各种证书配置参数
  20. 树形dp瞎讲+树形dp基础题题解

热门文章

  1. Web Workers API
  2. Vue项目实现web端第三方分享(qq、qq空间、微博、微信)
  3. 揭开网格化管理平台的“面纱”
  4. BCS2022|“体系化防御,数字化运营” 奇安信终端安全能力再升级
  5. Cloud Paks地理数据研究成果|IBM
  6. ResNet,GoogleNet的基本架构,与VGGNet,AlexNet等网络的对比和创新点。
  7. 做提高打字速度的练习后的漫谈
  8. Qt--3D中制作坐标系(5.12)
  9. 2021-02-05仅供自己参考:多态使用
  10. recyclerview滚动到指定条目