宏基因组中短序列的注释是理解测序微生物群落潜在功能的重要步骤之一。单纯利用局部匹配的注释容易混淆那些蛋白同源性且局部序列非常相似的序列,进而不能真实准确反映复杂蛋白质家族中多变的结构和功能域。

今天我们介绍一种新方法MetaGeneHunt,该方法可以识别特定的蛋白质结构域,并根据结构域的长度对hit-counts进行标准化。使用MetaGeneHunt对MG-RAST对公开获取的宏基因组进行分析,包括哺乳动物微生物群和Twin Gut肠道菌群研究,以评估短序列中含GH蛋白的频率和位于GH区域的匹配频率。

在对糖苷水解酶(GHs)的研究,发现在所有样本中4726,023条含有GH区域蛋白匹配的短读序列中,有58.3%的序列位于目标区域之外。接下来,在比较样本之前,将匹配到目标区域的hit-counts标准化,以说明对应的域长度。肠道和盲肠中的菌群显示出与不同微生物组合相匹配的GH谱特征。

相反,胃和结肠的菌群在结构和功能上显示出更多样性和多变性。在样本中,尽管有波动,但碳水化合物处理的潜在功能变化与群落组成的变化相关。这表示,在利用MG-RAST平台处理宏基因组测序序列时,MetaGeneHunt是一种能快速准确地识别短序列宏基因组中离散蛋白结构域的新方法。

在过去的几十年里,宏基因组DNA的高通量测序已经产生了大量的序列,这些序列的特征为我们了解微生物群落的结构和功能提供了许多认知。例如,截至2019年12月,MG-RAST托管了约40万个可公开访问的带注释的数据集。在数据处理过程中,不考虑目标区域(或蛋白质)的长度会导致两个主要的系统偏差

首先,目标区域越长,他们的频率就越容易被高估。其次,如果数据处理涉及稀疏性,较短的、不太丰富的域,尽管重要,也可能被丢弃。为了解决这些问题,研究人员设计了MetaGeneHunt来精确注释从MG-RAST检索到的短序列宏基因组中的蛋白质结构域。MetaGeneHunt将MG-RAST提供的短序列局部比对与M5nr数据库中精确的基于PFam的蛋白质结构域识别相结合,以在公共可访问数据集中识别蛋白质结构域。

方 法

MetaGeneHunt简要说明:

MetaGeneHunt的设计基于MG-RAST平台注释的数据集的。在使用GeneHunt创建的M5nr数据库中,MetaGeneHunt使用了糖苷水解酶和辅助结构域(如CBMs)的精确的特定结构域注释(PFam)作为参考注释表(RAT)。

首先,MetaGeneHunt使用MG-RAST应用程序接口从MG-RAST(“330”和“650”文件)检索M5nr注释的宏基因组。接下来,使用来自RAT的注释命中的MD5id,在文件“650”中识别与潜在的GHs匹配的序列。

接下来,对于这些局部匹配,将精确对齐位置与RAT中特定于域的注释进行比较。如果查询中的>20AAs与特定的蛋白质结构域(考虑到RAT中的HMM-envelope位置)对齐,则该结构域注释被转移到查询中。

相反,如果查询的>20AAs匹配在目标区域之外(例如,在连接域、辅助域、信号肽中),则该注释被认为是否定的。用户可以随意修改重叠(overlapping)的阈值。接下来,从序列聚集文件( “330”文件)中检索每个识别出的命中的实际序列计数。最后,在后续的数据处理和标准化过程中,根据Pfam数据库中蛋白质结构域的大小,对每个蛋白质结构域的命中计数进行标准化

方法验证:

文中使用的原始数据和预处理数据可在MG-RAST服务器上公开访问。在mgp20861项目中可获得对应于〜555百万个100 bp序列的小鼠微生物组数据。使用MG-RAST API 检索了哺乳动物微生物组数据(mgp116)和双肠肠道菌群研究(mgp10)其他数据集。哺乳动物微生物组研究糖苷水解酶(GHs)和相关酶的附加注释表是从Brian Muegge(直接对应)获得的。使用MG-RAST API检索了预处理的数据,包括从门到属水平的读物分类注释。数据分析和统计使用R统计语言。

主 要 结 果

1. 糖苷水解酶的识别,识别蛋白质结构域并考虑其长度产生了一个健壮的功能注释系统,对hit-count的标准化反应了目标区域的实际分布。

a).横轴为目标区域的原始hit-count,纵轴为标准化后的hit-count,图中的颜色阶梯表示目标区域的长度。这种标准化主要影响长度短的域(例如,GH78、GH25)、小的亚域(例如,GH31N、GH36C)和目标区域的附属域(例如,CMB5_12)。

b).小鼠胃肠道中目标区域的标准化后的hit-count(仅显示大于100的hit-count的区域),可见,标准化后的hit-count与结构域长度无关(附加文件中有对两者做相关分析,结果分别为P.pearson=0.38,P.spearman=0.33)

c).热图显示了小鼠胃肠道中最受样本来源影响的被稀疏标准化的GH区域的分布(two-way方差分析)。纵轴的注释列Mx:F/M:S/I/C/L分别表示小鼠(样本号):雌性/雄性:胃/肠/盲肠/结肠

2. 小鼠肠道菌群的结构,与盲肠中的微生物群落相比,结肠与肠道中的微生物群落结构更相似结肠和胃中的微生物群落有较高的相似性

a).对受样本来源影响较大的样本根据属水平进行样本聚类(Bray-Curtis距离指数,complete linkage)。

b).样本间的微生物群落组成,只展示了相对丰度至少占群落中1%的属水平物种(V:疣微菌门,B:拟杆菌门,A:放线菌门,F:厚壁菌门)。

c).NMDS分析(2D stress=0.020),展示了在样本聚类中都存在的这些菌属,在b)中的主要类群用标签指示,不同门水平按颜色区分,点的大小反映该属在样本中的最大频率。

微生物组中的结构-功能关系,多样性仍然与潜在功能高度相关。胃和盲肠的群落在结构和功能上是最多样化的。其次,肠道中的群落组成和功能大多是保守的,而与保守的微生物群落相关的大肠则显示出可变功能潜力。

对同一位置的样本的微生物群落结构和功能差异进行成对比较(Bray-Curtis),线条为线性回归的结果。在胃,肠,盲肠和结肠中,属水平群落结构的变化与多糖解构功能的相关性分析结果表示除大肠外,其余的P.pearson的值都在0.001以下。胃和盲肠的群落在结构和功能上是最多样化的,尽管多样性仍然与功能潜力高度相关。其次,肠道中的群落组成和功能大多是保守的,而与保守的微生物群落相关的大肠则显示出可变的功能潜力。

结 论

MetaGeneHune提供了一种新的方法来识别短序列宏基因组中的GHs及其相关结构域。识别结构域而不是蛋白质是至关重要的,因为GH结构域与许多可变结构域相关。这种新方法基于GeneHunt注释方法,并对其进行补充,旨在分析MG-RAST中的短序列宏基因组。因此,它不需要大型计算机基础设施。

通过这种新方法对小鼠胃肠道菌群的GHs研究发现,在胃中,虽然富含碳水化合物处理的酶,但相对于胃肠道的其他部分,胃中没有特定酶可供选择;在肠道中,出现了更保守的菌群,最为富集的是拟杆菌门,它们的潜在功能主要在多糖处理上;来自结肠和胃的菌群虽然是距离最远的,但在结构和功能上却表现出高度的相似性

研究人员认为在未来,利用GeneHunt和MetaGeneHunt相结合创建新的专用参考注释表将为研究宏基因组的潜在功能提供新的更有效的途径。

MetaGeneHunt和GH的RAT可在GitHub上公开访问。(https://github.com/renober/MetaGeneHunt)

参 考 文 献

Berlemont R, Winans N, Talamantes D, Dang H, Tsai HW.MetaGeneHunt for protein domain annotation in short-read metagenomes. Sci Rep.2020 May 7;10(1):7712. doi: 10.1038/s41598-020-63775-1. PMID: 32382098; PMCID:PMC7205989.

Muegge BD, et al. Diet drives convergence in gut microbiomefunctions across mammalian phylogeny and within humans. Science.2011;332:970–4. doi: 10.1126/science.1198719

Turnbaugh PJ, et al. A core gut microbiome in obese and leantwins. Nature. 2009;457:480–484. doi: 10.1038/nature07540.

Berlemont R, Martiny AC. Glycoside Hydrolases acrossEnvironmental Microbial Communities. PLOS Comput. Biol. 2016;12:e1005300. doi:10.1371/journal.pcbi.1005300.

Lozupone CA, Stombaugh JI, Gordon JI, Jansson JK, Knight R. Diversity,stability and resilience of the human gut microbiota. Nature. 2012;489:220–30.doi: 10.1038/nature11550.

Sharpton TJ. An introduction to the analysis of shotgunmetagenomic data. Front. Plant Sci. 2014;5:209. doi: 10.3389/fpls.2014.00209.

相关阅读:

谷禾健康:多快好省的宏基因组研究技巧 — 资深专家分享​zhuanlan.zhihu.com

谷禾健康:如何读懂和利用你的微生物多样性测序结果?​zhuanlan.zhihu.com

谷禾健康:宏基因组的一些坑和解决方案​zhuanlan.zhihu.com

谷禾健康:最新研究 《CELL》纵向多组学揭示肠易激综合征(IBS)的潜在机制​zhuanlan.zhihu.com

谷禾健康官网:

谷禾健康 - 让你我更健康​www.guhejk.com

谷禾健康 是谷禾面向健康领域的品牌,通过无创采集微量粪便样品,常温快递运输至谷禾检测中心,经全自动化样品处理和提取后大规模高通量测序获取菌群基因数据并进行分析解读,凭借全球领先的样本积累和业界独有的人工智能算法实现了基于肠道菌群的疾病预测和系统健康风险评估, 以及肠道菌群,病原物感染,重金属污染以及营养物质和激素代谢水平等在内的综合健康风险提示,并提供精准个性化的健康管理方案。公司成立于2012年,总部位于杭州,拥有优秀的研发团队和独立实验室,经过多年的积累,已完成超7万例临床肠道菌群样本检测,并构建了超过25万各类人群样本数据库。
谷禾健康的服务旨在通过持续不断的研发和改进,大量自动化提升效率,降低检测成本,为广大消费者提供更好更有价值的产品。
联系方式:400-161-1580

databasemetadata获取表注释_宏基因组测序中短序列的注释相关推荐

  1. 宏基因组应用_宏基因组及宏转录组测序揭示极端环境微生物的生态学作用

    中山大学与千年基因合作应用宏基因组及宏转录组测序对极端环境酸性矿山废水(Acid mine drainage, AMD)中的微生物群落进行研究,相关成果于11月7日发表于The ISME Journa ...

  2. 内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征...

    导读 人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战.为了提高基因组的组装性能,本研究采用了Illumina H ...

  3. Nature:基于宏基因组测序构建人类肠道微生物组参考基因集

    文章目录 基于宏基因组测序构建人类肠道微生物组参考基因集 文章影响 作者简介 热心肠日报 摘要 正文 宏基因组测序肠道微生物组 图1. 人类肠道微生物组的覆盖度 人类肠道微生物组的基因集 图2. 预测 ...

  4. Nature综述:宏基因组测序研究耐药基因的方法和资源

    本文转自红皇后学术,链接 https://mp.weixin.qq.com/s/2QMrq6hwr4mIPSpe_rfXJg 论文信息 论文题目:Sequencing-based methods an ...

  5. mSystem:鸟枪法宏基因组测序之外我们还能做什么

    文章目录 鸟枪法宏基因组测序之外 摘要 关键词 前言 耦合稳定性同位素示踪与基因组分辨的宏基因组学 靶向探索"微型宏基因组" 链接可移动元件与微生物宿主 Reference 猜你喜 ...

  6. 易基因 | 宏基因组测序带给了我们什么?

    关于宏基因组测序: 直接对提取的全宏基因组DNA建立随机小片段文库,能够获取更多的序列信息.通过组装.ORFs预测与注释,通过各种大型公共数据库进行相应注释,高精度解析微生物群落结构与功能,包括特色的 ...

  7. 随机宏基因组测序数据质量控制和去宿主的分析流程和常见问题

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议点击文末阅读原文 ...

  8. 宏基因组测序实验分析方法

    宏基因组测序实验分析方法-功能分析基于reads 1 使用ctab法或相应试剂盒提取样本中的总 DNA: 2 DNA样品检测合格后,使用Covaris超声波破碎仪随机打断,再经末端修复.加A尾.加测序 ...

  9. ISME | 通过长读长宏基因组测序揭示南极土壤未培养细菌的生物合成潜力

    关注我们 一起探索微生物领域的奥妙 摘要 日趋严重的抗生素抗性问题使得研究者们将目光转移到可能是新的抗生素来源的未培养细菌上.扩增子测序与短读测序分析表明宏基因组中存在多样化的生物合成基因簇(BGC) ...

最新文章

  1. 惊呆了!两人发现抵用券漏洞,疯狂“薅羊毛”获利 770 余万
  2. 详解MariaDB数据库的触发器
  3. RedHat的yum源修改为CentOS的yum源
  4. 关于在WebForm页面使用Ajax
  5. 三星C8手机如何关闭语言自动报号,三星手机解锁
  6. 剑指Offer_14_链表中倒数第k个结点
  7. leetcode刷题 66 67
  8. 存储安全与数据恢复基础手册-服务器篇
  9. windows7开启虚拟wifi和虚拟无线AP的方法
  10. java boolean 多线程_JAVA多线程两个实用的辅助类(CountDownLatch和AtomicBoolean)
  11. 2020年净利润腰斩,麦格纳要转型“造车”?
  12. 判断平面内两直线平行c语言,5.2 平行线及其判定教学设计模板
  13. Blender 投影切割-删除重叠的平面
  14. 阶乘 java_Java 实例 – 阶乘
  15. 苹果手机铃声制作教程
  16. 在一维的世界里寻找迭代次数的影子
  17. python实现对图片的一些简单处理
  18. Guava学习之Map
  19. 光电耦合器电路应用符号
  20. kali 利用msf通过win7永恒之蓝漏洞获取权限

热门文章

  1. 在Oracle 11g中用看Oracle的共享内存段---------IPCS
  2. linux 管道和重定向
  3. windows XP cmd命令集
  4. 重磅开源!推荐一个以最优惠的方式购买极客时间课程的开源项目!
  5. 启动docker容器时报错:iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 5000 -j DNAT -
  6. 【收藏】SpringBlade开发手册地址
  7. 【收藏】deepin环境安装nodejs
  8. Scala元组数据的访问
  9. MySQL数据库的备份和还原
  10. JVM 的内存模型及jstat命令的使用