纵向微生物组研究可以捕捉微生物组内的时间变化,以获得对微生物系统的机理认识。近日,《Briefings in Bioinformatics》发表综述文章,回顾了纵向微生物组研究的现有统计方法,以强调其优势和局限性。

纵向微生物组研究

分析目标

一项成功的研究始于清晰、明确的科学研究目标。纵向微生物组研究的共同目标:

1)研究感兴趣的群体(如病例与对照组、疾病或治疗组)之间的微生物丰度如何随时间变化,以及微生物丰度与其他因素(如临床结果、疾病或治疗)之间的关联如何随时间变化。在这种情况下,时间和患者或单个组之间差异都可能是有意义的。

2)对具有类似时间丰度模式的微生物进行分组。这种分析往往要求我们首先对每种微生物的时间轨迹进行建模。

3)构建一个微生物网络,了解各组微生物之间的时间关系。

纵向微生物组研究可产生三个分析目标

研究设计

纵向微生物组数据通常来自两种不同的情况:来自设计实验(如小鼠)[L1]和人类随访或队列研究[L2]。对于L1类纵向数据,时间点通常比L2研究紧密,每个受试者的时间点数量相同(或非常相似)。相比之下,L2类数据通常具有受试者时间点数量不均匀和时间点间隔不均匀的特点。此外,在L2研究中,一些外部因素(如饮食)也可能影响微生物组,但可能经常无法测量或不受控制,这使得建模更具挑战性。

微生物组纵向研究的特点

数据特征

L1和L2设计均使用扩增子或宏基因组测序来生成原始数据。由于微生物组数据的性质,这两种测序方法产生的数据具有许多分析挑战,这些数据稀疏、过度分散、高维、多线性、多变量和高度可变。

纵向微生物组研究的统计方法

鉴定不同时间、不同组别、不同组别和不同时间之间丰度不同的微生物

 当前方法

1. Zero-inf lated beta regression Model

ZIBR可以同时评估每个分类群随时间和组间的丰度变化。适用于相对丰度(比例)数据,并使用伯努利分布捕捉微生物的存在或不存在,以及使用贝塔分布捕捉非零丰度。ZIBR具有高度的可行性,可以评估分析目标1中说明的所有效应。

其优点之一是它能够通过使用逻辑组件来解释数据的稀疏性。然而,ZIBR有几个局限性:该模型没有明确说明模型中的受试者内相关结构(即自回归相关结构);ZIBR无法处理给定主题在给定时间点丢失的数据等。

2. Negative binomial mixed model

NBMM可以检测微生物计数(无转换)与协变量(如治疗、表型、年龄、饮食习惯等)之间的关联,同时考虑受试者内部和之间微生物丰度的时间趋势NBMM模型可以用不同的固定效应进行拟合,如时间效应、治疗效应以及时间和治疗之间的交互作用。因此,与ZIBR相似,NBMM也可以评估分析目标1中说明的所有效应。

NBMM可以适应同一受试者观察结果之间不同的相关结构,而ZIBR则没有这种灵活性。然而该方法没有明确地处理零膨胀。

3. Block Bootstrap Method

BBM是纵向微生物组计数数据引导法的扩展,其旨在确定样本组之间的差异丰度,但不关注时间效应。因此,该方法只能识别组间差异表达的分类群。BBM是非参数的,不需要特定的数据分布。它可以处理对象内的依赖性,并解释不同的库大小,以解决数据的组成性质。

作为限制因素,该方法计算量大,需要足够多的时间点(至少五个)来指定两个调整参数(初始区块大小、子采样的重复观察数)。稀疏性和可变性仍然存在问题,需要预先过滤,以去除由于时间变化(技术和生物来源)造成的不必要的噪音。BBM不考虑其他协变量,当所有受试者的观察次数相同时,其表现最佳。在解释方面,该方法评估了一个样本组的丰度是否高于另一个,但没有量化这种差异。

4. SplinectomeR

SplinectomeR是一个R包,它使用加权局部多项式(Loess splines)来总结纵向研究中假设检验的数据。

SplinectomeR中的方法易于解释,可以直接比较多个时间点的观察结果,而无需对这些时间点进行平均或汇总。它们还可以处理缺失或不平衡的数据。然而,这些方法可能会受到异常值的影响,特别是在稀疏数据集中,并且不考虑组成数据。

5. Zero-inf lated Gaussian mixed models

ZIGMM用于解释受试者内的相关性和微生物组数据的其他特性。与上述所有方法类似,ZIGMM也是单变量的。与其他两种零信息方法ZIBR和ZINBMM相比,ZIGMM在计算效率方面优于以前开发的各种方法。与ZIBR和NBMM类似,ZIGMM还可以评估时间效应、组效应和时间×组相互作用效应。

ZIGMM的主要优点是能够模拟受试者内样本之间的时间依赖性效应和相关性。此外,该方法可以包括正态分布和零相关模型的各种固定效应和随机效应。该方法还可以解释样本之间不同的自回归相关结构。最后,该方法可以分析微生物组比例数据以及扩增子或宏基因组测序技术生成的计数数据。然而,ZGMM也遇到了控制假阳性率的拟合问题,特别是在分析复杂数据(包括宏基因组学)时。

6. Bayesian semi-parametric generalized linear model

该方法使用具有均值约束的正则先验来避免可识别性问题,并在微生物变量、样本和时间点之间借用信息。由于数据的高维性和协变量之间的高度相关性,产生了稀疏估计。与其他方法相比,这种方法是多变量的。然而,需要更多的发展来灵活捕捉响应函数中的不同形状,纳入变量选择,并允许时间相关的协变量。由于数据稀疏性,必须谨慎处理后验计算,并且需要纳入先验信息以进行准确推断。

7. Fast zero-inf lated negative binomial mixed model

FZINBMM模型可以评估时间和群体效应以及时间×群体相互作用效应。在此前的模拟和真实数据评估中FZINBMM在经验能力和检测到的分类群的高比例方面优于其他计数方法,如LMMs、NBMMs和ZIGMMs。然而,当数据不是高度稀疏时,FZINBMM的表现与ZIGMMs和NBMMs相似。

性能评估

研究团队模拟数据以评估不同丰度方法的性能:除ZIGMM外,基于计数数据的所有其他方法(NBMM、FZINBMM)在检测时间效应和群体效应方面表现良好。然而,ZIGMM计数模型在检测具有时间和组交互效应的变量方面优于所有方法。在基于相关数据的方法(例如ZIGMM、SplinectomeR)中,ZIBR在检测时间和组效应方面表现良好。

在纵向微生物组研究中,用于确定随时间变化的丰度差异的方法概述

研究团队将所有方法应用于一项纵向研究,调查抗生素治疗后抗万古霉素肠球菌(VREfm)定植期间肠道微生物组的作用:除ZIBR和SplinectomeR外,由于方法的技术限制,所有其他方法在模型拟合过程中至少会出现一个错误;FZINBMM产生的显著分类群数量最多,这一结果可能是由于与初始阶段相比,抗生素和VREfm效应较大。

识别具有类似时间模式的微生物

 当前方法

1. 动态时间规整(DTW)距离

一种基于动态时间规整(DTW)距离的聚类方法以识别具有相似时间模式的分类群。与基于欧氏距离的聚类方法相比,DTW考虑到了跨时间序列的失真,因此适用于识别异相的时间行为。

2. 围绕中心点分割和层次聚类

一项研究中研究人员将这两类聚类算法应用于微生物组时间序列数据。围绕medoids的分区(PAM)是一种实现k-medoids聚类的流行算法,据此,数据被分配到k个聚类中(类似于k-means聚类)。在k-medoids聚类中,每个聚类由聚类中最中心的medoid代表。一个medoid是一个数据点,它使自己与集群中所有其他数据点之间的平均不相似度最小。由于PAM使用medoids而不是平均值,因此与k-means聚类相比,该方法对噪声和异常值的敏感性较低。Hclust是一种分层聚类算法,它采用自底向上的方法根据相似性对分类群进行分组。

3. 使用主成分分析和稀疏主成分分析进行聚类

多变量降维技术主成分分析(PCA)和稀疏主成分分析(sPCA)被用来对具有类似时间模式的分类群进行聚类。当时间点的数量较少(即5-10个),并且预计数据在不同时间段遵循规律和类似的趋势时,这些方法最适合。

性能评估

研究团队模拟数据以评估聚类方法的性能:与其他聚类方法(即PCA、DTW、层次聚类)相比,k-medoid聚类的中值聚类精度最高。然而,正如预期的那样,随着噪声水平的增加,所有方法的聚类精度都会降低。k-medoid聚类、DTW和层次聚类都具有相似的中值聚类精度,但DTW在其精度上具有很高的可变性。

模拟数据研究

聚类方法分别应用于VREfm案例两组:初始阶段(对照组)和VRE阶段(治疗组)。所有四种方法都将与VREfm相关的分类群(即肠球菌科)划分为一个小类群,表明其与其他划分为较大类群的分类群不同。此外,治疗组中属于类杆菌科的两个分类群的丰度随着时间的推移而增加,并通过PCA和DTW聚类被分配到同一个聚类,表明这两种方法表现良好。

了解微生物之间的生物和时间关系

 当前方法

1. Two-stage dynamic Bayesian Nnetwork

TS-DBN构建具有离散和连续变量的网络,其中在离散变量上指定条件概率分布,在连续变量上定义条件线性高斯密度函数。在样本量较小的情况下,纳入临床和人口统计学变量可能会导致过度拟合。目前,该方法仅限于两个时间点,对于稀有分类群可能表现不佳,因为网络连接显示出较低的置信度。

2. Granger causality based interaction networks

web应用程序“TIME”中的网络模型基于Granger因果关系,该因果关系评估给定个体两个分类群“A”和“B”之间的成对因果关系。除了成对Granger因果关系外,该方法还使用“Granger-Lasso因果关系”识别所有分类群之间的潜在因果关系。这些网络中的因果关系是统计预测,不能解释因果关系(相互作用可能是由于间接原因)。因此,应谨慎解释。结合其他功能数据,如代谢相关性,可以加强解释。这种方法的一个局限性是在构建交互网络时没有考虑临床或人口统计学变量。

3. Microbial time-series prior Lasso

MTPLasso可以推断微生物之间的相互作用。与基于Granger因果关系的交互网络类似,该方法也用于开发针对个体的网络。与之前的方法类似,MTPLasso在建模交互网络时也忽略了任何临床或人口统计学变量。

差异丰度和聚类方法的主要局限性是数据的组成性质。通过忽略组成性,这些方法可能会产生有偏见或误导性的结果。此外,大多数差异丰度方法是单变量的,因此忽略了微生物之间的相互关系,这可能导致虚假结果。在实践中,研究人员可能倾向于为所有分类群拟合特定方法,而不管其稀疏程度如何。因此,可以通过更大的灵活性来改进零相关模型,根据每个分类单元的稀疏程度包括或排除其零相关部分。

网络模型有望用于纵向微生物组数据分析,但仍处于起步阶段。这些模型推断微生物之间的相互作用,以了解微生物在疾病中的作用和影响,以及它们随时间的协同进化。另一种分析是调查微生物网络随时间的变化(例如由于抗生素干预)。网络模型未来有希望的应用是设计合成微生物组来验证数据驱动的生态网络。

首发公号国家基因库大数据平台

参考文献

Kodikara S, Ellul S, Lê Cao K A. Statistical challenges in longitudinal microbiome data analysis[J]. Briefings in Bioinformatics, 2022, 23(4): bbac273.

图片均来源于参考文献,如有侵权请联系删除。

热点综述 | 纵向微生物组研究的统计方法总结相关推荐

  1. Microbiome:微生物组研究中优化方法和规避误区

    本网对Markdown排版支持差,请跳转至 "宏基因组"公众号阅读: 微生物组研究中优化方法和规避误区 2017年五月发表在Microbiome上的综述,对于老司机会有很多共鸣,对 ...

  2. BBI:Eran Elinav组综述在微生物组研究中使用宏转录组

    在微生物组研究中使用宏转录组 Use of Metatranscriptomics in Microbiome Research https://doi.org/10.4137/BBI.S34610 ...

  3. COM:中科院遗传发育所发表“重组菌群体系在根系微生物组研究中应用”的重要综述

    文章目录 新闻稿 中科院遗传发育所发表"重组菌群体系在根系微生物组研究中的应用"的重要综述 根系微生物组研究中的合成群落还原法 摘要 引言 从整体主义到还原主义 图1. 在田间.温 ...

  4. Microbiome:在人工肠道中建立动态线性模型指导设计和分析微生物组研究

    文章目录 在人工肠道中建立动态线性模型指导设计和分析微生物组研究 导读 摘要 主要结果 图1. 技术变异掩盖了微生物动态的模型 图2. 10个最高丰度细菌科随时间变化 图3. 生物和技术变异的结构和幅 ...

  5. Cell综述:人类微生物组研究中的单细胞方法

    信息 论文题目:Single-cell approaches in human microbiome research 期刊:Cell IF:66.850 发表时间:2022 摘要 微生物培养和宏组学 ...

  6. Protein Cell | 中国农科院基因组所刘永鑫组综述微生物组研究的过去、现在和未来(大众评审截止26号20点)...

    微生物组研究展望:过去.现在和未来 Microbiome research outlook: past, present, and future 2023-5-23,Protein & Cel ...

  7. BBI综述:在微生物组研究中使用宏转录组

    在微生物组研究中使用宏转录组 Use of Metatranscriptomics in Microbiome Research https://doi.org/10.4137/BBI.S34610 ...

  8. 中科院遗传发育所发表“重组菌群体系在根系微生物组研究中应用”的重要综述...

    新闻稿 中科院遗传发育所发表"重组菌群体系在根系微生物组研究中的应用"的重要综述 微生物学权威杂志<Current Opinion in Microbiology>杂志 ...

  9. ISME Comm | 机器学习和深度学习在微生物组研究中的应用

    Review Article,2022-10-06,ISME Communications, DOI:https://doi.org/10.1038/s43705-022-00182-9 第一作者:R ...

最新文章

  1. hdu1160FatMouse's Speed(DP)
  2. 抛开设计模式,软件设计的微思考
  3. 基于容器宽度的字体缩放
  4. cmyk图像处理matlab,数字图像处理及MATLAB实现 全套课件.pptx
  5. ShopEx 手动使用分类做导航时,获取当前导航的焦点状态
  6. python编写arcgis脚本教程_ArcGIS使用Python脚本工具
  7. JavaScript的封装
  8. 装了linux后windows被破坏了,windows下可以破坏linux的数据么-
  9. 编译安装dropbear
  10. IIS连接oralce数据提示“System.Data.OracleClient 需要 Oracle 客户端软件 8.1.7 或更高版本”...
  11. 《Algorithms 4th Edition》读书笔记——2.4 优先队列(priority queue)-Ⅵ
  12. 【对抗攻击代码实战】对抗样本的生成——FGSM
  13. 华为HCIP(HCNP)笔记,还不快快收藏!
  14. js 监听浏览器刷新操作
  15. 实战 Mantle 解析界面app 科技频道
  16. c# 时间格式化为英文_C# DateTime日期格式化
  17. ModelSim 与Debussy联调
  18. Exporter介绍与指标数据汇总(完结)
  19. 《MINECRAFT我的世界 新手完全攻略(第3版)》一2.2 去找树
  20. kindle亚马逊个人文档不显示_Kindle 没东西看?一个插件就搞定!

热门文章

  1. 键盘按键错乱,鼠标也失灵怎么办。。。。。
  2. Django应用与分布式路由
  3. 【Leetcode】Customers Who Never Order
  4. 开关二极管IN4148
  5. Python数据类型(一)数字类型
  6. c++课程设计图书馆管理系统总结
  7. 404报错:The origin server did not find a current representation for the target resource解决的两种办法
  8. 超赞~免费生成国庆风格微信头像API接口
  9. markDown简单使用说明
  10. 会计专业与计算机专业结合复合型,我国会计电算化的现状、问题及对策