整合高通量组学数据集鉴定潜在机制联系的计算框架

A computational framework to integrate high-throughput ‘-omics’ datasets for the identification of potential mechanistic links

Nature Protocols, [12.423], Article, 2018-10-31

原文链接: http://dx.doi.org/10.1038/s41596-018-0064-z

第一作者:Helle Krogh Pedersen

通讯作者:Oluf Pedersen, Henrik Bjørn Nielsen

主要单位:加州大学洛杉机分校,医学院

其它作者:Sofia K Forslund,  Valborg Guðmundsdóttir,  Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic

导读

微生物组和代谢组等高维数据和表型关联分析复杂、解读困难;

分析的核心思想是降维:代谢组和微生物组物种通过数据驱动的聚类或分箱法降维;微生物组功能组成基于知识驱动如KEGG层级分类法降维;再筛选与表型显著相关的数据特征关联分析;

研究人员可以整理多组学和表型数据,获得出版级关联分析结果图表,快速建立宿主和微生物组与疾病严重程度和治疗结果间的潜在联系;

本计算框架由R脚本编写,可在个人电脑上1小时完成分析。

摘要

背景:我们最近发表了三管齐下的关联分析,整合宏基因组测序的人类肠道微生物组数据、非靶向的血清代谢组数据和宿主的生理指标。代谢组和微生物组数据是高维的,对于数据的整合提出了挑战。

结果:我们提出了逐步的计算方法,详细讨论了降维技术的使用,以及解析异质类型数据整合的方法。降维的方法主要结合数据标准化和共丰度基因和代谢物的分箱,以及整理已知的生物学知识。使用先验知识克服微生物组物种功能冗余是我们方法的核心。使用此框架,其它研究人员可以整理多组学和表型数据(如队列中建立宿主和微生物组与疾病严重程度和治疗结果间的联系),建立三管齐下的联系,用于实验设置。

结论:此框架最初是用于人类代谢组和微生物组研究,同样适用于其它物种和环境样本,同样适合整合其它组学如宏转录组、宏蛋白组。提供的R脚本在个人电脑上运行1小时左右。

关键点

知识点1. 原始数据的序列处理和和输出文件

在整合分析前,数据必须进行处理。对于微生物组数据,包括:(i) 序列预处理,包括质控、过滤宿主序列;(ii) 构建参考基因集,或选择己发表的基因集作为参考;(iii) 比对参考序列定量;(iv) 样本标准化,以便于下游可比;(v) 对基因分箱为物种组,降低维度。

对于代谢组数据,典型的处理流程包括:(i) 原始文件导入;(ii) 峰检测;(iii) 过滤和平滑;(iv) 峰列表去同位素;(v) 比对;(vi) 填补空白;(vii) 峰整合;(viii) 标准化;(ix) 最终峰或特征的鉴定

尽管这些步骤不在本方法的范畴内,我们引用我们之前的文章,或补充方法来进一步描述微生物组和代谢组数据的预处理,以便产生本方法的输入文件。

可用的示例数据保存于Git仓库 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括预处理微生物组、代谢组数据,以及397个体的表型信息,以及一系列功能微生物注释,宏基因组物种组和相应的微生物注释,以及手动注释的代谢物簇,详细描述在材料部分。

这些文件经历了上面数不尽的预处理过程。对于新数据,必须按具体的实验方法、实验过程和分析平台来进行详细的预处理。

图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图

在微生物组和代谢组预处理后,代谢物聚类为共丰度簇(5-7),微生物组数据整理为物种组成和KEGG模块丰度矩阵。下一步,表型过滤阶段,只保留与表型统计显著的features(8-12),这些features将用于跨领域的相关或关联分析(13-15)。最终,使用leave-one-MGS-out分析鉴定KEGG模块和对应驱动物种与HOMA-IR关联(17-19)。FDR代表错误发现率,IR代表胰岛素抗性,IS代表胰岛素敏感,Mod模块,neg负相关,pos正相关。本图修改自Pdersen等出版书籍中图片,己获授权。

表1. 基于数据和知识的降维方法

微生物组数据驱动的方法主要有Binning,而知识驱动的方法主要是各功能注释数据库的层级分类。

知识点2. 驱动物种分析背后的原理

图2. leave-one-MGS-out方法鉴定驱动物种的原理

为了简化说明原理,我们以一个KEGG模块为例,它包括三个KOs(KO1,KO2,KO3),并且只有一个KEGG模块与HOMA-IR表型用于关联分析

a. 计算Spearman相关系数(SCC)这三个KO与HOMA-IR相关,b. 这三个KO相关的中位数使用代表KEGG信号。

c, 重复a,b方法于所有基因,组成假定的MGS,移除MGSi

d, 计算移除前后的的信号变化。最后c,d步来计算每个MGS。可以鉴定物种驱动的KEGG模块。

图3. 微生物组功能与表型和代谢物簇的关联

流程15步产生的样本图。表型组、肠道菌群和代谢组的关联图谱。

左侧面板为KEGG模块相关的表型,颜色为关联的方向,红为负相关,蓝为正相关,灰为不显著。右则为KEGG与代谢模块间相关,颜色代表Spearman相关系数,并标注FDR显著性统计。

结果的解释,我们看到KEGG模块和代谢簇分为两组:代谢偏好和不偏好两类由胰岛素抗性决定,发现广泛的、正或负相关的、跨组学的关联;跨领域的关联分析,经常可以看到规律。但前提是,在一方向特征在相同的维度上参与,如健康或疾病在相关稳定时,可以预测一些相关的行为。

图4. 以BCAA生物合成模块为例显示评估相关细节

leave-one-MGS-out第19步产生的结果样本图展示整合的BCAA生物合成模块(包括M00019, M00570, M00535和M00432共13个KOs)。

a. 模块中KOs的SCC分布和背景(蓝)比较;

b. 关键模块在总体中去除,去关联中位数的影响;

c. 基于背景校正的相关系数原理。

表2. 常见问题和解决方案

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

Nature子刊:整合宏基因组、代谢组和表型分析的的计算框架相关推荐

  1. Nature Protocols:整合宏基因组、代谢组和表型分析的的计算框架

    整合高通量组学数据集鉴定潜在机制联系的计算框架 A computational framework to integrate high-throughput '-omics' datasets for ...

  2. Nature子刊:宏基因组中挖掘原核基因组的分析流程

    宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...

  3. Nature子刊:宏基因组组装基因组实现谱系解析

    宏基因组组装基因组实现谱系解析 MAGs achieve lineage resolution Nature Microbiology [IF: 17.745] DOI:https://doi.org ...

  4. 你想要的宏基因组-微生物组知识全在这(190101)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训.会议.招聘 科研经验 软件和数据库 扩增子分析 宏基因组分析 Linux与Shell R统计绘图 实验设计与技术 基础知识 一作解读 ...

  5. 你想要的宏基因组-微生物组知识全在这(2020.5)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 会议.招聘广告 科研经验 软件流程 扩增子分析 扩增子教程 QIIME2教程(2020.2) 易生信-扩增子教程 Webserver在线分析 ...

  6. 你想要的宏基因组-微生物组知识全在这(2023.01)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

  7. 你想要的宏基因组-微生物组知识全在这(1909)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训会议.招聘广告 科研经验 软件流程 扩增子分析 宏基因组分析 三代测序专题 Linux与Shell R统计绘图 实验设计与技术 基础知识 ...

  8. 你想要的宏基因组-微生物组知识全在这(1908)

    文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训会议.招聘广告 科研经验 软件流程 扩增子分析 宏基因组分析 Linux与Shell R统计绘图 实验设计与技术 基础知识 作者解读 文 ...

  9. 你想要的宏基因组-微生物组知识全在这(2020.02)

    宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创立"宏基因组"公众号,联合海内外同行共同 ...

最新文章

  1. centos6.5搭建lnmp环境
  2. 74HC595的使用
  3. java shiro 访问频率_java shiro配置记住密码功能 RememberMe
  4. python解释器的工作原理_Python GIL全局解释器锁详解(深度剖析)
  5. 业务自助分析怎么推?中梁集团办的这场BI建模大赛值得借鉴
  6. python模块之codecs: 自然语言编码转换
  7. 重学JAVA基础(三):动态代理
  8. linux 修改分辨率lcd_如何在Ubuntu 12.04中为LCD添加显示分辨率? xrandr问题
  9. log4j:warn找不到_修复log4j WARN找不到记录器的附加程序,请正确初始化log4j系统
  10. 大数据在智慧城市建设中的作用与深度应用
  11. c语言运算符的三大特性,逻辑运算符及其优先级,C语言逻辑运算符及其优先级详解...
  12. CE修改器学习历程之下载、安装和汉化
  13. 微信电脑版多用户登录
  14. 使用CLion开发STM32时无法生成hex文件的解决办法
  15. 两个案例带你搞定JBoss Marshalling编解码在Netty中的应用
  16. 无法连接imssage信息服务器,苹果iPhone X用iMessage发短信信息总是失败解决方法
  17. 【马司机带带我】电话骚扰自动化及其对策
  18. 机场文员面试从何下手
  19. 计算机内存改成多少合适,win7电脑虚拟内存设置多少合适
  20. 万字好文!Docker环境部署Prometheus+Grafana监控系统

热门文章

  1. 为什么阿里P8、P9技术大牛反复强调“结构化思维”?
  2. 程序员因中年危机从北京回老家事业单位:工资从60万爆降到6万
  3. 7个实战案例、24个学习视频、12G干货资料...今天带你免费入门Python数据分析!...
  4. Ubuntu 16.04 LTS界面美化
  5. 进程状态控制-进程的阻塞和唤醒
  6. 嵌入式学习笔记之三 (uboot我来看)
  7. python类的私有属性_Python 的私有属性和‘受保护的’属性
  8. Linux中的文件系统和磁盘管理
  9. EPSON机器人的以太网通讯简单总结
  10. php zip压缩命令,php zip压缩文件