文章目录

  • 整合高通量组学数据集鉴定潜在机制联系的计算框架
    • 导读
    • 摘要
    • 关键点
      • 知识点1. 原始数据的序列处理和和输出文件
      • 图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图
      • 表1. 基于数据和知识的降维方法
      • 知识点2. 驱动物种分析背后的原理
      • 图2. leave-one-MGS-out方法鉴定驱动物种的原理
      • 图3. 微生物组功能与表型和代谢物簇的关联
      • 图4. 以BCAA生物合成模块为例显示评估相关细节
      • 表2. 常见问题和解决方案
    • 猜你喜欢
    • 写在后面

整合高通量组学数据集鉴定潜在机制联系的计算框架

A computational framework to integrate high-throughput ‘-omics’ datasets for the identification of potential mechanistic links

Nature Protocols, [12.423], Article, 2018-10-31

原文链接: http://dx.doi.org/10.1038/s41596-018-0064-z

第一作者:Helle Krogh Pedersen

通讯作者:Oluf Pedersen, Henrik Bjørn Nielsen

主要单位:加州大学洛杉机分校,医学院

其它作者:Sofia K Forslund, Valborg Guðmundsdóttir, Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic

导读

微生物组和代谢组等高维数据和表型关联分析复杂、解读困难;

分析的核心思想是降维:代谢组和微生物组物种通过数据驱动的聚类或分箱法降维;微生物组功能组成基于知识驱动如KEGG层级分类法降维;再筛选与表型显著相关的数据特征关联分析;

研究人员可以整理多组学和表型数据,获得出版级关联分析结果图表,快速建立宿主和微生物组与疾病严重程度和治疗结果间的潜在联系;

本计算框架由R脚本编写,可在个人电脑上1小时完成分析。

摘要

背景:我们最近发表了三管齐下的关联分析,整合宏基因组测序的人类肠道微生物组数据、非靶向的血清代谢组数据和宿主的生理指标。代谢组和微生物组数据是高维的,对于数据的整合提出了挑战。

结果:我们提出了逐步的计算方法,详细讨论了降维技术的使用,以及解析异质类型数据整合的方法。降维的方法主要结合数据标准化和共丰度基因和代谢物的分箱,以及整理已知的生物学知识。使用先验知识克服微生物组物种功能冗余是我们方法的核心。使用此框架,其它研究人员可以整理多组学和表型数据(如队列中建立宿主和微生物组与疾病严重程度和治疗结果间的联系),建立三管齐下的联系,用于实验设置。

结论:此框架最初是用于人类代谢组和微生物组研究,同样适用于其它物种和环境样本,同样适合整合其它组学如宏转录组、宏蛋白组。提供的R脚本在个人电脑上运行1小时左右。

关键点

知识点1. 原始数据的序列处理和和输出文件

在整合分析前,数据必须进行处理。对于微生物组数据,包括:(i) 序列预处理,包括质控、过滤宿主序列;(ii) 构建参考基因集,或选择己发表的基因集作为参考;(iii) 比对参考序列定量;(iv) 样本标准化,以便于下游可比;(v) 对基因分箱为物种组,降低维度。

对于代谢组数据,典型的处理流程包括:(i) 原始文件导入; (ii) 峰检测;(iii) 过滤和平滑;(iv) 峰列表去同位素;(v) 比对;(vi) 填补空白;(vii) 峰整合;(viii) 标准化;(ix) 最终峰或特征的鉴定

尽管这些步骤不在本方法的范畴内,我们引用我们之前的文章,或补充方法来进一步描述微生物组和代谢组数据的预处理,以便产生本方法的输入文件。

可用的示例数据保存于Git仓库 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括预处理微生物组、代谢组数据,以及397个体的表型信息,以及一系列功能微生物注释,宏基因组物种组和相应的微生物注释,以及手动注释的代谢物簇,详细描述在材料部分。

这些文件经历了上面数不尽的预处理过程。对于新数据,必须按具体的实验方法、实验过程和分析平台来进行详细的预处理。

图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图

在微生物组和代谢组预处理后,代谢物聚类为共丰度簇(5-7),微生物组数据整理为物种组成和KEGG模块丰度矩阵。下一步,表型过滤阶段,只保留与表型统计显著的features(8-12),这些features将用于跨领域的相关或关联分析(13-15)。最终,使用leave-one-MGS-out分析鉴定KEGG模块和对应驱动物种与HOMA-IR关联(17-19)。FDR代表错误发现率,IR代表胰岛素抗性,IS代表胰岛素敏感,Mod模块,neg负相关,pos正相关。本图修改自Pdersen等出版书籍中图片,己获授权。

表1. 基于数据和知识的降维方法

微生物组数据驱动的方法主要有Binning,而知识驱动的方法主要是各功能注释数据库的层级分类。

知识点2. 驱动物种分析背后的原理

图2. leave-one-MGS-out方法鉴定驱动物种的原理

为了简化说明原理,我们以一个KEGG模块为例,它包括三个KOs(KO1,KO2,KO3),并且只有一个KEGG模块与HOMA-IR表型用于关联分析

a. 计算Spearman相关系数(SCC)这三个KO与HOMA-IR相关,b. 这三个KO相关的中位数使用代表KEGG信号。

c, 重复a,b方法于所有基因,组成假定的MGS,移除MGSi

d, 计算移除前后的的信号变化。最后c,d步来计算每个MGS。可以鉴定物种驱动的KEGG模块。

图3. 微生物组功能与表型和代谢物簇的关联

流程15步产生的样本图。表型组、肠道菌群和代谢组的关联图谱。

左侧面板为KEGG模块相关的表型,颜色为关联的方向,红为负相关,蓝为正相关,灰为不显著。右则为KEGG与代谢模块间相关,颜色代表Spearman相关系数,并标注FDR显著性统计。

结果的解释,我们看到KEGG模块和代谢簇分为两组:代谢偏好和不偏好两类由胰岛素抗性决定,发现广泛的、正或负相关的、跨组学的关联;跨领域的关联分析,经常可以看到规律。但前提是,在一方向特征在相同的维度上参与,如健康或疾病在相关稳定时,可以预测一些相关的行为。

图4. 以BCAA生物合成模块为例显示评估相关细节

leave-one-MGS-out第19步产生的结果样本图展示整合的BCAA生物合成模块(包括M00019, M00570, M00535和M00432共13个KOs)。

a. 模块中KOs的SCC分布和背景(蓝)比较;

b. 关键模块在总体中去除,去关联中位数的影响;

c. 基于背景校正的相关系数原理。

表2. 常见问题和解决方案

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

Nature Protocols:整合高通量组学数据集鉴定潜在机制联系的计算框架相关推荐

  1. Peer J:整合高通量绝对丰度定量方法解析土壤细菌群落及动态

    本文转自"上海天昊生物",已获授权 英文题目: Assessing soil bacterial community and dynamics by integrated high ...

  2. 易基因|ChIP-seq等组学研究鉴定出结直肠癌的致癌超级增强子:Nature子刊

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 超级增强子(Super enhancer)是一类包含多个普通增强子的大簇,主要富集高密度的转录因子.辅助因子及增强子相关表观修饰位点.与 ...

  3. 这篇Nature子刊文章的蛋白组学数据PCA分析竟花费了我两天时间来重现|附全过程代码...

    复现PCA原图之蛋白组学数据 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序 ...

  4. 高通量测序在物种鉴定中的应用

    什么是高通量测序技术? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测 ...

  5. 影像组学视频学习笔记(29)-ICC的计算、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(29)主要讲解: 用pingouin包进行ICC的计算 1.ICC的wikipedia定义 In statistics, the in ...

  6. Li‘s 影像组学视频学习笔记(29)-ICC的计算

    本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(29)主要讲解: 用pingouin包进行ICC的计算 1.ICC的wikipedia定义 In statistics, the in ...

  7. Nature Protocols:整合宏基因组、代谢组和表型分析的的计算框架

    整合高通量组学数据集鉴定潜在机制联系的计算框架 A computational framework to integrate high-throughput '-omics' datasets for ...

  8. Nature子刊:整合宏基因组、代谢组和表型分析的的计算框架

    整合高通量组学数据集鉴定潜在机制联系的计算框架 A computational framework to integrate high-throughput '-omics' datasets for ...

  9. The Innovation | clusterProfiler:聚焦海量组学数据核心生物学意义

    导 读 clusterProfiler4.0同步支持最新版GO和KEGG数据,支持数千物种的功能分析,应对不同来源的基因功能注释(如cell markers, COVID-19等)提供了通用的分析方法 ...

最新文章

  1. 每日一皮:阅读软件许可协议让你想到了什么?
  2. java语言的数组描述_下列关于Java语言的数组描述中,错误的是()。_学小易找答案...
  3. 电机串电阻会有什么影响?
  4. 软件设计开发笔记1:基于状态机的程序设计
  5. 将活动工作表生成 PDF,并通过电子邮件发送
  6. Android快速开发框架XUtils
  7. java中输出打印 num_System.out.print。 如何将打印输出编号?(JAVA)
  8. TurboMail邮件服务器 V4.2.0 正式发布
  9. 用ajax下载字节流形式的excel文件
  10. 全网首发:怎样制作CDKEY(4)-生成CDKEY
  11. 大一微积分笔记整理_大一上学期微积分高数复习要点
  12. R语言课程设计之-深圳房价预测模型
  13. python数据分析-学生成绩分析
  14. 网易云音乐接口大全(亲测可用)
  15. break 通过自定义标签跳到指定位置
  16. 更换固态硬盘和机械硬盘以及重装系统
  17. vue实现变态表格表头和列固定
  18. 数据库组成和存储引擎
  19. 阿里云邮箱登录日志中有异地IP登录是怎么回事?该怎么办?
  20. Python中的错误和异常

热门文章

  1. 如何提升你的能力?给年轻程序员的几条建议
  2. 小公司该如何吸引人才、留住人才?
  3. 职场协同办公如何使用硬技能,助推团队协作更流畅?
  4. springboot 访问httpclient接口
  5. nodejs php web,nodejs实现的简单web服务器功能示例
  6. 23Command(命令)模式
  7. python uiautomator2 toast_appium+uiautomator2定位toast元素失败,求解决方案
  8. U-Net 3+: 全尺度的跳跃连接的 UNet
  9. 姚期智担纲,清华今日成立量子信息本科班!“着眼学术尖端,致力国家战略需求“...
  10. 第八期直播《立体视觉之立体匹配理论与实战》精彩回录