Nature Protocols:整合高通量组学数据集鉴定潜在机制联系的计算框架
文章目录
- 整合高通量组学数据集鉴定潜在机制联系的计算框架
- 导读
- 摘要
- 关键点
- 知识点1. 原始数据的序列处理和和输出文件
- 图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图
- 表1. 基于数据和知识的降维方法
- 知识点2. 驱动物种分析背后的原理
- 图2. leave-one-MGS-out方法鉴定驱动物种的原理
- 图3. 微生物组功能与表型和代谢物簇的关联
- 图4. 以BCAA生物合成模块为例显示评估相关细节
- 表2. 常见问题和解决方案
- 猜你喜欢
- 写在后面
整合高通量组学数据集鉴定潜在机制联系的计算框架
A computational framework to integrate high-throughput ‘-omics’ datasets for the identification of potential mechanistic links
Nature Protocols, [12.423], Article, 2018-10-31
原文链接: http://dx.doi.org/10.1038/s41596-018-0064-z
第一作者:Helle Krogh Pedersen
通讯作者:Oluf Pedersen, Henrik Bjørn Nielsen
主要单位:加州大学洛杉机分校,医学院
其它作者:Sofia K Forslund, Valborg Guðmundsdóttir, Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic
导读
微生物组和代谢组等高维数据和表型关联分析复杂、解读困难;
分析的核心思想是降维:代谢组和微生物组物种通过数据驱动的聚类或分箱法降维;微生物组功能组成基于知识驱动如KEGG层级分类法降维;再筛选与表型显著相关的数据特征关联分析;
研究人员可以整理多组学和表型数据,获得出版级关联分析结果图表,快速建立宿主和微生物组与疾病严重程度和治疗结果间的潜在联系;
本计算框架由R脚本编写,可在个人电脑上1小时完成分析。
摘要
背景:我们最近发表了三管齐下的关联分析,整合宏基因组测序的人类肠道微生物组数据、非靶向的血清代谢组数据和宿主的生理指标。代谢组和微生物组数据是高维的,对于数据的整合提出了挑战。
结果:我们提出了逐步的计算方法,详细讨论了降维技术的使用,以及解析异质类型数据整合的方法。降维的方法主要结合数据标准化和共丰度基因和代谢物的分箱,以及整理已知的生物学知识。使用先验知识克服微生物组物种功能冗余是我们方法的核心。使用此框架,其它研究人员可以整理多组学和表型数据(如队列中建立宿主和微生物组与疾病严重程度和治疗结果间的联系),建立三管齐下的联系,用于实验设置。
结论:此框架最初是用于人类代谢组和微生物组研究,同样适用于其它物种和环境样本,同样适合整合其它组学如宏转录组、宏蛋白组。提供的R脚本在个人电脑上运行1小时左右。
关键点
知识点1. 原始数据的序列处理和和输出文件
在整合分析前,数据必须进行处理。对于微生物组数据,包括:(i) 序列预处理,包括质控、过滤宿主序列;(ii) 构建参考基因集,或选择己发表的基因集作为参考;(iii) 比对参考序列定量;(iv) 样本标准化,以便于下游可比;(v) 对基因分箱为物种组,降低维度。
对于代谢组数据,典型的处理流程包括:(i) 原始文件导入; (ii) 峰检测;(iii) 过滤和平滑;(iv) 峰列表去同位素;(v) 比对;(vi) 填补空白;(vii) 峰整合;(viii) 标准化;(ix) 最终峰或特征的鉴定
尽管这些步骤不在本方法的范畴内,我们引用我们之前的文章,或补充方法来进一步描述微生物组和代谢组数据的预处理,以便产生本方法的输入文件。
可用的示例数据保存于Git仓库 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括预处理微生物组、代谢组数据,以及397个体的表型信息,以及一系列功能微生物注释,宏基因组物种组和相应的微生物注释,以及手动注释的代谢物簇,详细描述在材料部分。
这些文件经历了上面数不尽的预处理过程。对于新数据,必须按具体的实验方法、实验过程和分析平台来进行详细的预处理。
图1. 整理人类表型、血清代谢组和肠道微生物组数据方法的流程图
在微生物组和代谢组预处理后,代谢物聚类为共丰度簇(5-7),微生物组数据整理为物种组成和KEGG模块丰度矩阵。下一步,表型过滤阶段,只保留与表型统计显著的features(8-12),这些features将用于跨领域的相关或关联分析(13-15)。最终,使用leave-one-MGS-out分析鉴定KEGG模块和对应驱动物种与HOMA-IR关联(17-19)。FDR代表错误发现率,IR代表胰岛素抗性,IS代表胰岛素敏感,Mod模块,neg负相关,pos正相关。本图修改自Pdersen等出版书籍中图片,己获授权。
表1. 基于数据和知识的降维方法
微生物组数据驱动的方法主要有Binning,而知识驱动的方法主要是各功能注释数据库的层级分类。
知识点2. 驱动物种分析背后的原理
图2. leave-one-MGS-out方法鉴定驱动物种的原理
为了简化说明原理,我们以一个KEGG模块为例,它包括三个KOs(KO1,KO2,KO3),并且只有一个KEGG模块与HOMA-IR表型用于关联分析
a. 计算Spearman相关系数(SCC)这三个KO与HOMA-IR相关,b. 这三个KO相关的中位数使用代表KEGG信号。
c, 重复a,b方法于所有基因,组成假定的MGS,移除MGSi
d, 计算移除前后的的信号变化。最后c,d步来计算每个MGS。可以鉴定物种驱动的KEGG模块。
图3. 微生物组功能与表型和代谢物簇的关联
流程15步产生的样本图。表型组、肠道菌群和代谢组的关联图谱。
左侧面板为KEGG模块相关的表型,颜色为关联的方向,红为负相关,蓝为正相关,灰为不显著。右则为KEGG与代谢模块间相关,颜色代表Spearman相关系数,并标注FDR显著性统计。
结果的解释,我们看到KEGG模块和代谢簇分为两组:代谢偏好和不偏好两类由胰岛素抗性决定,发现广泛的、正或负相关的、跨组学的关联;跨领域的关联分析,经常可以看到规律。但前提是,在一方向特征在相同的维度上参与,如健康或疾病在相关稳定时,可以预测一些相关的行为。
图4. 以BCAA生物合成模块为例显示评估相关细节
leave-one-MGS-out第19步产生的结果样本图展示整合的BCAA生物合成模块(包括M00019, M00570, M00535和M00432共13个KOs)。
a. 模块中KOs的SCC分布和背景(蓝)比较;
b. 关键模块在总体中去除,去关联中位数的影响;
c. 基于背景校正的相关系数原理。
表2. 常见问题和解决方案
猜你喜欢
- 10000+: 菌群分析
宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑 - 系列教程:微生物组入门 Biostar 微生物组 宏基因组
- 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
- 一文读懂:宏基因组 寄生虫益处 进化树
- 必备技能:提问 搜索 Endnote
- 文献阅读 热心肠 SemanticScholar Geenmedical
- 扩增子分析:图表解读 分析流程 统计绘图
- 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
- 在线工具:16S预测培养基 生信绘图
- 科研经验:云笔记 云协作 公众号
- 编程模板: Shell R Perl
- 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Nature Protocols:整合高通量组学数据集鉴定潜在机制联系的计算框架相关推荐
- Peer J:整合高通量绝对丰度定量方法解析土壤细菌群落及动态
本文转自"上海天昊生物",已获授权 英文题目: Assessing soil bacterial community and dynamics by integrated high ...
- 易基因|ChIP-seq等组学研究鉴定出结直肠癌的致癌超级增强子:Nature子刊
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 超级增强子(Super enhancer)是一类包含多个普通增强子的大簇,主要富集高密度的转录因子.辅助因子及增强子相关表观修饰位点.与 ...
- 这篇Nature子刊文章的蛋白组学数据PCA分析竟花费了我两天时间来重现|附全过程代码...
复现PCA原图之蛋白组学数据 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序 ...
- 高通量测序在物种鉴定中的应用
什么是高通量测序技术? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测 ...
- 影像组学视频学习笔记(29)-ICC的计算、Li‘s have a solution and plan.
本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(29)主要讲解: 用pingouin包进行ICC的计算 1.ICC的wikipedia定义 In statistics, the in ...
- Li‘s 影像组学视频学习笔记(29)-ICC的计算
本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(29)主要讲解: 用pingouin包进行ICC的计算 1.ICC的wikipedia定义 In statistics, the in ...
- Nature Protocols:整合宏基因组、代谢组和表型分析的的计算框架
整合高通量组学数据集鉴定潜在机制联系的计算框架 A computational framework to integrate high-throughput '-omics' datasets for ...
- Nature子刊:整合宏基因组、代谢组和表型分析的的计算框架
整合高通量组学数据集鉴定潜在机制联系的计算框架 A computational framework to integrate high-throughput '-omics' datasets for ...
- The Innovation | clusterProfiler:聚焦海量组学数据核心生物学意义
导 读 clusterProfiler4.0同步支持最新版GO和KEGG数据,支持数千物种的功能分析,应对不同来源的基因功能注释(如cell markers, COVID-19等)提供了通用的分析方法 ...
最新文章
- 每日一皮:阅读软件许可协议让你想到了什么?
- java语言的数组描述_下列关于Java语言的数组描述中,错误的是()。_学小易找答案...
- 电机串电阻会有什么影响?
- 软件设计开发笔记1:基于状态机的程序设计
- 将活动工作表生成 PDF,并通过电子邮件发送
- Android快速开发框架XUtils
- java中输出打印 num_System.out.print。 如何将打印输出编号?(JAVA)
- TurboMail邮件服务器 V4.2.0 正式发布
- 用ajax下载字节流形式的excel文件
- 全网首发:怎样制作CDKEY(4)-生成CDKEY
- 大一微积分笔记整理_大一上学期微积分高数复习要点
- R语言课程设计之-深圳房价预测模型
- python数据分析-学生成绩分析
- 网易云音乐接口大全(亲测可用)
- break 通过自定义标签跳到指定位置
- 更换固态硬盘和机械硬盘以及重装系统
- vue实现变态表格表头和列固定
- 数据库组成和存储引擎
- 阿里云邮箱登录日志中有异地IP登录是怎么回事?该怎么办?
- Python中的错误和异常
热门文章
- 如何提升你的能力?给年轻程序员的几条建议
- 小公司该如何吸引人才、留住人才?
- 职场协同办公如何使用硬技能,助推团队协作更流畅?
- springboot 访问httpclient接口
- nodejs php web,nodejs实现的简单web服务器功能示例
- 23Command(命令)模式
- python uiautomator2 toast_appium+uiautomator2定位toast元素失败,求解决方案
- U-Net 3+: 全尺度的跳跃连接的 UNet
- 姚期智担纲,清华今日成立量子信息本科班!“着眼学术尖端,致力国家战略需求“...
- 第八期直播《立体视觉之立体匹配理论与实战》精彩回录