高通量代谢组学研究的一大难点在于数据处理和分析。对于质谱或核磁产生的海量数据需要借助于自动化的软件来进行数据分析。代谢组学全流程软件应具备完整的分析工作流程,包括数据预处理、物质鉴定、统计分析以及数据的解释与整合。本文将介绍几种应用最为广泛且功能强大的全流程软件(表1),供大家参考。

表1. 四种全流程软件对比。

软件简介

MAVEN:MAVEN是基于现有开源软件建立的LC-MS数据分析软件,可处理MRM(multiple reaction monitoring)和高分辨的全扫描数据。软件设计目的是开发一款用于探索和验证代谢组学数据的图形用户界面,降低代谢组学分析的复杂性。该软件具有从特征值提取到代谢物通路分析及数据可视化的整个数据分析功能。同时为了便于数据验证,MAVEN 运用机器学习算法来自动评估峰值质量。

MZmine:MZmine是一款开源软件,主要处理LC-MS和GC-MS平台数据,可用于非靶向和靶向代谢组学数据分析。软件设计核心理念是将功能模块和数据处理模块严格分开,以提高软件的易用性。其中数据处理模块采用嵌入式可视化工具,实现立即预览分析结果的功能。软件新增功能:基于RANSAC算法对齐峰列表、在线数据库鉴别峰、改进的同位素模式识别以及实现数据可视化。项目管理是该软件新增的另一核心模块,用户可随时追踪并储存临时的数据分析结果。

MetaboAnalyst:MetaboAnalyst是一款完全免费的web平台代谢组学数据分析软件。软件分为八个功能模块,可归纳成三大类:(1)探索性数据分析,包括“统计分析”和“时间序列”模块。(2)功能分析,分别是“富集分析”、“通路分析”和“整合通路分析”模块。(3)高级分析方法,包含“生物标志物分析”、“样本量的估计”和“效能分析”模块。此外,它还包含“其他实用程序”模块,该模块具有脂质组学数据分析的特殊功能和化合物ID 转换工具。

XCMS Online:XCMS Online是一款基于云计算的数据处理平台,它继承了XCMS强大的数据预处理功能,如峰识别、峰对齐等,同时新增了单因素和多因素统计分析方法、代谢物特征注释和代谢物鉴定,为非靶向代谢组学提供了完整的工作流程方案。另外它将XCMS的命令行界面改为用户友好型的图形用户界面,降低了操作难度。

图1. 软件的主要功能界面。A,B,C,D分别为MAVEN, MZmine, MetaboAnalyst, XCMS Online。

主要功能对比

原始数据格式:MAVEN软件要求原始数据以mzXML、mzData格式录入。MZmine数据导入支持csv、mzTab、XML等格式,同时输出格式有XML、SQL和 MetaboAnalyst。XCMS Online软件可支持多种原始数据格式,包括netCDF、mzXML、mzData和Agilent.d文件,但数据加载的时间会因文件大小而不同,有时甚至长达数小时。而MetaboAnalyst数据输入不同于前三类软件,它要求的格式为csv、txt或zip包,数据类型为化合物浓度、NMR/MS 的箱式结构或峰强度列表或LC/GC-MS图谱,因而输入的数据通常要求已完成去噪平滑和基线校正等谱图预处理。

数据预处理:数据预处理主要包括峰识别、峰对齐、样本标准化、零值填充和奇异样本剔除。MetaboAnalyst和XCMS Online软件主要是基于XCMS R包实现峰识别、峰对齐和峰匹配等数据预处理功能。MetaboAnalyst峰识别采用高斯模型算法,峰对齐提供四种分析方法,即COW、DTW、基于化学迁移的峰对齐和根据质量公差及保留时间公差的峰对齐,且这些方法能够检验数据的完整性。XCMS Online除进行单一的峰识别峰对齐外,还将保留时间校正前后的结果以总特征离子色谱图和RT校正曲线图的形式展示出来,并从RT校正曲线中识别出极端值,并将其删除。MAVEN软件利用机器学习算法对峰质量进行评估,通过设定m/z范围提取对应的色谱图,以此识别峰,然后进行峰分组并得出峰质量分数。MZmine软件的峰列表处理分为六大模块:零值填充、同位素检测、滤过、对齐、标准化和峰鉴定。其中峰列表对齐运用RANSAC算法。

统计分析:MetaboAnalyst是所有综合性分析工具中统计功能和方法最全面的软件,包括常规的统计方法和高级机器学习算法,单因素分析包含t检验、火山图、单因素方差分析和相关分析;多因素分析有PCA、PLS-DA和OPLS-DA;高维特征值的提取方法有显著性分析(Significance Analysis of Microarrays, SAM)和微阵列的经验贝叶斯分析(Empirical Bayesian Analysis of Micoarrays, EBAM)算法;聚类分析有系统树图、热图、K均值和自组织神经网络分析;有监督分析方法包括RF和SVM算法。同时还提供了时间序列分析,用来检测代谢物浓度或代谢物判别模型随时间的变化趋势。MZmine中的统计分析相对其数据预处理并不是开发的重点内容,仅提供基本统计方法,但同时支持使用第三方统计软件提供的高级算法,包括交叉验证图、聚类分析、曲线距离分析、Log ratio图、热图、PCA以及Sammon’s投影法等。MAVEN软件包中的数据分析主要是针对两样本间的比较,利用t检验来估计两样本间的差异。XCMS Online提供的基本统计方法有配对t检验和多组比较的方差分析,另外提供了其特有的多样本间两两比较的meta分析方法。其中单因素分析的统计结果以云图输出,多因素则以PCA得分图输出。

其他高级功能:MetaboAnalyst软件是唯一提供功能分析(包括富集分析、通路分析和整合通路分析)和高级分析(包括生物标志物分析、样本量估计和效能分析)的软件。功能分析中的代谢物富集分析目前只针对哺乳动物,代谢通路分析模块又分为代谢通路富集分析和路径拓扑结构分析。高级分析中,生物标志物分析是基于PLS-DA、SVM及RF的基础上使用ROC曲线进行分析的;效能分析和样本量的估计则基于 Bioconductor软件包SSPA。该方法是利用实验数据中检测的全部统计量来估计效应大小的分布、效能和最小样本量。

物质鉴定及通路分析数据库:MAVEN提供通路可视化界面(图 1A),其数据库来源于KEGG 和Metacyc。MZmine软件为物质鉴定提供多条途径,包括自定义数据库搜索、在线数据库搜索以及片段和加合物搜索等,同时支持在线连接多种通路分析的组学数据库。物质鉴定库有HMDB、METLIN和PUBChen;通路分析数据库支持KEGG;其他还包括chemspider、Lipid Maps、MassBank、Plantcyc和YMDB数据库。MetaboAnalyst中物质鉴定支持 HMDB 和 METLIN等库,代谢物通路分析提供KEGG和SMPDB等库。XCMS Online软件同样支持 HMDB和METLIN物质鉴定库以及BIOCYC和KEGG代谢通路库。

小结MAVEN软件的显著优势在于能对峰质量进行良好的评估,能提供可信度较高的代谢组学数据,同时能实现数据在代谢途径中的可视化绘图。MZmine软件除具有全面的数据预处理功能外,同时支持用户开发新的算法,所以它既适合于无编程基础的组学工作者也适合一些高级用户。MetaboAnalyst的优势则在于它强大的数据统计分析、高级分析以及功能分析等功能,这对代谢组学数据的注释和整合具有重要意义。XCMS Online软件是经典 XCMS 函数包的扩展,使用简便,是一款良好的用户友好型软件,但不具有良好的扩展性。

参考文献:

梁丹丹, 李忆涛, 郑晓皎,等. 代谢组学全功能软件研究进展[J]. 上海交通大学学报:医学版, 2018, 38(7).

更多内容请阅读原文献

linux生物代谢图软件,答疑解惑专题(四)——开源代谢组学全功能软件介绍相关推荐

  1. linux下微生物软件,微生物多样性专题 | 扩增子测序分析实战(三)软件安装

    上一篇我也想装个linux系统!讲到linux系统的安装,实则就是为了本期准备的,因为测序数据分析涉及的大部分软件都是基于linux的,目前还没有linux系统或者打算只在windows下用R去做一些 ...

  2. python做pca图_【教程】组学研究,用python快速实现PCA分析和绘图

    什么是PCA 主成分分析(Principal Component Analysis,PCA)是一种无监督的多元统计分析方法.在蛋白组学和代谢组学研究中能从总体上反应各组样本之间的总体差异和组内样本之间 ...

  3. statTarget-基于QC样本的代谢组学数据校正

    为什么数据质量控制重要呢? 质量控制是生物分析的基本概念之一,用在保证组学测定的数据的重复性和精确性.由于色谱系统与质谱直接与样品接触, 随着分析样品的增多,色谱柱和质谱会逐步的污染,导致信号的漂移. ...

  4. Microbiome:应用多维宏组学方法协同揭示复杂细菌群落对目标底物代谢的菌间相互关系(一作解读)...

    Microbiome: 应用多维宏组学方法协同揭示复杂细菌群落对目标底物代谢的菌间相互关系 香港大学张彤教授团队与北京大学余珂博士研究团队,以生物降解菌群为研究模型,运用多维宏组学方法(宏基因组.宏转 ...

  5. 筛选样本_早产预测准确性创新高!3种样本PK,首次利用脂质组学筛选出生物标志物...

    首选科技服务商↑ 点击上方蓝字标星 ↑ 细胞外囊泡(extracellular vesicles)是由细胞释放的膜性小囊泡,存在于血浆.尿液.脑脊液等生物体液中.国际细胞外囊泡协会将它们分为外泌体(5 ...

  6. Nature Communications: MOGONET使用图卷积网络集成多组学数据,允许患者分类和生物标志物识别

    Nature Communications: MOGONET使用图卷积网络集成多组学数据,允许患者分类和生物标志物识别 1. 论文简介 Wang T, Shao W, Huang Z, et al. ...

  7. 奇安信专家:近八成软件存开源漏洞 供应链需全生命周期安全防护

     聚焦源代码安全,网罗国内外最新资讯! 专栏·供应链安全 数字化时代,软件无处不在.软件如同社会中的"虚拟人",已经成为支撑社会正常运转的最基本元素之一,软件的安全性问题也正在成为 ...

  8. 开源笔记本工具及待办事项软件Joplin推荐

    开源笔记本工具及待办事项软件Joplin推荐 文章目录 开源笔记本工具及待办事项软件Joplin推荐 1.前言 2.Joplin介绍及个人常用功能总结 (1).概述及展示 (2).选择语言 (3).设 ...

  9. 代谢组学以冬虫夏草多糖的益生机制为例研究和发现关键肠道菌群

    研究背景 百趣代谢组学文献分享,肥胖症与二型糖尿病.心血管疾病以及癌症的发生发展具有密切联系.肥胖症主要有以下表现:体重增加.脂肪堆积.肠道菌群失衡.肠道通透性异常.代谢性内毒素血症.慢性炎症.胰岛素 ...

最新文章

  1. ML之相似度计算:图像数据、字符串数据等计算相似度常用的十种方法简介、代码实现
  2. C++ vector中的resize,reserve,size和capacity函数讲解
  3. 【渝粤教育】广东开放大学 标准化理论与方法 形成性考核 (50)
  4. 网易资深Java架构师:java方法的定义和使用
  5. 发现还是 True Image Server v8.1.941 比较好用
  6. js监听iframe关闭_Node.js文档NET[翻译]
  7. mysql下载64位 win7_win7 64位安装MySQL 绝对经典
  8. Arduino Atmega328P烧写bootloader及熔丝
  9. linux3d游戏,笔记本linux系统能玩3d游戏吗?
  10. 5G NR首版标准R15解读
  11. 红外额温枪方案(包含原理图和PCB文件)
  12. es 精确查找思路以及实现过程
  13. 使用阿里云对象存储oos遇到跨域访问的问题
  14. Python笔记_81_结算页面_订单模型_优惠券
  15. DTC品牌如何冷启动?
  16. pl/sql develo 13 下载安装地址
  17. bootstrap ajax - (se7en框架)
  18. 更改路由表,让windows同时启用双网卡,令需要访问的IP随心所欲
  19. 2017全国计算机二级报考,2017年全国计算机等级考试报考须知
  20. 泰山OFFICE技术讲座:行距,五号、小四时还正常,四号时大幅增加,这是为什么?

热门文章

  1. 人类附身机器人获得永生_80后富豪为永生欲将自己变成机器人,已做出上半身
  2. DOS命令(7) BIOS密码破解
  3. 一看就懂-------再保险的基础知识
  4. [渝粤教育] 郑州轻工业大学 线性代数与空间解析几何 参考 资料
  5. javascript中??的作用
  6. 央行数字货币全球共振之年 主要经济体进展如何?
  7. PhotoShop操作矩形选框工具右下角老有个加号(已解决!)
  8. LNMP搭建(Centos 7 源码包)
  9. OJ:The Suspects(C++)
  10. Modbus转Profinet网关连接海利普变频器配置案例