生物系统和疾病的多组学数据整合考虑和研究设计

1 生物系统

生物系统——组成

生物系统很复杂，具有许多调节功能，例如DNA，mRNA，蛋白质，代谢物，以及表观遗传功能（例如DNA甲基化和组蛋白翻译后修饰（PTM））。这些特征中的每一个都可能受到疾病的影响，并引起细胞信号传导级联和表型的改变。除了宿主对疾病的反应调节机制外，微生物组还可以改变宿主特征的表达，例如它们的基因，蛋白质和/或PTM。

生物系统——疾病

为了深入了解疾病的机制，我们需要研究这些特征及其相互作用。例如，黑色素瘤、肺癌和甲状腺癌等癌症是由BRAF癌基因驱动的。然而，当患者接受抑制BRAF的治疗时，往往会产生耐药性。最近的多组学研究揭示了肿瘤特征的异质性和复杂性，如基因突变、转录组、蛋白质和信号通路。现在人们认识到肿瘤可以绕开治疗而产生耐药性。

生物系统——技术

随着下一代测序和质谱技术的发展，人们越来越需要融合生物特征的能力来研究整个系统。转录组、甲基组、蛋白质组、组蛋白翻译后修饰和微生物组等特征都影响宿主对各种疾病和癌症的反应。由于样品制备步骤、测序所需的材料量和测序深度要求，每个平台都有技术限制。近年来，数据集成方法的发展受到了推动。每种方法都使用诸如概念整合、统计整合、基于模型的整合、网络和路径数据整合等方法来具体整合组学数据的子集。

生物系统——多组学

多组学方法的整合使得对疾病病因学有了更深入的了解，例如：揭示微生物组在减轻或增加疾病风险方面发挥作用的各种方式。双酚A（BPA）是一种大规模生产的化学品，广泛应用于食品包装、塑料和树脂中，双酚A的不完全分解就是一个例子。由于双酚a是一种内分泌干扰物，双酚A已成为日益增长的公共卫生问题。因此，利用微生物手段快速、完全降解双酚A等化合物的研究具有重要意义。

本文讨论每个数据特征的研究设计考虑，基因和蛋白质丰度及其表达率的限制，当前的数据整合方法，以及微生物对基因和蛋白质表达的影响。在开发整合多组学数据的新算法时应考虑的因素。

2 从“组学”的角度理解生物细胞过程

不同生物基因数量

生物系统是具有多种调控功能的复杂生物。例如，人类基因组由大约32亿个核苷酸组成，可产生20 000至25 000个蛋白质编码基因，并且通过选择性剪接事件可产生超过100万种蛋白质（下图）。

不同的生物有不同数量的基因和蛋白质。例如，在大肠杆菌、酿酒酵母和智人基因组中分别有大约4300、6000和25 000个基因。这导致大肠杆菌、酿酒酵母和智人的每个细胞中分别有大约2400到7800、15 000和300 000个mRNA分子。线粒体转录物约占多聚腺苷酸化RNA的20%。其他高丰度的转录物包括编码核糖体蛋白质和参与能量代谢的蛋白质的转录物。下图概述了人类DNA、DNA甲基化、组蛋白翻译后修饰、mRNA和蛋白质的复杂性。

Graw et al., 2020 Molecular Omics

染色质结构和基因/蛋白质调控的概述。 DNA通路受DNA甲基化和组蛋白翻译后修饰（PTM）的调控。调节的每一层也可以通过环境和宿主生物中存在的微生物进行修饰。可以通过使用各种核苷酸和蛋白质/肽测序技术对生物调节的每个水平进行测序。

细胞中蛋白质含量

一个细胞中蛋白质的估计数量约为2.36×106（在大肠杆菌中），约为2.3×109（在晚期智人细胞中）。在一个细胞的全部蛋白质总数中，最丰富的蛋白质可占蛋白质含量的5-10%，由核糖体蛋白、酰基载体蛋白（ACP）（在脂肪酸生物合成中的功能）组成，分子伴侣和折叠催化剂、糖酵解蛋白质（能量和碳代谢的主干）和肌动蛋白等结构蛋白质。

转录因子是一种低丰度的蛋白质，在细菌中每个细胞的拷贝数为1-103，在哺乳动物细胞中为103-106。

最丰富的蛋白质通常在细菌中有数千个拷贝，在哺乳动物细胞中有数百万个拷贝。由转录因子调控的基因数量取决于其浓度。蛋白质含量取决于生长条件和基因诱导。最后，考虑到微生物与宿主细胞数量的比例（取决于宿主细胞类型）和其他因素，这可能会变得更加复杂

mRNA 和蛋白质寿命以及差异

由于仪器检测，动态范围和分子寿命表达的限制，用于各种组学平台的测序技术只能捕获某一时刻某个细胞群体中发生的情况的快照。例如，mRNA转录本和蛋白质的终生表达差异很大。在大肠杆菌中，mRNA的中位寿命为5分钟，在发芽酵母中为20分钟，而对于人参则为600分钟。然而，蛋白质的寿命约为1-2天。

转录和翻译的速率因生物体的不同而不同（大肠杆菌：每秒10-100个核苷酸（nt）和10-20个氨基酸（aa）/ s。智人：6-70 nt / s和2 aa per s；分别为转录和翻译速率）。

对于大肠杆菌来说，一个单一的mRNA转录本在被降解之前可以产生10-100个蛋白质。鉴于这一信息，我们可以看到，将我们对组学平台的选择和由此产生的对细胞过程的解释相结合，检测具有更长寿命的蛋白质的机会将增加。

在考虑数据整合研究设计、开发新算法和解释结果时，认识生物体的生物复杂性、分子的动态范围、测序限制以及这些分子的表达寿命非常重要。

3 微生物对基因和蛋白质的影响

近年来，微生物组学在宿主健康中的重要性已得到公认。全生物和全基因组的概念对我们如何看待微生物组有着深远的影响，尤其是在治疗方面。这种微生物-宿主相互作用的密切关系可以更明确地称为“微生物群-营养代谢-宿主表观遗传轴”。微生物与宿主相互作用的紧密关系可以更明确地称为“微生物群-营养代谢-宿主表观遗传轴”。

微生物群及其代谢产物可以通过直接修饰组蛋白，改变DNA甲基化谱图和影响而影响宿主表观遗传。非编码RNA的性质（上图）。例如，可以通过改变组蛋白修饰酶的活性和酶底物的水平，通过微生物群来修饰组蛋白。

微生物影响药效

微生物群也可以影响药物的治疗性质。许多前药，即必须进行代谢转化才能在药理上有用的药物，可能会保持无活性（即不存在介导前药向其活性形式转化的微生物群），或者该药物/前药可能无法生物利用。此外，服用NSAIDs（非甾体类抗炎药）的患者可能会促进抗生素耐药菌的优势，因为24％的非处方非处方NSAIDs被抑制。

这些代谢组学效应引起人们对旨在用于人类和农业系统的治疗药物或其他饮食和治疗方案的潜在副作用的担忧。例如，抗生素可以消除产生组蛋白脱乙酰基酶（HDAC）抑制剂的微生物。这些微生物（如果存在）可以增强调节性T（Treg）细胞，从而有助于抗炎过程。

微生物代谢途径的多样性及其对药物药代动力学和药效学的影响可能部分解释了个体和人群之间药物反应的变化。因此，涉及微生物组的治疗方法可能必须因地制宜。组蛋白可以同时进行变体置换和翻译后修饰（PTM），这些共同构成了“组蛋白密码”。这些局部排列可以影响染色质结构，从而导致转录活性的激活或抑制。

通过饮食，微生物有能力改变宿主的甲基化和PTM谱，并且还可以通过膳食碳水化合物的发酵影响短链脂肪酸（SCFA）的生成。丁酸盐和乙酸盐等SCFAs可抑制脱乙酰酶水平。这意味着由于乙酰化促进转录活性的增加，染色质结构变得越来越松弛。事实上，已经证明微生物可以以位点特异性和组合方式影响宿主组织乙酰化和甲基化染色质状态，甚至影响宿主发育和代谢表型。

微生物参与干预

未来关注健康医疗策略时，越来越多地考虑对微生物组的发展及其相应的宿主个体发育变化进行建模。考虑到宿主免疫系统不仅必须能够识别“自身”抗原，而且还必须能够识别共生微生物的抗原，这些变化可以通过宿主免疫成熟来证明。

微生物如何影响主要组织相容性复合体（MHC）的表达，或者宿主杂合度如何通过MHC影响微生物群的多样性，这在很大程度上是未知的，也是一个活跃的研究领域。微生物在癌症和免疫治疗中的作用正日益成为治疗策略发展的目标。蛋白质组学与其他组学策略相结合已被用于研究疾病过程。如果我们不考虑微生物群的影响，那么我们可能会错过开发潜在治疗方法的有意义的见解。尤其是那些与代谢紊乱（如肥胖）或代谢物（如胆汁酸）对器官系统的全身影响有关的疾病。

4 微生物生态学进展

微生物生态学的历史围绕着适当的系统发生标记基因的测序和比对。 WoSes and Fox（1977）首先将16S rRNA基因用作标记基因，是迄今为止最常用的标记基因，其大规模数据库包含从环境和培养来源（例如SILVA，RDP，Greengenes）获得的全长基因分离株）（表1）。新的微生物分类数据库，例如基因组分类数据库（GTDB），不仅建立了16S rRNA基因参考数据库，而且还利用系统基因组学信息提供了一个一致的框架，用于确定从元基因组获得的系统发育背景部分或完整基因组。

大数据集的可用资源列表

选择合适的引物和平台

除了选择标记基因和合适的数据库外，研究人员还可以在测序方法和平台之间进行选择。由于Illumina和Ion Torrent等短读平台的局限性，研究人员必须在〜1500 bp的16S rRNA基因的可变区之间进行选择。取决于微生物群落组成，每个可变区提供不同水平的敏感性和特异性。然后选择在研究中最能区分普通分类群的引物组和扩增子区域的组合。

目前针对扩增子测序可选择的测序平台和方案很多，不同平台的读长和适用的测序区段以及优势各有不同。16s测序主要的测序区段包括v4、v3v4，v1v2，v6，此外还有全长等不同的区段选择，不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异，对菌属的丰度评估会有一定的差异。

从长度来看，全长16s长度为1.5kb左右，单菌落的16s全长sanger一代测序仍然是菌种鉴定的主要手段，纳米孔和pacbio的三代测序可以高通量的获得全长序列，对于希望更高分辨率的分析菌种的研究有一定优势。三代的测序准确度目前逐渐改进，直接测序准确度可以在90%以上，纠错后可以提高到97~99%以上，已足够提供高精度的分类。三代目前主要问题在于建库成本相对较高，通过使用barcode可以降低部分但仍然偏高，此外普遍测序深度相对于二代测序要低许多。

目前最主要的可变区选择是v4区和v3v4区，v4区长度为256bp左右，加上两侧引物长度为290bp左右，使用双端2x250bp或2x150bp可以测通，此外如454、life、illumina的测序平台读长也可以主要涵盖该区段读长。例如采用illumina Novaseq测序平台对该项目进行双端测序(paired-end)，测序得到了fastq格式的原始数据（样本对应一对序列s_1.fastq和s_2.fastq）。再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的，大量的大规模菌群调查研究都采用v4区作为检测区域，包括人体菌群研究如：hmp，肠道菌群如美国肠道计划agp，欧洲的fgfp等，以及全球土壤菌群调查，目前仍然是国际研究中使用最广泛和认可的检测区域。

illumina的miseq提供了长达2x300bp以及hiseq2500和最近的novoseq提供有2x250bp的测序方案，为进一步利用读长，目前有相当一部分研究选择v3v4区，该区段长度在460bp左右，相较于v4度多出了v3区段约100bp左右的片段，在少部分菌属中可以增加一定分辨率。经过对比，v3v4区的检测结果和v4区在绝大部分菌属中的丰度一致，但由于引物不同，在少量菌属中丰度会有不同偏向，v3v4从otu层面上并未发现较v4区有明显增加。引物的选择和提取、储存方法是影响菌群检测丰度构成的主要因素，不同研究之间的比较需要考虑到实验方案的一致，相同的方案可以直接比较。

当前的宏基因组分析技术已使研究人员能够从环境/宿主来源的样品中获得足够的序列覆盖率，从而获得部分和完整的基因组草图。 该覆盖因子高度取决于物种的均匀度和丰富度。还可以通过拼接组装元基因组组。但是，由于难以组装和正确分装高度保守的基因（如核糖体亚基基因），因此它们通常必须使用浓缩的通用蛋白将这些基因组置于系统发育背景中。

组合的通用标记基因被用来构建由环境和寄主衍生序列组成的基因组以及来自培养物收集的少数常见微生物基因组的系统发育。微生物基因组测序的热潮使得有必要构建易于使用的软件包以及分析工具，以帮助生物学家学习如何对其全部或部分的元基因组数据进行分析。这类工具的例子如，QIIME 2、metaWRAP、 Sunbeam、SqueezeMeta、metAMOS、 mg RAST、IMG/M、 Anvi'o、MicrobiomeAnalyst、以及biobakery集合中的各种工具（例如MetaPhlan2、PhyloPhlan、HUMAnN、LEfSe）等。

此外，如果深入研究，还需要望整合疾病指标、宿主蛋白质组学和微生物多样性多组学的联合分析。

5 测序技术

根据生物学问题的不同，有许多类型的组学技术，针对DNA、总RNA、mRNA、miRNA、DNA甲基化、蛋白质、蛋白质修饰、组蛋白翻译后修饰、宏基因组学、宏蛋白质组学，测序平台经过多年的改进，现在可以在几天内从少量材料中对大型复杂人体样本进行测序（表2）。已经开发了几种工作流程来对整个基因组、整个外显子组（DNA的蛋白质编码部分）和转录组（mRNA）进行排序，并对特定的癌症或免疫相关基因进行排列。此外，还可以利用亚硫酸氢盐全基因组测序或Illumina的甲基化珠芯片阵列分析修饰，如DNA甲基化。还可以通过牛津纳米孔技术（ONT）MinION平台和PacBio仪器对长读的DNA和RNA进行直接测序来确定此类修饰的检测。

推荐覆盖率和读数

基因组测序

DNA测序技术的错误率和读取长度各不相同。Illumina短读测序（即Hiseq、Miniseq等）通常具有非常低的错误率，约为每碱基0.25%，但对低多样性文库敏感，如16S宏基因组学和靶向基因方法等应用。长读取技术的错误率较高，PacBio为13–15%，Oxford Nanopore instruments为5–20%。Illumina平台的读取长度最大为600个碱基，但长读取技术通常一次读取可达到10–30 kb。最佳读取长度也取决于应用程序。

大多数测序实验可以收集150-300碱基对读取长度的合适信息，但也有例外。对于全基因组测序（WGS），最长的读取可能是最佳的，但是对于长读取技术，错误率随着长度的增加而增加。有许多研究者把“短读”和“长读”结合起来。由于最近长读取排序技术的出现，关于WGS以外应用程序的最佳长读取长度的信息非常缺乏，但Illumina short read sequencing提供了丰富的最佳读取长度建议。

蛋白质测序

在过去5-10年中，质谱仪通过增加测序深度能力也得到了改进。这项技术已经从使用旧的LTQ质谱仪在细胞系实验中对大约3000个蛋白质进行测序，发展到使用新的Orbitrap Lumos和Orbitrap Eclipse质谱仪对8000-10000个蛋白质进行常规测序。大多数蛋白质组学实验都是采用数据相关采集（DDA）模式进行的。在该方法中，选择从液相色谱（LC）柱洗脱的MS1扫描中最丰富的前20个肽在orbitrap中进行裂解，以产生肽序列MS2扫描。样品混合物的复杂性极大地影响了测序深度和将鉴定多少蛋白质。了解样品的蛋白质丰度和组成是至关重要的。如果转录因子是目标分子，那么在质谱分析之前去除高丰度蛋白质的方法可能是必要的。这对于含有大量分子（如白蛋白和血红蛋白）的血清和血浆样品尤其重要。否则，质谱仪将测序数千个白蛋白分子，并错过最有趣的低丰度蛋白质。

最新的质谱技术利用数据独立采集（DIA）来对MS1扫描中所有肽从LC色谱柱洗脱时的序列进行测序，这与仅对最丰富的峰进行测序的DDA方法相反。

对于复杂的混合物，例如上面的血清示例，DIA方法优于DDA。这种方法有助于克服受高丰度蛋白质高度影响的复杂混合物。

除了对宿主基因和/或蛋白质进行鸟枪法测序外，我们还可以对微生物组利用鸟枪法测序。

当测序深度很浅时，弹枪宏基因组学/元代谢组学只能采样优势菌群。shot弹枪对微生物组测序的主要挑战是由于采样不足而难以组装基因组片段，将肽组装在一起以进行可靠的蛋白质和生物分类鉴定也同样困难。

尽管存在这些潜在问题，但从各种人体部位和疾病（如唾液、肠道/粪便、颈阴道疾病或慢性肾脏疾病）中对微生物蛋白质组进行深度取样是可能的。然而，每个研究必须考虑的研究/取样设计和分析方法可能有很大差异。

从差速离心到双过滤差速分离，几种样品制备方法已被证明能富集微生物生物量。这些方法通常遵循各种优化的微生物裂解方案，通常涉及机械破坏（如打珠、超声波），辅以酶（如胰蛋白酶）和洗涤剂。在成功溶解后，同样重要的是去除残留的酶、洗涤剂和盐。

元蛋白质组学实验的另一个复杂性是由于同一生物体内的蛋白质具有共享的肽序列这一事实。为了对蛋白质鉴定有信心，应以高可信度鉴定蛋白质的独特肽段匹配。当将肽序列映射到数百个具有保守蛋白序列的不同物种时，这变得更加复杂。质谱法不对蛋白质进行测序，而是测量肽的电荷，并依靠与蛋白质序列数据库匹配的质谱进行蛋白质鉴定。

精心挑选的数据库对于正确分析从这些各种测序平台生成的核苷酸和蛋白质测序数据至关重要。使读数与参考基因组比对的能力仅与参考基因组中存在的序列和注释信息一样好。有几种资源可以不断地整理和更新核苷酸序列信息和注释，包括加利福尼亚大学圣克鲁斯分校（UCSC）基因组学研究所基因组，美国国家生物技术信息中心（NCBI）GenBank和RefSeq，DNA元素百科全书（ENCODE）和Ensembl 仅举几例。通用蛋白质资源（UniProt）包含Swiss-Prot（手动注释和审阅）和TrEMBL（自动注释且未审阅）数据库，以获取蛋白质序列信息。

6 数据集成和当前方法

已经开发了几种数据集成方法来集成某些类型的组学数据。另外，已经创建了大数据存储库来存储来自各种疾病的测序实验的数据。这些资源提供了有价值的构建基块和大量生物样本，可用于推动数据集成方法的发展。当前，数据集成工具实现了多种方法，但通常分为两类：多阶段分析和元维度分析。

多阶段集成模型仅使用数据的两个数字或分类特征构建。例如，将来自RNA-seq实验的基因计数与来自质谱运行的蛋白质信息相结合。元维度分析试图通过级联或转换将所有感兴趣的数据类型合并到可以同时分析的同时矩阵或“元数据”集中。

后一种方法具有更大的统计能力，但在尝试合并来自不同类型数据集的数据时可能会具有挑战性。但是，研究人员如何确定最合适的工具或方法？

如上所述，生物学问题是选择的分析方法类型的驱动力，诸如采样，平台类型和数据质量等因素很重要。样品如何收集和准备？

如果测序深度或质量较低，是否可以有效分析数据？数据类型兼容吗？

归一化和滤波后损失了多少信号？

这些都是在选择适当工具之前应考虑的所有问题。

不幸的是，数据集成和分析非常复杂，并且对于具有有限生物信息学背景的研究人员而言，目前还没有许多用户友好的工具。许多工具使用统计语言R，除了强大的生物统计知识外，它还需要专业编程知识。例如，将蛋白质组学，转录组学和途径分析结合到两个数据集上的R包积分学使用了相关分析和偏最小二乘回归。R包mixOmics使用多元分析进行数据探索，降维和可视化。通过途径分析，iClusterplus和LRACluster进行的miRNA和基因表达使用聚类来整合甲基化和基因表达数据。

多组学数据集成工具

对于多状态和多维方法，都使用了许多不同的算法，但最常见的算法是聚类，网络分析，数据约简（PCA）和贝叶斯分析。Ray等2014年使用贝叶斯分析，使用从癌症基因组图谱项目收集的数据分析卵巢癌中的基因表达和甲基化数据，并检测到一个基因SPON1，该基因似乎受其CpG位点的甲基化调控。当缺乏生化相互作用的先验知识时，基于相关性的分析是有用的。无论采用何种方法，适当的规范化和数据过滤是非常重要的，因为数据来自多个来源。

还有一些基于网络的工具，如Paintomics，试图使数据分析更容易，但对于缺乏经验的用户来说仍然很困难，研究人员必须对他们的数据有很好的工作知识。此外，还有一些数据库常用于综合组学分析，如癌症细胞系百科全书（CCLE）、癌症基因组图谱计划（TCGA）、与基因组学驱动治疗相关的肿瘤改变（TARGET）和组学发现指数（OmicsDI）。CCLE和TCGA已经描述了数以千计的癌症数据集，可以用于数据挖掘和可视化。TARGET利用临床信息并在其网站上提供分析工具的资源。omicdi提供了一个平台，用于搜索各种生物的公共和受保护数据。

7 研究设计和效力评估的注意事项

对于任何高质量的研究，进行多组学研究应该首先确定研究的范围和限制。仔细的计划和执行将提高研究的稳健性和可重复性，在多组学研究中尤其重要，因为它们涉及大量的比较、定制的统计分析、大量的财力，时间和精力。一旦研究假设被明确定义，选择一个合适的研究设计，最好地解决研究假设。因此，有几个问题需要评估，

例如：是否有一个或多个干预组与对照组（或其自身）进行比较，或者是否在干预前后对同一样本的效果进行评估？

干预效应是在一段时间内产生的，还是在几个不同的时间点测量样本？

生物样本是否会被单独收集或分析？它的科学依据是什么？

哪些类型的组学平台将提供最有价值的以及如何整合多组学数据？

来自同一生物来源的样本是否可用于所有感兴趣的多组学平台？

理想情况下，所有omic平台的样本将从同一来源收集。

然而，由于样品的特殊限制或材料的可及性和数量，这并不总是可能的，从福尔马林固定石蜡包埋（FFPE）组织生成多组学数据对于某些组学平台可能是不可能的。虽然在选择实验设计时有许多问题需要考虑，但选择研究设计的决定因素通常是其可行性和经费限制。

样品和数据的收集应以数据分析为指导，以减少混淆和技术因素，例如批量效应。这些效应可以在样品收集，制备和存储的步骤中引入。

由于与多组学研究相关的数据的复杂性和大量数据，因此针对特定的研究项目量身定制统计分析至关重要。已提出了多种集成多组学数据的方法，并将其归类为受监督的，半监督或非监督; 以及基于概念，统计，相关性，网络和模型的集成。

一项研究的统计能力取决于几个因素（下图），其中一些因素可以控制，而另一些因素由于研究及其设计而固定。首先，选择了用于分析的统计方法。虽然有些测试比其他测试更强大，但重要的是验证和满足他们的假设。

影响研究统计能力的另一个因素是单个组学平台测量的变量数量，通常由组学平台决定。例如，基因组学通常测量数百万个变体，转录组学量化了成千上万个分子，和蛋白质组学和代谢组学分析了数千个分子。此外，统计效力受表型或处理效应的大小和差异程度（效应大小）的影响。效果有多明显？组间的信号差异有多大？有多少被测变量受到影响？关于效应大小的信息可以从以前的文献或专家知识中获得，但通常是未知的。

这种情况下，初步研究可以帮助估计效应大小，但由于不稳定，这些估计需要谨慎处理。另一个效力影响因素是测量值的均匀性，描述了样品的自然方差、测量仪器的精度和检测限。随着方差的增大，统计效力将减小。样本的方差可能是多方面的结果，例如样本群体的选择、组织类型的选择或混杂因素。

除了样本方差膨胀外，混杂因素也会在数据中引入偏差，因此，收集样本元数据以减轻某些混淆的影响是很重要的。由于影响研究统计能力的大多数因素是固定的或由研究设计决定的，因此最常用于调整研究统计能力的因素是样本量。

多组学研究中影响统计功效的因素

Graw et al., 2020 Molecular Omics

8 结论和未来方向

研究的首要考虑正在调查的疾病或研究问题的背景，以及整合在一起时，什么类型的数据将提供有价值的见解。根据生物学问题、材料类型（新鲜组织、FFPE组织、血清/血浆和细胞系）、DNA/RNA/蛋白质的数量、生物复制的数量以及研究中混杂效应的数量，这些因素将决定数据采集所需的最佳样品制备和测序方法。

样品制备方法，包括每个样品制备的日期、提取的DNA、RNA和/或蛋白质的类型、基因组学的文库生成、质谱分析的蛋白质消化和肽标记方法以及测序平台/仪器，都是研究设计和最终结果解释的关键因素结果。

如果一个样本是在不同的日期制备的，而不是其他生物复制品，这将引入方差和/或偏差，并降低分析的统计能力。如果蛋白质组样品使用多个TMT-10plex批次进行复合，这将在整个测序过程中引入批次效应。这些因素应在样品制备前进行讨论。

同样重要的是要知道什么样的调控特征被捕获用于测序和整合。例如，如果在进行质谱分析之前在样品制备过程中膜蛋白没有溶解，那么膜结合蛋白就不能与基因表达数据整合。质谱数据的一个警告是，缺失值并不一定意味着蛋白质没有表达，只是蛋白质低于质谱仪的检测限。生物学问题应该成为多组学数据整合方法的驱动力。

在大多数情况下，当前的工具利用聚类、网络、数据简化和贝叶斯分析。随着数据获取量的不断增加，产生了大量的数据集，使得机器学习对于有效的分析和数据挖掘变得越来越必要。有必要使用易于获取和记录良好的方法、工具和算法。

机器学习在允许科学家集成多组学数据集方面发挥了越来越重要的作用。通过利用机器在大量生物数据中比较和识别模式的能力，可以用更加准确和有效的方法来阐明复杂的细胞机制，在某些情况下还可以预测临床结果。这是通过计算机独特的能力来实现的，它可以同时观察多个层次的组学数据，从而提供一个更全面的系统视图。

尽管多组学数据集可以为个体提供更深入的理解，但这并非没有成本。组学研究通常依赖于大量的比较、正确的数据类型、适当的统计分析以及大量的时间、技术人员和金钱投入。在构建一个实验时，人们必须清楚什么类型的组学数据可以而且应该被整合以获得对所研究系统的最大理解。

高通量的组学平台并不总是回答研究问题所必需的。传统技术：如酶联免疫吸附试验（ELISA）、免疫组织化学（IHC）和定量聚合酶链反应（qPCR），也是验证特定生物学机制所必需的。事实上，为了验证从组学数据中鉴定出的重要分子是一个真正的阳性结果，通常需要这些技术来验证一个更大的组学研究的结果。

但是每种方法都受到其统计能力、样本量、技术变量、批次效应、测序深度、样本制备和许多其他因素的限制。在设计、进行和分析研究以及解释研究结果时，必须牢记这些因素。因此，如果允许，建议研究设计一开始就让生物统计学家/生物信息学家参与进来。

参考文献：

Graw S, Chappell K, Washam CL, Gies A, Bird J, Robeson MS 2nd, Byrum SD. Multi-omics data integration considerations and study design for biological systems and disease. Mol Omics. 2020 Dec 21. doi: 10.1039/d0mo00041h. Epub ahead of print. PMID: 33347526.

A. Zaman , W. Wu and T. G. Bivona , Targeting Oncogenic BRAF: Past, Present, and Future, Cancers, 2019, 11 , 1197

A. Alvarez-Arenas et al., Interplay of Darwinian Selection, Lamarckian Induction and Microvesicle Transfer on Drug Resistance in Cancer, Sci. Rep., 2019, 9 , 9332 .

K. Yu et al., An integrated meta-omics approach reveals substrates involved in synergistic interactions in a bisphenol A (BPA)-degrading microbial community, Microbiome, 2019, 7 , 16.

G. D. Poore et al., Microbiome analyses of blood and tissues suggest cancer diagnostic approach, Nature, 2020, 579 , 567 —574 .

A. Gonzalez et al., Characterizing microbial communities through space and time, Curr. Opin. Biotechnol., 2012, 23 , 431 —436 Search PubMed .

D. Gurwitz The Gut Microbiome: Insights for Personalized Medicine, Drug Dev. Res., 2013, 74 , 341 —343 .

N. Issa Isaac et al., Metaproteomics of the human gut microbiota: Challenges and contributions to other OMICS, Clin. Mass Spectrom., 2019, 14 , 18 —30