用于多组学特征选择和数据集成的多模式自配学习

摘要

高通量测序技术的快速发展导致了大量多组学生物数据集的产生，于是可以通过整合不同组学的数据来深入了解疾病机制，然而，多组数据的综合分析和预测建模面临三大挑战：1.重噪声，2.高维度，3.数据异质性。现在流行的多组学数据整合方法有着一些局限性并且容易收到噪声影响。本论文提出MSPL，这是一种鲁棒性强的有监督的多组学数据整合方法，他可以同时识别整合过程中的重要多组学特征，并预测癌症亚型（癌症亚型：个体不同，每个人的癌症成因不同（分子机制不同））。MSPL不仅继承了自学习的泛化性能，而且利用包含相关信息的多组数据的属性，以交互方式推荐用于模型训练的高置信度样本。为了证明MSPL的优越性，我们使用模拟数据和五个多组学数据集，整合了三个组学以识别潜在的生物特征，并评估了在二元和多类分类问题中与最新方法相比的性能。我们提出的模型使多组学数据集集成更加系统化，并且扩展了其应用范围。

注：

多组学（Multi-omics）研究是探究生物系统中多种物质之间相互作用的方法，包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学、微生物组学等，这些物质共同影响生命系统的表型、性状等。

高通量测序技术：高通量测序技术是对传统测序一次革命性的改变，一次对几十万到几百万条DNA分子进行序列测定，因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变，同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。

介绍

在新的高通量测序技术的推动下，具有不同格式、大小和结构的各种类型的生物数据以前所未有的速度增长。基因表达、miRNA表达、蛋白质、DNA甲基化和代谢物都是一些使用高通量技术（如微阵列和质谱）产生的生物数据的一些例子。通常，这些不同的生物数据类型提供了整个基因组的不同、部分独立和互补信息。因此，破译复杂的人类基因组和基因功能需要更加完整、互补的信息。多组学数据（如基因组学、转录组学、蛋白质组学和代谢组学）的整合使得我们可以从不同的角度和层次深入了解复杂的疾病机制、预测目标疾病的亚型、发现潜在的多组学生物特征。

从多组学数据进行综合分析和预测模型的有效方法必须得克服至少三个计算问题：

问题1：每种类型的生物数据都存在高水平的噪声和收集偏差

不同生物数据样本中存在的随机噪声和系统/采集偏差不仅影响科学研究的成本和效益，而且扰乱了对患者的疾病亚型的精确预测，毫无疑问这对患者将产生巨大影响。此外，不同数据类型的不同噪声和偏差可能导致分类器性能降低，并找到不可靠的潜在生物特征。

问题2：高维度，小样本

生物数据通常有较多的特征值，但样本数量却非常小。从生物学角度来看，大多数的特征对于目标疾病是无关的，只有小部分的特征值与最后的目标预测是高度相关的。从机器学习的角度来看，大量的无关特征可能会导致过拟合，从而使最后的分类器较差。

问题3： 数据异质性

不同组学平台产生的不同类型的生物数据具有异构信息，例如遵循不同的统计分布，接受不同程度的不精确性，包含不同类型的不确定性。

遗憾的是目前的多组学数据整合方法尚未同时解决这些问题。但是仍然有着迫切的需求来找寻一种鲁棒性强的方法来整合多组学数据。

从多组学数据中训练预测模型的问题可以被考虑为一个多模态学习问题。一般来说，相较于单一模态，多模态获得的数据携带者更加完整、互补的信息。多组学数据在同一组样本中提供具有不同特征集的多种模式。现有的预测癌症亚型和识别重要的多组学特征的有监督的多模式数据集成方法可以被分为基于基于级联的，基于集成的，和knowledge-based的。

基于级联的方法简单地将不同数据类型的所有特征组合到单个大型数据集中，于是预测与特征选择都基于这一个单一的统计模型。基于集成的方法则是对每个组学数据集都建立一个预测模型，最终通过用平均/多数投票方案组合预测结果。这些方法更适用于确定的组学数据类型，但并未考虑不同层面的组学之间的交互影响。近年的分类方法如广义弹性网络回归（Generalized
Elastic Net ），自适应正则化岭回归（adaptive Group-Regularized ridge regression），稀疏偏最小二乘鉴别分析（sparse Partial Least Squares Dis-criminantAnalysis）已经整合了生物数据，如遗传途径数据、甲基化数据和基因表达数据。然而这两种数据集成方法都没有考虑到不同类型的数据之间的交互影响，这限制了我们对不同层面生物功能之间存在的关系的认知。

知识驱动的多模式数据集成考虑了不同的基于先验知识的不同模型之间的关系，Singh等人发表的《利用潜在成分发现生物标志物的数据集成分析》（Data Integration Analysis for Biomarker discovery using Latent components (DIABLO)）论文，该论文旨在最大化多组分数据之间的相关信息。DIABLO实际上将稀疏广义典型相关分析（SGCCA）扩展到有监督分类模型。它是一种多变量降维方法，根据给定的设计矩阵最大化多组分变量线性组合之间的协方差，并结合所有潜在成分进行预测。但是选定的重要组学特征存在线性关系这种设想可能在其他的生物学领域中并不适用。此外DIABLO易受强噪声影响，这导致它的泛化性能很差。

本论文提出MSPL，一种鲁棒性强的有监督的多组学数据整合方法，它可以同时识别整合过程中的重要多组学特征，并预测癌症亚型。MSPL(Multimodal Self-Paced Learning)采用样本重加权方式来提高噪声环境下学习过程的鲁棒性。MSPL的核心是交互式地推荐多个组学数据类型之间具有较小损失值的高置信度样本，并且自动选择样本（样本从易到难）来为每个模式来训练模型，这是一种完全自主的方式。这种方法实际是建立在自主学习(SPL:self-paced learning)上的，并且是它的一个变种。而且为了克服高维度特征，小规模样本带来的过拟合问题，MSPL嵌入了一种正则化方法来在学习过程中执行特征选择。以往已经提出了一系列用于特征选择的正则化方法，这里MSPL采用L1正则化（正则化解决过拟合问题）。在所有提出的方法中，MSPL试图解决多组学数据进行综合分析和预测模型所必须面临的三个数学问题。

我们使用模拟数据和五个公开的多组学数据集（包括四个基准癌症数据集和一个乳腺癌多组数据集）展示了MSPL的能力，并将其预测和特征选择性能与其他最先进的方法进行了比较。而且乳腺癌样本大概有1000个样本，且包含4个乳腺癌亚型。在这些实验中，我们整合了三个组学数据集，并评估了所有竞争方法在二分类和多类分类问题中的性能。结果显示，MSPL与现有方法相比更具竞争性，特别是在存在强噪声的情况下更具有鲁棒性。

MSPL模型

多组学数据天然拥有多模态特性，多模态数据通常比单一模态数据包含更完整的描述和补充信息，可以收集多模态之间相互交互的数据来直观地证明这一点。我们假设不同的模式下共享样本置信度的共同知识。总之，一个组学中的高质量样本可能与其他组学中的高质量样本一致。

[translate]Multimodal Self-Paced Learning for Multi-Omics Feature Selection and Data Integration相关推荐

Deep Learning Based Registration文章阅读(五)《Anatomy-guided Multimodal Registration by Learning Segment 》
Deep Learning Based Registration文章阅读(五) 这篇文章是MIA2021新出的一篇文章<Anatomy-guided Multimodal Registratio ...
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
论文笔记之： Deep Metric Learning via Lifted Structured Feature Embedding
Deep Metric Learning via Lifted Structured Feature Embedding CVPR 2016 摘要:本文提出一种距离度量的方法,充分的发挥 traini ...
【Machine Learning 学习笔记】feature engineering中noisy feature的影响
[Machine Learning 学习笔记]feature engineering中noisy feature的影响通过本篇博客记录一下添加噪声对Lasso和SVM的影响,采用的数据集为sklea ...
Fast spectral clustering learning with hierarchical bipartite graph for large-scale data
Fast spectral clustering learning with hierarchical bipartite graph for large-scale data 基于层次二分图的大规模 ...
User Diverse Preference Modeling by Multimodal Attentive Metric Learning
BACKGROUND 现有模型通常采用一个固定向量去表示用户偏好,在假设--特征向量每一个维度都代表了用户的一种特性或者一个方面,这种方式似乎不妥,因为用户对于不同物品的偏好是不一样的,例如用户会因演 ...
【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
IBM Machine Learning学习笔记（一）——Exploratory Data Analysis for Machine Learning
数据的探索性分析 1. 读入数据 (1)csv文件读取 (2)json文件读取 (3)SQL数据库读取 (4)Not-only SQL (NoSQL)读取 (5)从网络中获取 2. 数据清洗 (1)缺 ...
IntentNet: Learning to Predict Intention from Raw Sensor Data
动机 In this paper we develop a one-stage detector and forecaster that exploits both 3D point clouds p ...
Advances and Open Problems in Federated Learning——4.Preserving the Privacy of User Data翻译
4.Preserving the Privacy of User Data 机器学习的工作流程需要许多不同功能的共同参与.比如说,用户可能会在与他的其他设备交互的过程中产生训练数据,一个机器学习训 ...

[translate]Multimodal Self-Paced Learning for Multi-Omics Feature Selection and Data Integration

用于多组学特征选择和数据集成的多模式自配学习

摘要

介绍

相关工作

MSPL模型

[translate]Multimodal Self-Paced Learning for Multi-Omics Feature Selection and Data Integration相关推荐

最新文章

热门文章