用于多组学特征选择和数据集成的多模式自配学习

摘要


高通量测序技术的快速发展导致了大量多组学生物数据集的产生,于是可以通过整合不同组学的数据来深入了解疾病机制,然而,多组数据的综合分析和预测建模面临三大挑战:1.重噪声,2.高维度,3.数据异质性。现在流行的多组学数据整合方法有着一些局限性并且容易收到噪声影响。本论文提出MSPL,这是一种鲁棒性强的有监督的多组学数据整合方法,他可以同时识别整合过程中的重要多组学特征,并预测癌症亚型(癌症亚型:个体不同,每个人的癌症成因不同(分子机制不同))。MSPL不仅继承了自学习的泛化性能,而且利用包含相关信息的多组数据的属性,以交互方式推荐用于模型训练的高置信度样本。为了证明MSPL的优越性,我们使用模拟数据和五个多组学数据集,整合了三个组学以识别潜在的生物特征,并评估了在二元和多类分类问题中与最新方法相比的性能。我们提出的模型使多组学数据集集成更加系统化,并且扩展了其应用范围。

注:

多组学(Multi-omics)研究是探究生物系统中多种物质之间相互作用的方法,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学、微生物组学等,这些物质共同影响生命系统的表型、性状等。

高通量测序技术:高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。

介绍


在新的高通量测序技术的推动下,具有不同格式、大小和结构的各种类型的生物数据以前所未有的速度增长。基因表达、miRNA表达、蛋白质、DNA甲基化和代谢物都是一些使用高通量技术(如微阵列和质谱)产生的生物数据的一些例子。通常,这些不同的生物数据类型提供了整个基因组的不同、部分独立和互补信息。因此,破译复杂的人类基因组和基因功能需要更加完整、互补的信息。多组学数据(如基因组学、转录组学、蛋白质组学和代谢组学)的整合使得我们可以从不同的角度和层次深入了解复杂的疾病机制、预测目标疾病的亚型、发现潜在的多组学生物特征。

从多组学数据进行综合分析和预测模型的有效方法必须得克服至少三个计算问题:

问题1:每种类型的生物数据都存在高水平的噪声和收集偏差

                不同生物数据样本中存在的随机噪声和系统/采集偏差不仅影响科学研究的成本和效益,而且扰乱了对患者的疾病亚型的精确预测,毫无疑问这对患者将产生巨大影响。此外,不同数据类型的不同噪声和偏差可能导致分类器性能降低,并找到不可靠的潜在生物特征。

问题2:高维度,小样本

                生物数据通常有较多的特征值,但样本数量却非常小。从生物学角度来看,大多数的特征对于目标疾病是无关的,只有小部分的特征值与最后的目标预测是高度相关的。从机器学习的角度来看,大量的无关特征可能会导致过拟合,从而使最后的分类器较差。

问题3: 数据异质性

                不同组学平台产生的不同类型的生物数据具有异构信息,例如遵循不同的统计分布,接受不同程度的不精确性,包含不同类型的不确定性。

遗憾的是目前的多组学数据整合方法尚未同时解决这些问题。但是仍然有着迫切的需求来找寻一种鲁棒性强的方法来整合多组学数据。

从多组学数据中训练预测模型的问题可以被考虑为一个多模态学习问题。一般来说,相较于单一模态,多模态获得的数据携带者更加完整、互补的信息。多组学数据在同一组样本中提供具有不同特征集的多种模式。现有的预测癌症亚型和识别重要的多组学特征的有监督的多模式数据集成方法可以被分为基于基于级联的,基于集成的,和knowledge-based的。

基于级联的方法简单地将不同数据类型的所有特征组合到单个大型数据集中,于是预测与特征选择都基于这一个单一的统计模型。基于集成的方法则是对每个组学数据集都建立一个预测模型,最终通过用平均/多数投票方案组合预测结果。这些方法更适用于确定的组学数据类型,但并未考虑不同层面的组学之间的交互影响。近年的分类方法如广义弹性网络回归(Generalized
Elastic Net ),自适应正则化岭回归(adaptive Group-Regularized ridge regression),稀疏偏最小二乘鉴别分析(sparse Partial Least Squares Dis-criminantAnalysis)已经整合了生物数据,如遗传途径数据、甲基化数据和基因表达数据。然而这两种数据集成方法都没有考虑到不同类型的数据之间的交互影响,这限制了我们对不同层面生物功能之间存在的关系的认知。

知识驱动的多模式数据集成考虑了不同的基于先验知识的不同模型之间的关系,Singh等人发表的《利用潜在成分发现生物标志物的数据集成分析》(Data Integration Analysis for Biomarker discovery using Latent components (DIABLO))论文,该论文旨在最大化多组分数据之间的相关信息。DIABLO实际上将稀疏广义典型相关分析(SGCCA)扩展到有监督分类模型。它是一种多变量降维方法,根据给定的设计矩阵最大化多组分变量线性组合之间的协方差,并结合所有潜在成分进行预测。但是选定的重要组学特征存在线性关系这种设想可能在其他的生物学领域中并不适用。此外DIABLO易受强噪声影响,这导致它的泛化性能很差。

本论文提出MSPL,一种鲁棒性强的有监督的多组学数据整合方法,它可以同时识别整合过程中的重要多组学特征,并预测癌症亚型。MSPL(Multimodal Self-Paced Learning)采用样本重加权方式来提高噪声环境下学习过程的鲁棒性。MSPL的核心是交互式地推荐多个组学数据类型之间具有较小损失值的高置信度样本,并且自动选择样本(样本从易到难)来为每个模式来训练模型,这是一种完全自主的方式。这种方法实际是建立在自主学习(SPL:self-paced learning)上的,并且是它的一个变种。而且为了克服高维度特征,小规模样本带来的过拟合问题,MSPL嵌入了一种正则化方法来在学习过程中执行特征选择。以往已经提出了一系列用于特征选择的正则化方法,这里MSPL采用L1正则化(正则化解决过拟合问题)。在所有提出的方法中,MSPL试图解决多组学数据进行综合分析和预测模型所必须面临的三个数学问题。

我们使用模拟数据和五个公开的多组学数据集(包括四个基准癌症数据集和一个乳腺癌多组数据集)展示了MSPL的能力,并将其预测和特征选择性能与其他最先进的方法进行了比较。而且乳腺癌样本大概有1000个样本,且包含4个乳腺癌亚型。在这些实验中,我们整合了三个组学数据集,并评估了所有竞争方法在二分类和多类分类问题中的性能。结果显示,MSPL与现有方法相比更具竞争性,特别是在存在强噪声的情况下更具有鲁棒性。


相关工作

A: Curriculum Learning(课程式学习)

        主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识。Curriculum Learning会根据样本的难易程度,给不同难度的训练样本分配不同的权重。初始阶段,给简单样本的权重最高,随着训练过程的持续,较难样本的权重将会逐渐被调高。这样一个对样本进行权重动态分配的过程被论文称之为课程(Curriculum),课程初始阶段简易样本居多,课程末尾阶段样本难度增加。

        优点:  

  • 可以加速机器学习模型的训练。在达到相同的模型性能条件下,Curriculum Learning可以加速训练,减少训练迭代步数;
  • 使模型获得更好的泛化性能,即能让模型训练到更好的局部最优值状态

摘录自论文导读:机器学习之课程式学习(Curriculum Learning) - 知乎

B:SELF-PACED LEARNING(自步学习)

      


MSPL模型

        多组学数据天然拥有多模态特性,多模态数据通常比单一模态数据包含更完整的描述和补充信息,可以收集多模态之间相互交互的数据来直观地证明这一点。我们假设不同的模式下共享样本置信度的共同知识。总之,一个组学中的高质量样本可能与其他组学中的高质量样本一致。

[translate]Multimodal Self-Paced Learning for Multi-Omics Feature Selection and Data Integration相关推荐

  1. Deep Learning Based Registration文章阅读(五)《Anatomy-guided Multimodal Registration by Learning Segment 》

    Deep Learning Based Registration文章阅读(五) 这篇文章是MIA2021新出的一篇文章<Anatomy-guided Multimodal Registratio ...

  2. Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

    Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...

  3. 论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding

    Deep Metric Learning via Lifted Structured Feature Embedding CVPR 2016 摘要:本文提出一种距离度量的方法,充分的发挥 traini ...

  4. 【Machine Learning 学习笔记】feature engineering中noisy feature的影响

    [Machine Learning 学习笔记]feature engineering中noisy feature的影响 通过本篇博客记录一下添加噪声对Lasso和SVM的影响,采用的数据集为sklea ...

  5. Fast spectral clustering learning with hierarchical bipartite graph for large-scale data

    Fast spectral clustering learning with hierarchical bipartite graph for large-scale data 基于层次二分图的大规模 ...

  6. User Diverse Preference Modeling by Multimodal Attentive Metric Learning

    BACKGROUND 现有模型通常采用一个固定向量去表示用户偏好,在假设--特征向量每一个维度都代表了用户的一种特性或者一个方面,这种方式似乎不妥,因为用户对于不同物品的偏好是不一样的,例如用户会因演 ...

  7. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  8. IBM Machine Learning学习笔记(一)——Exploratory Data Analysis for Machine Learning

    数据的探索性分析 1. 读入数据 (1)csv文件读取 (2)json文件读取 (3)SQL数据库读取 (4)Not-only SQL (NoSQL)读取 (5)从网络中获取 2. 数据清洗 (1)缺 ...

  9. IntentNet: Learning to Predict Intention from Raw Sensor Data

    动机 In this paper we develop a one-stage detector and forecaster that exploits both 3D point clouds p ...

  10. Advances and Open Problems in Federated Learning——4.Preserving the Privacy of User Data翻译

    4.Preserving the Privacy of User Data   机器学习的工作流程需要许多不同功能的共同参与.比如说,用户可能会在与他的其他设备交互的过程中产生训练数据,一个机器学习训 ...

最新文章

  1. Java---Socket编程UDP/TCP
  2. Linux卸载unity,你如何删除Unity?
  3. 爱与恨的抉择:ASP.NET 5+EntityFramework 7
  4. SQLSERVER的三种备份模式
  5. ESP8266/ESP32 NVS 基本操作
  6. sql 192标准 连接查询
  7. 用python替换文件中内容的两种方法
  8. mysql语法与decode语法的不同
  9. 张凯江:架构能力-“构建”世界的能力
  10. vb mysql登录界面_vb.net 简单上机登陆(面向过程思维)
  11. 高速PCB设计之“20H ”原则
  12. com.android.dx.cf.iface.ParseException
  13. 快速幂计算x的n次幂,递归版本、迭代版本、python实现
  14. SpringCloud 分布式日志采集方案
  15. C# Word 悬挂缩进 首行缩进 的设置
  16. Planer Reflection
  17. Hacked【黑客】手游攻略
  18. 传腾讯计划出售美团全部股权,知情人士辟谣;苹果证实iOS 16要大量推送广告;Linux 6.0-rc1 发布|极客头条
  19. 计算机二级要学的函数有哪些,2017年计算机二级考试MS office 常用函数
  20. cad2006安装未找到html文件,我的CAD已安装在D驱动器上,但是在打开dwg文件时,它提示找不到C...

热门文章

  1. 【那些年,我们一起追的女孩】第十四章
  2. 24bit,192KHz 双通道数模转换电路/立体声数模转换芯片MS4344 可替代CS4344-CZZR
  3. Go:Comb sort 梳状排序(附完整源码)
  4. 大学生php实训总结_php实训报告.doc
  5. python opencv合并图片
  6. 流行音乐混音风格 流行音乐混音的压缩技巧
  7. 基于PeopleSoft的EHR系统建设路线及其团队建设
  8. 我的wow血精灵圣骑士,晒晒
  9. gym101908 C. Pizza Cutter(平面几何欧拉定理,树状数组求逆序对)
  10. 优化器 示意图 神经网络_走入五彩斑斓神经网络世界:关于梯度下降、RMSprop优化器的研究...