目录

  • 背景描述
  • 模型架构
    • 数据表示
      • Single level omics data representation learning model(单级组学数据表示学习模型)
      • Multi-level omics data representation learning model(多级组学数据表示学习模型)
      • DSML for partial level omics data(部分水平组学数据的 DSML)
    • Spectral clustering谱聚类
      • 认识谱聚类
      • 思考:自表示权重与聚类的联系
      • DSML中的谱聚类

背景描述

DSML来自论文"Deep Subspace Mutual Learning For Cancer Subtypes Prediction",其采用深度神经网络同时学习单个组学数据和整体多组学数据中的子空间结构,从而通过对多级、单级和部分级组学数据进行聚类来预测癌症亚型。

过去,癌症被认为是单一类型的疾病,通常通过肿瘤的形态学外观来诊断。 这种策略存在严重的局限性,即一些肿瘤具有相似的组织病理学外观,但它们具有不同的临床表现并代表不同的治疗结果。 如今,来自现代转录组学研究的越来越多的证据支持每个特定癌症由多种亚型组成的假设。癌症亚型预测一直是癌症治疗的关键,因为它可以诱导针对不同亚型的靶向特异性治疗,并有助于提供更有效的治疗,最大限度地减少对患者的伤害;

通常,使用多个数据级别的整体分析比使用单数据级别的分析更强大;在相互学习中,从一组未经训练的学生网络开始,它们同时学习,共同解决任务。这里,论文引入了深度相互学习机制来充分利用不同级别组学数据中包含的互补信息。在多水平组学数据整合分析中,每个学生对应于每个水平数据所学习的模型。每个学生的独立学习目标是从给定的单水平数据中准确地辨别特征,而所有学生的一致学习目标是对患者进行聚类。

因此,论文提出了一种深度子空间互学习(DSML)方法来捕获单组学数据和整体多组学数据中的子空间结构,用于癌症亚型预测。DSML构建了包含几个分支模型和一个集中模型的深层网络。首先,在每个分支模型中利用自动编码器和数据自表达层对隐藏在每个层级数据中的潜在特征表示进行编码。其次,使用集中模型来揭示整个数据中的全局子空间结构。最后,提出了一个支持相互学习的联合优化问题,以实现对每个分支和共识损失的平衡强调,基于获得的全局子空间结构通过谱聚类预测癌症亚型。

模型架构

DSML主要由两个模块组成:

  • 深度子空间互学习模型的数据表示;
  • 谱聚类算法预测癌症亚型;

数据表示

Single level omics data representation learning model(单级组学数据表示学习模型)

子空间聚类是指揭示数据的底层结构并将数据聚类到其固有的多个子空间中的任务。子空间聚类的主流策略是用稀疏约束的剩余数据点的线性或仿射组合来表示每个数据点,即数据线性自表达。


随着大数据时代的到来,产生了大量不一致数据、混合类型数据和部分值缺失的数据等。典型的聚类算法对这些数据集聚类时遇到难题。例如在高维稀疏数据中,簇类只存在部分属性构成的子空间中,这些数据集从全维空间来讲根本不存在簇类。一般来说,样本之间的差异往往是由若干个关键的特征所引起的,如果能恰当的找出这些重要特征,对建立合理的聚类或分类模型都将起到积极的作用。因此提出了子空间聚类

子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集,从不同的子空间角度考察各个数据簇聚类划分的意义,同时在聚类过程中为每个数据簇寻找到相应的特征子空间。总得来说,子空间聚类的任务主要有两个:

  • 1)发现可以聚类的子空间(属性子集);
  • 2)在相应的子空间上聚类;

子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样本聚类划分的过程中,得到各个数据簇对应的特征子集或者特征权重。


假设X=[x1,x2,..,xN]∈RD×NX=[x_{1},x_{2},..,x_{N}]\in R^{D\times N}X=[x1​,x2​,..,xN​]∈RD×N是一个有NNN个样本(每个样本DDD维)的集合,NNN代表病人的数量,为了将样本分离到各自的子空间中,每个数据xix_{i}xi​可以表示为一种自表示方式:xi=Xci,cii=0x_{i}=Xc_{i},c_{ii}=0xi​=Xci​,cii​=0其中,i=1,2,...,Ni=1,2,...,Ni=1,2,...,N,ci=[ci1,ci2,..,ciN]T∈RNc_{i}=[c_{i1},c_{i2},..,c_{iN}]^{T}\in R^{N}ci​=[ci1​,ci2​,..,ciN​]T∈RN是自表示系数,其中约束cii=0c_{ii}=0cii​=0排除了将点表示为自身线性组合的简单情况。

为了获得唯一解,上述方程可以表述为以下优化问题:minci∣∣ci∣∣qmin_{c_{i}}||c_{i}||_{q}minci​​∣∣ci​∣∣q​s.t.xi=Xci,cii=0s.t.x_{i}=Xc_{i},c_{ii}=0s.t.xi​=Xci​,cii​=0其中,qqq控制了自表示系数的稀疏性,我们可以写出紧凑的矩阵形式:minC∣∣C∣∣qmin_{C}||C||_{q}minC​∣∣C∣∣q​s.t.X=XC,diag(C)=0s.t.X=XC,diag(C)=0s.t.X=XC,diag(C)=0其中,C=[c1,c2,...,cN]∈RN×NC=[c_{1},c_{2},...,c_{N}]\in R^{N\times N}C=[c1​,c2​,...,cN​]∈RN×N,进一步,将等式约束放宽变成正则化项,问题转化为:minC∣∣C∣∣q+λ2∣∣X−XC∣∣F2min_{C}||C||_{q}+\frac{\lambda}{2}||X-XC||_{F}^{2}minC​∣∣C∣∣q​+2λ​∣∣X−XC∣∣F2​s.t.diag(C)=0s.t.diag(C)=0s.t.diag(C)=0上面问题是基于矩阵的优化问题,因此它们只能反映线性子空间中的自我表达特性。尽管基于核的子空间方法在努力处理非线性情况,但核函数的选择和设计仍然缺乏明确的物理意义和理论方向。 因此,论文采用深度子空间聚类网络 (DSCN)来实现非线性自表达。 DSCN 的模型结构如下图所示。 DSCN 包含编码器层、自表达层和解码器层。

子空间的探索是通过解决以下优化问题来实现的:minZ,C12∣∣X−X^∣∣F2+λ1∣∣C∣∣q+λ22∣∣Z−ZC∣∣F2min_{Z,C}\frac{1}{2}||X-\widehat{X}||_{F}^{2}+\lambda_{1}||C||_{q}+\frac{\lambda_{2}}{2}||Z-ZC||_{F}^{2}minZ,C​21​∣∣X−X∣∣F2​+λ1​∣∣C∣∣q​+2λ2​​∣∣Z−ZC∣∣F2​s.t.diag(C)=0s.t.diag(C)=0s.t.diag(C)=0其中,X^\widehat{X}X表示整个深度网络重构的数据,ZZZ表示编码器输出的特征,λ1,λ2\lambda_{1},\lambda_{2}λ1​,λ2​是平衡参数;最小化第一项,它测量所有数据的平均重建损失,可以控制数据表示期间的信息损失。 第二项和第三项对应于前面一直讨论的优化目标;


自表达层中的节点通过线性权重(即 CCC)完全连接,没有偏差bias和非线性激活函数。自表达层的输入数据是涉及非线性激活函数的编码器层的输出,因此,尽管自表达层仅使用线性连接,但整个网络仍将实现数据的非线性自表达;

自表达层中两个对应点之间的权重应设置为零,即约束diag(C)=0diag(C)= 0diag(C)=0,在上图中用红色虚线表示;


Multi-level omics data representation learning model(多级组学数据表示学习模型)

定义χ=[X(1),X(2),...,X(V)]\chi=[X^{(1)},X^{(2)},...,X^{(V)}]χ=[X(1),X(2),...,X(V)]表示一组多视图样本,其中每个视图对应一个级别的组学数据。其中有X(v)=[x1(v),x2(v),...,xN(v)]∈RDv×NX^{(v)}=[x_{1}^{(v)},x_{2}^{(v)},...,x_{N}^{(v)}]\in R^{D_{v}\times N}X(v)=[x1(v)​,x2(v)​,...,xN(v)​]∈RDv​×N代表第vvv个视图(view)下的单级组学数据;

论文的DSML架构如下:

通过分支部分(Branches)联合学习每个单个视图的潜在个体表示和相似性,以及通过集中主干部分(Main-stem)学习跨多个视图的整体表示和相似性。 从图中可以看出,分支和主干部分由DSCN组成。

具体而言,通过特定视图编码器自动提取每个视图的内在表示,同时通过特定视图的自表达方式计算视图内数据的相似性。 换句话说,为每个视图数据构建一个分支,即 DSCN。 然后从每个视图中提取的表示被集成为串联的形式后输入到主干部分。 显然,来自所有视图的数据的完整表示和相似性分别通过图中的多视图编码和多视图自表达部分整合和计算;

DSML的这种联合优化能够实现不同级别数据之间的相互学习。这些分支可以看作是学生的集合,各分支的独立学习目标是获得每个组学数据的个体表征和相似性,而主干的一致学习目标是获得整体水平组学数据的相似性,在训练过程中,他们都将得到改进。该联合优化问题的目标函数为:

在多视图的背景下,vvv 表示 vvv 级个体组学数据的分支,MMM 表示集成数据的主干;其中,X(M)=[Z(1)T,Z(2)T,...,Z(V)T]TX^{(M)}=[Z^{(1)T},Z^{(2)T},...,Z^{(V)T}]^{T}X(M)=[Z(1)T,Z(2)T,...,Z(V)T]T,Z(v)Z^{(v)}Z(v)是第vvv个分支的编码器输出(第vvv个组学数据的提取特征),分支和主干结构的网络在其设计中结合了联合优化,可以实现相互学习;

每个分支的独立学习目标是获得每个组学数据的个体表征和相似性,而主干的一致学习目标是获得整体水平组学数据的相似性。 DSML 是一种前馈神经网络,因此每个组学数据的表示,即 Z(v)Z^{(v)}Z(v),会影响主干部分内的连接权重。 DSML 通过反向传播策略进行优化,因此主干部分的学习反过来影响每个分支的 Z(v)Z^{(v)}Z(v)。 此外,表示 Z(v)Z^{(v)}Z(v) 也影响相似关系,即自表达权重 C(v)C^{(v)}C(v)。 最终,在特定视图编码和自表达以及多视图编码和自表达之间进行相互学习。 因此,所有这些都将在训练过程中得到改进。 此外,经过训练的 DSML 中的每个分支都可以用作独立模型,用于揭示单级数据的表示和相似性。 由于训练涉及多层次组学数据,每个训练分支都包含来自其他层次数据的补充信息。 在实践中,即使患者只有一个级别的测试数据,经过训练的分支做出的预测也能取得令人满意的结果。

DSML的训练算法如下:


Input:多级组学数据χ\chiχ,平衡参数λ1,λ2\lambda_{1},\lambda_{2}λ1​,λ2​
Output:自表示权重C(v),C(M),v=1,2,...,VC^{(v)},C^{(M)},v=1,2,...,VC(v),C(M),v=1,2,...,V

1:对于第vvv个组学数据,构建和训练自编码器A(v)A^{(v)}A(v),通过∣∣X(v)−X^(v)∣∣F2||X^{(v)}-\widehat{X}^{(v)}||_{F}^{2}∣∣X(v)−X(v)∣∣F2​训练;

2:使用 A(v)A^{(v)}A(v) 初始化对应视图的编码器和解码器部分;

3:学习某个视图下的自表示权重C(v)C^{(v)}C(v),并微调分支自编码器A(v)A^{(v)}A(v)(利用单级组学数据表示学习模型中的优化问题作为目标);

4:连接每个分支的表达 Z(v)Z^{(v)}Z(v) 以形成主干部分的输入数据 X(M)X^{(M)}X(M);

5:构建和训练自编码器A(M)A^{(M)}A(M),通过∣∣X(M)−X^(M)∣∣F2||X^{(M)}-\widehat{X}^{(M)}||_{F}^{2}∣∣X(M)−X(M)∣∣F2​训练;

6:使用A(M)A^{(M)}A(M)初始化多视图级别的编码器和解码器;

7:学习并微调多视图(main-stem)下的自表示权重C(M)C^{(M)}C(M)与自编码器A(M)A^{(M)}A(M)(利用单级组学数据表示学习模型中的优化问题作为目标);

8:利用多级组学数据表示学习模型中的优化问题作为目标,微调整个DSML;

返回C(v),C(M),v=1,2,...,VC^{(v)},C^{(M)},v=1,2,...,VC(v),C(M),v=1,2,...,V


DSML for partial level omics data(部分水平组学数据的 DSML)

DSML 结合了相互学习机制,因此它可以处理仅包含组学子集的数据集,即部分级组学数据。 每个分支旨在学习每个组学级别数据的表示和相似性,主干通过融合所有分支的表示来控制共识学习。 因此,每个分支都可以看作是处理单个组学水平数据的独立模型;

在临床应用中,即使需要诊断的患者只有单组学水平的数据,但DSML中的相应分支仍然可以达到令人满意的预测结果,因为该分支模型已经通过相互学习在训练阶段涉及到其他组学的信息。 此外,如果第 iii 个患者的数据有多个组学但丢失了第 vvv 个组学,我们可以设置 xi(v)x^{(v)}_{i}xi(v)​ 等于全零向量并将其直接输入到完整的 DSML 模型中。 这种丢失的组学数据不会对整体数据融合的表示产生明显影响。 DSML 从而自动忽略丢失的组学数据,并利用可用的部分水平组学数据预测癌症亚型;

Spectral clustering谱聚类

认识谱聚类

谱聚类 ( spectral clustering ) 是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高。通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

对于一个图G(V,E)G(V,E)G(V,E),在V={v1,v2,...,vn}V=\left\{v_{1},v_{2},...,v_{n}\right\}V={v1​,v2​,...,vn​}中的任意两个点,可以有边连接,也可以没有,定义权重wijw_{ij}wij​表示节点viv_{i}vi​到vjv_{j}vj​的权重,如果没有边连接,则wij=0w_{ij}=0wij​=0;

对于无向图中的任意一个点viv_{i}vi​,它的度did_{i}di​为与其相连的所有边的权重之和,即:di=∑j=1nwijd_{i}=\sum_{j=1}^{n}w_{ij}di​=j=1∑n​wij​相应的,定义一个n×nn\times nn×n的度矩阵DDD为:
(d1⋯0⋮⋱⋮0⋯dn)\begin{pmatrix} d_{1}&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&d_{n}\\ \end{pmatrix}⎝⎜⎛​d1​⋮0​⋯⋱⋯​0⋮dn​​⎠⎟⎞​其中,主对角线元素表示节点的度,其余元素为0;图的邻接矩阵WWW也是一个n×nn\times nn×n的矩阵,其中第iii行第jjj列表示权重wijw_{ij}wij​的值;

我们定义AAA是节点集合的子集,∣A∣|A|∣A∣表示子集中节点的个数以及:vol(A)=∑i∈Adivol(A)=\sum_{i\in A}d_{i}vol(A)=i∈A∑​di​我们只有每个点的数据,为了实现谱聚类,所以要先得到邻接矩阵,邻接矩阵的获取遵循以下思想:距离较远的两个样本点之间的权重较低,而距离较近的两个样本点之间的权重较高;所以引出相似度矩阵的概念,用相似度矩阵代替邻接矩阵

我们通常用全连接假设计算相似度矩阵,此时节点之间是全连接的,所有点之间的权重值都大于0,我们可以选择不同的核函数定义边权重,通常使用径向基函数RBF获得相似度(即权重):wij=sij=exp(−∣∣xi−xj∣∣222σ2)w_{ij}=s_{ij}=exp(-\frac{||x_{i}-x_{j}||^{2}_{2}}{2\sigma^{2}})wij​=sij​=exp(−2σ2∣∣xi​−xj​∣∣22​​)


关于核函数
我们经常可以看到一个概念叫核函数,所谓核函数,其实就是"kernel",它是一种针对局部元素进行的操作,并通过不断滑动遍历全体数据;


另外补充拉普拉斯矩阵内容,图的拉普拉斯矩阵定义为:L=D−WL=D-WL=D−W其中,DDD为度矩阵,WWW为邻接矩阵,LLL具有以下性质:

  • 拉普拉斯矩阵是对称矩阵,这可以由DDD和WWW对称得到;
  • 由于 Laplacian 矩阵是对称矩阵,则它的所有特征值均是实数;
  • Laplacian 矩阵是半正定的,且对应的 nnn 个实数特征值都大于等于0(nnn是样本数,也就是节点数);
  • 对任意向量fff,均有:fTLf=12∑i=1n∑j=1nwij(fi−fj)2f^{T}Lf=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}(f_{i}-f_{j})^{2}fTLf=21​i=1∑n​j=1∑n​wij​(fi​−fj​)2

基于上述内容,现在考虑如何切图,最基本的是无向图切图

对于无向图G(V,E)G(V,E)G(V,E),现在要将其切分成相互几乎没有关联的kkk个子图,每个子图的节点集合为A1,A2,...,AkA_{1},A_{2},...,A_{k}A1​,A2​,...,Ak​,它们满足以下关系:Ai∩Aj=∅,A1∪A2∪...∪Ak=VA_{i}\cap A_{j}=\emptyset,A_{1}\cup A_{2}\cup ...\cup A_{k}=VAi​∩Aj​=∅,A1​∪A2​∪...∪Ak​=V对于任意两个子图的节点集合A,B⊂V,A∩B=∅A,B\subset V,A\cap B=\emptysetA,B⊂V,A∩B=∅,定义AAA和BBB之间的权重为:W(A,B)=∑i∈A,j∈BwijW(A,B)=\sum_{i\in A,j\in B}w_{ij}W(A,B)=i∈A,j∈B∑​wij​对于kkk个子图节点的集合A1,A2,...,AkA_{1},A_{2},...,A_{k}A1​,A2​,...,Ak​,定义切图cutcutcut为:cut(A1,A2,...,Ak)=12∑i=1kW(Ai,A‾i)cut(A_{1},A_{2},...,A_{k})=\frac{1}{2}\sum_{i=1}^{k}W(A_{i},\overline{A}_{i})cut(A1​,A2​,...,Ak​)=21​i=1∑k​W(Ai​,Ai​)其中,A‾i\overline{A}_{i}Ai​为AiA_{i}Ai​关于VVV的补集;我们的目标是最小化cut(A1,A2,...,Ak)cut(A_{1},A_{2},...,A_{k})cut(A1​,A2​,...,Ak​)以实现数据聚类(子图的划分);

现在进一步过度到 RatioCut 切图,RatioCut 切图不光考虑最小化cut(A1,A2,...,Ak)cut(A_{1},A_{2},...,A_{k})cut(A1​,A2​,...,Ak​),还考虑最大化每个子图中的节点个数,所以有目标:min[RatioCut(A1,A2,...,Ak)]=min12∑i=1kW(Ai,A‾i)∣Ai∣min[RatioCut(A_{1},A_{2},...,A_{k})]=min\frac{1}{2}\sum_{i=1}^{k}\frac{W(A_{i},\overline{A}_{i})}{|A_{i}|}min[RatioCut(A1​,A2​,...,Ak​)]=min21​i=1∑k​∣Ai​∣W(Ai​,Ai​)​为了便于计算,下面对RatioCut(A1,A2,...,Ak)RatioCut(A_{1},A_{2},...,A_{k})RatioCut(A1​,A2​,...,Ak​)做一些变换,我们先引入指示向量hj∈[h1,h2,...,hk]h_{j}\in [h_{1},h_{2},...,h_{k}]hj​∈[h1​,h2​,...,hk​],对于任意一个hjh_{j}hj​,它是nnn维列向量(nnn是样本数,也就是节点数),我们定义其中的元素hijh_{ij}hij​为:

其中,iii表示节点viv_{i}vi​,jjj表示子集AjA_{j}Aj​;

此时注意到一个等式,这将帮助我们化简目标的表达:hiTLhi=12∑m=1∑n=1wmn(him−hin)2=cut(Ai,A‾i)∣Ai∣h_{i}^{T}Lh_{i}=\frac{1}{2}\sum_{m=1}\sum_{n=1}w_{mn}(h_{im}-h_{in})^{2}=\frac{cut(A_{i},\overline{A}_{i})}{|A_{i}|}hiT​Lhi​=21​m=1∑​n=1∑​wmn​(him​−hin​)2=∣Ai​∣cut(Ai​,Ai​)​其中,hih_{i}hi​是一个nnn维列向量;

所以,对于全部子图,RatioCut(A1,A2,...,Ak)RatioCut(A_{1},A_{2},...,A_{k})RatioCut(A1​,A2​,...,Ak​)可表示为:RatioCut(A1,A2,...,Ak)=∑i=1khiTLhi=tr(HTLH)RatioCut(A_{1},A_{2},...,A_{k})=\sum_{i=1}^{k}h_{i}^{T}Lh_{i}=tr(H^{T}LH)RatioCut(A1​,A2​,...,Ak​)=i=1∑k​hiT​Lhi​=tr(HTLH)注意到指示向量之间是线性无关的,所以有HTH=IH^{T}H=IHTH=I,则优化目标变成寻求一个合适的指示矩阵HHH使得:minHtr(HTLH)min_{H}tr(H^{T}LH)minH​tr(HTLH)s.t.HTH=Is.t.H^{T}H=Is.t.HTH=I注意,HHH是一个n×kn\times kn×k维的矩阵,并且列向量是单位正交基,LLL是对称矩阵,此时hiTLhih_{i}^{T}Lh_{i}hiT​Lhi​的最大值为LLL的最大特征值,最小值为LLL的最小特征值;

对于tr(HTLH)tr(H^{T}LH)tr(HTLH)来说,目标就是找到LLL最小的kkk个特征值,通过这kkk个特征值可以得到对应的kkk个特征向量,这kkk个特征向量可以组成一个n×kn\times kn×k维的矩阵HHH,一般我们还可以对矩阵HHH做标准化:hij∗=hij(∑t=1khit2)12h_{ij}^{*}=\frac{h_{ij}}{(\sum_{t=1}^{k}h_{it}^{2})^{\frac{1}{2}}}hij∗​=(∑t=1k​hit2​)21​hij​​现在回忆HHH的物理意义,得到的指示矩阵HHH为n×kn\times kn×k,它的第mmm行为1×k1\times k1×k,其可以反映第mmm个样本(节点)属于哪个子集的信息。因此,我们可以通过指示矩阵得到每个样本的聚类结果

思考:自表示权重与聚类的联系

DSML中的自编码器重在于编码器,其目的是为了在大量数据中学会捕捉各个视图下的非线性分布,DSML训练结束后,对整合的自表示权重C(M)C^{(M)}C(M)聚类其实就得到了聚类结果;

自表示权重是不同视图组学数据各自对应的线性自表达,比如对于第vvv视图下的组学数据X(v)X^{(v)}X(v),自表示权重为C(v)=[c1,c2,...,cN]∈RN×NC^{(v)}=[c_{1},c_{2},...,c_{N}]\in R^{N\times N}C(v)=[c1​,c2​,...,cN​]∈RN×N,其中ci=[ci1,ci2,...,ciN]T∈RNc_{i}=[c_{i1},c_{i2},...,c_{iN}]^{T}\in R^{N}ci​=[ci1​,ci2​,...,ciN​]T∈RN代表第iii个样本xix_{i}xi​基于其他样本的线性组合系数(线性变换的基),所以C(v)C^{(v)}C(v)是所有样本,基于其他样本线性变换的基集合(基空间),这就是在数据集中发现的一组子空间;

下面我们要对子空间进行聚类,由于上面得到的子空间反映了数据之间的线性组合表达方式,因此我们对子空间进行聚类也是对数据进行聚类;


子空间是数据的稀疏表达,我们对稀疏的子空间聚类,聚类算法的实施会比紧凑的原始数据聚类更容易


DSML中的谱聚类

现在我们对main-stem中获得的子空间C(M)∈RN×NC^{(M)}\in R^{N\times N}C(M)∈RN×N进行谱聚类,首先计算相似度矩阵SSS:Sij=12(∣Cij(M)∣+∣Cji(M)∣)S_{ij}=\frac{1}{2}(|C_{ij}^{(M)}|+|C_{ji}^{(M)}|)Sij​=21​(∣Cij(M)​∣+∣Cji(M)​∣)然后计算拉普拉斯矩阵:L=I−D−12SD−12,Dii=∑ijSijL=I-D^{-\frac{1}{2}}SD^{-\frac{1}{2}},D_{ii}=\sum_{ij}S_{ij}L=I−D−21​SD−21​,Dii​=ij∑​Sij​谱聚类现在转为下面的优化问题:minBtr(BTLB)min_{B}tr(B^{T}LB)minB​tr(BTLB)s.t.BTB=Is.t.B^{T}B=Is.t.BTB=I其中,III是单位矩阵,B=Y(YTY)−12B=Y(Y^{T}Y)^{-\frac{1}{2}}B=Y(YTY)−21​,并且Y=[y1T,y2T,...,yNT]TY=[y_{1}^{T},y_{2}^{T},...,y_{N}^{T}]^{T}Y=[y1T​,y2T​,...,yNT​]T,yiy_{i}yi​代表了第iii个样本的聚类结果,如果yi(k)=1y_{i}(k)=1yi​(k)=1则说明第iii个病人属于第kkk类癌症亚型

DSML:深度子空间相互学习模型(用于癌症亚型预测)相关推荐

  1. iDNA-ABF:DNA甲基化可解释预测的多尺度深度生物语言学习模型

    摘要 在这项研究中,我们提出了iDNA-ABF,一个多尺度的深度生物语言学习模型,能够仅基于基因组序列对DNA甲基化进行可解释的预测.基准比较表明,我们的iDNA-ABF在不同甲基化预测方面的性能优于 ...

  2. IDNA-ABF: DNA甲基化可解释预测的多尺度深度生物语言学习模型

    IDNA-ABF:multi‑scale deep biological language learning model for the interpretable prediction of  DN ...

  3. 【专利练习4】深度学习模型用于专利分类

    深度学习模型用于专利分类 仍然是对专利分类代码的学习 https://github.com/newzhoujian/LCASPatentClassification 深度学习模型(七个) Word2V ...

  4. 生物信息学|新颖的深度学习模型,更准确地预测药物-药物相互作用

    本篇推文引自:Novel deep learning model for more accurate prediction of drug-drug interaction effects 1. 摘要 ...

  5. 利用多时间无人机数据和时空深度学习模型的作物产量预测

    文章目录 Abstract 1 Introduction 1.1 Related Work 1.2 Contribution 2 Materials and Methods 2.1 Data Acqu ...

  6. 解析KDTCN:知识图谱和深度学习模型联合实现股票预测

    背景概述 今天看了一篇论文我觉得挺有意思,一方面是讲的股票预测相关,另一方面是把深度学习和知识图谱相结合解决一个问题.通常知识图谱和深度学习很少有交集,一般是独立发展的两个人工智能领域解决问题的手段, ...

  7. 基于可解释多模态深度学习的泛癌症整合组织-基因组分析

    目录 从一篇文章入手(基于多模态深度学习的泛癌症整合组织-基因组分析) Post hoc Explainability Local explanations.    V.s.    Global Ex ...

  8. Roofline Model与深度学习模型的性能分析

    作者:Michael Yuan 链接:hhttps://zhuanlan.zhihu.com/p/34204282 本文转载自知乎,作者已授权,未经许可请勿二次转载 最近在不同的计算平台上验证几种经典 ...

  9. 什么是机器学习?从3个视角谈起:学习任务、学习范式、学习模型

    Three Perspectives of Machine Learning 机器学习的三个视角 Perspectives Description 描述 典型 Learning Tasks 学习任务 ...

最新文章

  1. 第6章-MapReduce的工作机制-笔记
  2. AliOS Things 硬件抽象层(HAL)对接系列2 — SPI driver porting
  3. C语言代码规范(七)#define
  4. 相机下载_索尼黑卡相机与手机互联APP相关
  5. 30-80k/月!影创科技算法岗招聘,含实习生
  6. 101—200之间的素数-Java编写
  7. 如何合并多个工作表或多个工作簿?3种合并方法都在这
  8. 举个栗子!Tableau 技巧(126):学几个常用的日期函数
  9. 【PERMUT】函数使用技巧
  10. 怎样用JS实现关闭当前窗口
  11. win10 + Ubuntu 20.04 LTS 双系统安装 (UEFI + GPT)(图文,多图预警)
  12. 三款极简好用的epub阅读器
  13. IOS - iPhoneX 怎么进入 DFU 模式(刷机必备)?
  14. The C Programming Language 读书总结
  15. 扫码支付吃个煎饼,街边摊支付的背后也要有大数据运营
  16. 网络知识入门,用户如何连接互联网,ADSL调制解调器的妙用,PPP上网的三种方式(十二)
  17. JavaScript回顾
  18. C语言每日一练——第140天:抓交通肇事犯
  19. Flink:DataStream Connectors 之 Kafka
  20. 已上架APP如何更换公司的各项主体-苹果、安卓、支付、域名等

热门文章

  1. 我花了10个小时,写出了这篇K8S架构解析
  2. 亿级流量架构之服务限流思路与方法
  3. 图解Java中那18 把锁
  4. 百度前离职员工偶遇同门百度人,轻松通过面试,直呼放水很明显!这样真的好么?...
  5. 喜马拉雅自研网关架构实践
  6. 字节老板在群里diss员工:上班时间聊游戏,工作很闲吗?员工回怼:查聊天记录,看聊天时间占工作时间百分比!网友:真·扁平化管理!...
  7. 菜鸟实时数仓2.0进阶之路
  8. 互联网公司的那些搞笑gif
  9. 面试鹅厂,我三面被虐的体无完肤。。。
  10. 推荐10个小众简约,但是实用的软件和网站