HGANMDA:Hierarchical graph attention network for miRNA-disease association prediction

https://www.sciencedirect.com/science/article/pii/S1525001622000806https://www.sciencedirect.com/science/article/pii/S1525001622000806

许多生物学研究表明,microRNAs(miRNAs)的突变和异常表达可引起多种疾病。 miRNA作为疾病诊断的重要生物标志物,有助于了解疾病的发病机制,促进疾病的识别、诊断和治疗。 然而,miRNAs如何影响这些疾病的致病机制尚未完全明了。 因此,预测miRNA与疾病的潜在关联对于临床医学和药物研究的发展具有重要意义。 在这项研究中,我们提出了一个基于分层图注意力网络的深度学习模型(HGANMDA)来预测miRNA与疾病的关联。 首先,基于已知的miRNA-疾病、miRNA-lncRNA和疾病-lncRNA关联,构建了miRNA-疾病-lncRNA异构图。 其次,利用节点层注意力来学习基于不同元路径的邻居节点的重要性。 第三,利用语义层注意力学习不同元路径的重要性。 最后,利用双线性解码器重建miRNAs与疾病之间的联系。 大量的实验结果表明,我们的模型在预测miRNA与疾病的关联方面取得了良好的性能和令人满意的结果。

目录

1.引言(Introduction)

2.结果(Result)

2.1.评价指标(Evaluation metrics)

2.2.实现细节和性能评估(Implementation details and performance evaluation)

2.3.与其他最新方法比较(Compare with other latest methods)

2.4.特征聚合的影响(Influence of feature aggregation)

2.5.语义层注意力向量 q 维度的影响(Influence of dimension of semantic-layer attention vector q)

2.6.案例研究(Case studies)

3.讨论(Discussion)

4.材料和方法(MATERIALS AND METHODS)

4.1.人类 miRNA-疾病关联数据库(Human miRNA-disease associations database)

4.2.miRNA功能相似性(miRNA functional similarity)

4.3.疾病语义相似性(Disease semantic similarity)

4.4.MiRNA 与疾病的高斯互作谱核相似性(Gaussian interaction profile kernel similarity for miRNAs and diseases)

4.5.MiRNA 与疾病的整合相似性(Integrated similarity for miRNAs and diseases)

4.6.LncRNA 序列的矩阵表示(Matrix representation of lncRNA sequences)

4.7.HGANMDA

4.8.MiRNA-disease-lncRNA 异质图谱的构建(Construction of the miRNA-disease-lncRNA heterogeneous graph)

4.9.节点层注意力(Node-layer attention)

4.10.语义层注意力(Semantic-layer attention)

4.11.双线性译码器(Bilinear decoder)


1.引言(Introduction)

RNA(核糖核酸)是植物、动物、微生物和病毒中常见的重要分子之一[1,2]。它具有多种重要的生物学功能[3]。 microRNAs(miRNAs)是一类由长约22个核苷酸的内源性基因编码的小的、非编码的RNA分子[4,5]。自从1993年从秀丽隐杆线虫中发现lin-4以来,越来越多的研究者将注意力转向miRNAs的功能[6]。特别是近年来,许多研究发现miRNAs的异常表达与人类复杂疾病的产生和进化有关[7]。例如, miR-155已被证实是ErbB2诱导的乳腺上皮细胞转化的关键调节因子,并介导ErbB2阳性乳腺癌对曲苏祖马的治疗反应[8]。因此,帮助疾病研究人员寻找潜在的miRNA与疾病的联系是非常重要的。

早期的研究人员主要使用一些生物学技术来确定潜在的 miRNA 与疾病的关联,例如逆转录聚合酶链式反应(reverse transcription polymerase chain reaction,PCR) [9],北方点墨法(northern blotting)[10],和微阵列分析(microarray profiling)[11]。然而,传统生物技术的实施往往需要大量的资金和时间,效率相对较低[12]。随着生物技术的发展和对以往实验结果的总结,研究者们建立了许多关于miRNA与疾病关系的可靠的生物信息学数据库,如人类miRNA-疾病数据库(HMDD)[13]、人类癌症中miRNA差异表达数据库(dbDEMC)[14]、人类疾病中miRNA失调数据库(miR2Disease)[15]。同时,计算机的计算方法和性能也有了很大的提高。 因此,一些研究人员开始考虑一种计算方法来实现miRNA与疾病的关联预测[16]。

在过去的几年里,许多新的和有效的计算方法被提出来研究miRNA与疾病的联系。 这些方法大致可以分为两类:基于相似度的方法和基于机器学习的方法。 基于相似性的预测方法来自一个假设,即如果miRNAs具有相似的功能,它们更有可能与表型相似的疾病相关。 许多研究人员已经使用基于相似性的方法来预测miRNA与疾病的联系。 例如,Jiang等人开创了构建功能相关miRNA网络和人类表型miRNA网络的方法,以研究功能相关miRNA是否与表型相似的疾病相关[17]。由于数据不足,他们没有考虑间接邻居节点,导致最终的预测效果不是很好。Chen 等人提出了分数内和分数间结合的模型来预测 miRNA 疾病关联,这种模型可以用于缺少已知相关 miRNA 的疾病[8]。此外,考虑到大多数方法在关联信息未知的情况下无法预测miRNA与疾病之间的关联,Zhang等人提出了FLNSNLI模型,该模型采用加权平均策略来预测miRNAs与疾病之间的未知关联[18]。FLNSNLI模型仍然需要部分证实的miRNA-疾病关联来预测潜在的miRNA-疾病关联。 然后,Zhao等人提出了 DCSMDA 模型,该模型结合已证实的miRNA-lncRNA关联和疾病-lncRNA关联构建miRNA-疾病-lncRNA网络,预测miRNAs与疾病之间的关联,而不使用任何已证实的miRNA-疾病关联[19]。

与基于相似度的预测方法不同,基于机器学习的方法侧重于分类算法和特征提取方法来预测miRNAs与疾病之间的关联。 例如,Chen等人使用受限玻尔兹曼机(RBMMMDA)作为分类器预测多种miRNA与疾病的关联[20]。Liu等人构建了一个miRNA-疾病关联网络,将疾病相似子网络与miRNA相似子网络连接起来,然后利用随机游走计算关联得分[21]。不同于Liu等人的方法,Zheng等人提出了一种新方法MLMDA,该方法应用深度自动编码器神经网络进行特征提取,并采用随机森林分类器进行分类[22]。 此外,Liu等人提出了SMALF模型,利用堆叠自动编码器来学习潜在特征,并利用XGBoost来预测未知的miRNA与疾病的关联[23]。 此外,Li等人设计了一种基于扩散的机器学习方法(DF-MDA)来提取异构网络中的节点特征,并采用随机森林分类器进行关联判断。

随着图神经网络的流行,研究人员发现利用图神经网络的图结构方法非常适合于预测miRNA与疾病的关系。 例如,Tang等人提出了MMGCN模型,该模型应用图卷积网络和多通道注意机制来增强miRNAs和疾病的特征[25]。Wang等人使用一个图卷积编码器来学习节点的潜在表示,并使用一个神经多关系解码器来获得miRNA与疾病的关联分数[26]。 Ji等人提出了HGATMDA模型,该算法通过加权DeepWalk和一个图注意力网络来提取miRNAs和疾病的特征[27]。虽然前人的方法都取得了令人满意的预测效果,但大多数研究者没有注意到一个miRNA-疾病异构图中所包含的丰富的语义信息。 元路径(meta-path)是连接不同类型节点的路径,可以用来挖掘异构网络中复杂的结构信息和丰富的语义信息[28,29]。因此,我们考虑将图神经网络与元路径相结合,来聚合异构图网络中的节点特征信息和元路径语义信息。

在本文中,我们提出了一个新的分层图注意力网络模型 HGANMDA 来预测 miRNA-疾病的关联。具体来说,我们首先整合了多个数据,构建了一个miRNA-disease-lncRNA异构图。 其次,将miRNA和疾病节点投射到同一向量空间。 第三,基于不同元路径利用节点层注意力对邻居节点进行特征聚合。 语义层注意力通过学习不同元路径的重要性来获取语义信息。 通过融合节点聚集特征信息和语义层注意力中的语义信息,得到最终的节点嵌入。 第四,采用双线性解码器对最终嵌入的miRNA和疾病节点进行解码,重建miRNA与疾病之间的关联。 最后,利用交叉熵损失和反向传播算法对整个模型进行端到端的训练。 在实验中,我们对HGANMDA模型进行了5折交叉验证,得到了平均曲线下面积(AUC)为93.74%,查准率-查全率下面积(AUPR)为93.43%。 此外,我们实施了食管癌、淋巴瘤和前列腺肿瘤的病例研究。 结果表明,与这些疾病相关的前50个miRNAs中,分别有48个、46个和46个被dbDEMC和miR2Disease数据库验证。 所有实验结果表明,HGANMDA模型可以成为研究miRNA与疾病关系的有效工具。


2.结果(Result)

2.1.评价指标(Evaluation metrics)

为了从更多的方面来评价我们提出的模型的性能,我们选择了准确率(Acc)、精确度(Prec)、查全率和F1得分作为HGANMDA模型的评价指标。 这些评估指标计算如下:

其中TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性。

此外,考虑到以往的评价指标不能直观地反映我们的模型的研究性能,我们绘制了接收机工作特性(ROC)曲线和查准率-查全率(P-R)曲线。 通常情况下,如果ROC曲线下的面积越大,模型的预测性能就越好。

2.2.实现细节和性能评估(Implementation details and performance evaluation)

基于PyTorch的深度图库实现了HGANMDA模型。 在实验的训练阶段,我们随机初始化参数,并用Adam优化我们提出的模型。HGANMDA模型的训练epoch为1000,学习率为0.001,权值衰减为0.005,多头注意力头数为8,语义层注意力向量q维度为128。为了减少过拟合的发生,我们将dropout设置为0.1~0.9来训练模型。 最后,我们发现如果dropout设置为0.6,该模型具有最好的预测性能。 所有实验数据和代码可从GitHub - ZTangBo/HGANMDA: HGANMDA下载。

在这个实验中,我们使用了5倍的交叉验证来评估 HGANMDA 模型的性能。为了实现5倍交叉验证,我们将选定的 miRNA 疾病样本集随机分为5个子集,其中4个子集被选为训练集,其余1个被选为测试集。然后,应用训练集对模型进行训练,和测试集得到预测结果。最后,根据实验结果,绘制了图表来说明模型的效果。在表1中,我们可以看到 HGANMDA 达到了平均 Acc. 86.28%,Prec.为85.88%,Recall为86.87% ,F1评分为86.36% ,标准差分别为0.60% ,1.13% ,1.25% 和0.59% 。此外,平均 AUC 为93.74% ,分别为93.48% ,93.86% ,94.37% ,93.86% 和93.16% 的平均,平均 AUPR 为93.43% ,平均分别为92.81% ,93.25% ,94.11% ,94.06% 和92.92% 。HGANMDA 模型的 ROC 曲线如图2所示,P-R 曲线如图3所示。

2.3.与其他最新方法比较(Compare with other latest methods)

为了进一步证实我们的模型在预测 miRNA 与疾病之间的关联方面的表现,我们比较了 HGANMDA 模型与另外7个最新模型的表现,包括 IMIPMF[30], NMCMDA[26], NCFM[31], DBMDA[32], CEMDA[33], NIMCGCN[34],和 M2GMDA[35]。为了使结果令人信服和公平,我们选择的模型都来自过去两年,并且通过应用 HMDD v. 2.0数据集的5折交叉验证方法获得了它们的评估指标。由于这些模型选择 AUC 值作为评估其性能的重要指标,我们比较了我们提出的模型和这些模型的 AUC 值。比较结果如表2所示。 我们可以看到,与其他模型相比,我们的模型具有最高的 AUC 值和0.51% 高于第二高的 M2GMDA 模型。这可能是因为我们的模型结合了节点层注意力和语义层注意力,不仅考虑了邻居节点的特征信息,而且还考虑了邻居节点的语义信息,这使得最终节点的嵌入更加全面,预测结果也更好。

2.4.特征聚合的影响(Influence of feature aggregation)

本实验采用结点层注意和语义层注意相结合的方法实现了 miRNA 与疾病结点的嵌入。为了验证该方法的可行性和令人信服的实验结果,我们比较了 HGANMDA 方法与无节点层注意方法和无语义层注意方法的预测性能。由于基于元路径的邻居节点特征聚集采用节点层注意,因此在不考虑节点层注意的情况下,每个邻居节点的重要性是相同的,称为 Nond。相比之下,由于语义层注意被用来获得元路径的重要性,当不考虑语义层注意时,每条元路径的重要性被赋予相同的重要性,称为 Nosem。比较结果如图4所示。在三种方法中,HGANMDA 的准确性、召回率、 F1得分和 AUC 得分最高。虽然Nond的精确度略高于 HGANMDA,但在其他四个评价指标中,Nond的精确度显著低于 HGANMDA,这意味着语义层注意力是节点层注意力的补充。语义层注意力整合了节点层注意力的特定语义信息,以获得更全面的节点聚合特征。因此,HGANMDA 模型的效果优于其他两种方法。

2.5.语义层注意力向量 q 维度的影响(Influence of dimension of semantic-layer attention vector q)

由于语义层注意向量 q 的维度是影响语义层注意力表现的关键因素,我们根据5折交叉验证比较了不同维度下 HGANMDA 的 AUC 值。比较结果如图5所示。结果表明,HGANMDA 的 AUC 值随语义层注意向量 q 的维数的增加而增加。当语义层注意向量 q维度设置为128,当时的 AUC 最大,模型的预测效果最好。然而,当 q 的维数超过128时,AUC 开始下降。我们还发现,当维度为512时,模型的 AUC 比值为128时显著降低,这可能是由于过拟合所致。因此,我们将语义层注意力向量 q 的维度设置为128作为默认维度。

2.6.案例研究(Case studies)

为了进一步反映 HGANMDA 模型在预测 miRNA 与特定疾病之间潜在关联方面的表现,我们进行了食管肿瘤、淋巴瘤和前列腺肿瘤的病例研究。具体来说,我们首先从 miRNA-disease-lncRNA 异质图中筛选出包含 miRNA 节点和特定疾病节点的边。然后,将包含 miRNA 结点和疾病结点的剩余边作为训练集进行训练,并将筛选出的边作为测试集进行测试。最后,我们对测试集的结果进行排序,并使用 dbDEMC 和 miR2disease数据集来判断预测的 miRNA 与特定疾病之间的关联是否得到证实。

食管肿瘤是最常见的消化道肿瘤之一。他们在世界十大恶性肿瘤中排名第四。大量研究表明,正常组织和食管肿瘤组织中 miRNA 的表达存在显著差异,并且 miRNA 参与了食管肿瘤的发生、发展和预后。因此,选择食管肿瘤作为第一个个案研究来检验该模型的预测性能。从表3中,我们可以发现 dbDEMC 和 miR2Disease数据集证实了与食管肿瘤相关的前50个 miRNA 中的48个。

淋巴瘤是淋巴造血系统的恶性肿瘤。MiRNA 在淋巴瘤的发病机制中起重要作用,参与淋巴瘤细胞的分化、增殖和凋亡。例如,miR155的高表达可以阻断 RhoA 信号通路对淋巴瘤的抑制作用,从而促进淋巴瘤的发生。从表4中,我们发现与淋巴瘤相关的前50个 miRNA 中有46个被 dbDEMC 和 miR2Disease 数据集证实。

为了使实验结果更加充分,我们进行了第三个案例研究的前列腺肿瘤。前列腺肿瘤包括前列腺上皮和间质肿瘤,其中大部分是恶性的。我们之所以选择前列腺肿瘤是因为它们的发生也与 miRNA 密切相关。表5显示与前列腺肿瘤相关的前50个 miRNA 中的46个可以通过 dbDEMC 和 miR2Disease 数据集证实。总之,HGANMDA 模型在预测 miRNA 与特定疾病之间关系的病例研究中取得了令人满意的结果。


3.讨论(Discussion)

小 RNA 已被证明在人类疾病的产生和发展中起着关键作用。通过计算方法挖掘一些致病性 miRNA,不仅可以解决生物学实验方法成本高、周期长的问题,而且可以指导研究人员对与特定疾病相关的 miRNA 进行有针对性的研究。在本文中,我们提出了一个分层的图形注意网络,包括节点层注意和语义层注意,来预测 miRNA 与疾病之间的关联,我们称之为 HGANMDA 模型。该模型利用节点层注意力学习不同元路径下邻居节点的重要性,利用语义层注意力学习不同元路径下邻居节点的重要性。通过该网络,HGANMDA 模型可以充分利用 miRNA-disease/ncRNA 异质图中的节点信息、结构信息和语义信息。总的来说,这些评估指标和病例研究证明了 HGANMDA 模型在预测 miRNA-疾病相关性方面的出色预测性能。我们提出的模型应该被证明是一个有价值的方法,以帮助研究人员改善研究的 miRNA 疾病的关联。然而,在 HGANMDA 模型中,我们没有使用更长的元路径。 其原因是当元路径的长度大于或等于2时,基于元路径的关联矩阵变得密集。因此,为了进一步提高模型的预测性能,我们计划在未来通过限制邻居节点的数量来使用更长的元路径。


4.材料和方法(MATERIALS AND METHODS)

4.1.人类 miRNA-疾病关联数据库(Human miRNA-disease associations database)

在本研究中,我们使用基准数据集 HMDD v 2.0来实现该模型。可从https://www.cuilab.cn/hmdd下载。该数据集包含383种疾病、495种 miRNA 和5,430种经过实验验证的 miRNA 与疾病的关联。在实验中,我们创建了一个邻接矩阵 DM (i,j) 来存储 miRNA 与疾病的关联。在矩阵中,383行代表疾病的数量,495列代表 miRNA 的数量。如果疾病 d (i)与 miRNA m (j)相关,则将矩阵的相应位置记录为1,否则为0。

4.2.miRNA功能相似性(miRNA functional similarity)

基于具有相似功能的 miRNA 通常与相似疾病相关,反之亦然的假设,Wang 等人提出了一个计算 miRNAs 功能相似性的模型。得益于他们以前的工作,我们可以直接从 https://www.cuilab.cn/files/images/cuilab/misim.zip 获得 miRNA 功能相似性数据。然后,我们构造了一个矩阵 MFSM,它有495行和495列,其中表示 miRNA m (i)和 m (j)之间的功能相似性得分。

4.3.疾病语义相似性(Disease semantic similarity)

根据以前的研究,我们可以从医学主题词(MeSH)数据库( https://www.ncbi.nlm.nih.gov/)中获得不同疾病之间的关系,并计算疾病的语义相似度。在 MeSH 数据库中,每种疾病都可以用一个有向无环图(DAG)来表示。代表了一个疾病 d (i)的一个有向无环图,包括疾病 d (i) ,它的祖先节点,从祖先节点到节点 d (i)之间直接相连的边的集合。然后,计算疾病 的语义贡献值:

其中 表示 的子节点, 表示语义衰减的贡献因子,我们根据Xuan等人的研究将其设置为0.5。疾病 对其自身的贡献因子设置为1。如果疾病到疾病 的距离增加,则语义贡献因子减小。因此,我们可以计算疾病 的语义值如下:

根据如果两种疾病的 DAGs 共享更多的部分两种更相似的假设,我们可以计算疾病语义相似度 之间的疾病 d (i)和 d (j)如下:

然而,上述方法并不全面,因为DAG同一层的疾病在所有疾病的DAGs中出现次数可能不同。我们结合 Pasquier 和 Gardès 的研究,采用另一种方法计算疾病的语义相似度[39]。疾病 d (k)对 d (i)的语义贡献值计算如下:

通过这种方式,疾病 d (i)的语义值被计算为方程(9) , 疾病 d (i)和 d (j)之间的语义相似性被计算为方程(10)。

因此,为了获得更合理、更准确的疾病语义相似度,我们将两种疾病的语义相似度平均为最终的疾病语义相似度。最后, d (i)和 d (j)之间的疾病的语义相似性 被计算如下:

4.4.MiRNA 与疾病的高斯互作谱核相似性(Gaussian interaction profile kernel similarity for miRNAs and diseases)

基于经过验证的 miRNA-疾病关联网络的拓扑结构,我们可以计算 miRNA 和疾病的高斯互作谱核相似性[8]。首先,根据相似的 miRNAs 更可能与相似的疾病相关的假设,我们创建了一个二元向量 ,这是矩阵 DM 的第 i 列,代表 miRNA m (i)和所有其他疾病之间的关联。然后,我们可以计算出 miRNAs 的高斯互作谱核相似性  如下:

其中参数  用于控制核的带宽。它可以计算如下:

其中 被设置为1参照以前的研究[8]和 nm 被设置为495,这等于所有 miRNA 的数量。同样地,我们可以计算出疾病 的高斯互作谱 如下:

其中一个二元向量 ,也就是矩阵 DM 的第 i 行,代表了疾病 d (i)和所有其他 miRNA 之间的联系。 被设置为1,nd被设置为383,这等于所有疾病的数量。

4.5.MiRNA 与疾病的整合相似性(Integrated similarity for miRNAs and diseases)

基于上述结果,我们可以计算出 miRNA 之间的整合相似性如方程(16),以及疾病之间的整合相似性如方程式(17)。

4.6.LncRNA 序列的矩阵表示(Matrix representation of lncRNA sequences)

在实验中,我们使用的数据包括实验证实的 miRNA-lncRNA 关联和 lncRNA-疾病关联。为了获得相关的数据,我们引入了 lncRNASNP2[40]和 LncRNADisease v. 2.0[41]数据集。LncRNASNP2数据集记录了45,329个证实了3,521个 lncRNAs 和276个 miRNAs 之间的关联,这些关联可以从 lncRNASNP2-human下载。LncRNADisease v. 2.0数据集记录了10,564个证实了6,086个 lncRNA 和451种疾病之间的关联,可从LncRNADisease2下载。根据这些数据,我们手动匹配了 miRNA 和 lncRNAs 之间的关联,以及疾病和 lncRNAs 之间的关联在 lncRNASNP2数据集、 lncrNAdisease v. 2.0数据集和 HMDD v. 2.0数据集中。为了方便实验,我们选择了467个与 miRNAs 和疾病相关的 lncRNAs。因此,我们获得了4352个确认的495个 miRNAs 和467个 lncRNAs 之间的关联,并且有1486个确认的383个疾病和467个 lncRNAs 之间的关联。

为了获得 lncRNAs 的特征信息,我们从 NONCODE (http://www.)下载了 lncRNAs 的序列信息来表示节点属性。然后,我们使用 k-mers 方法[46,47]将 lncRNA 序列转化为向量。 k-mers 可以将 lncRNA 序列分成一系列具有碱基的子序列。一般来说,一个长度为 m 的序列可以分为 m - k + 1 k-mers。在实验中,我们从 lncRNAs 序列中提取了lncRNAs 的联合三元组(3-mers)。LncRNA 的四个碱基是 A、 C、 G 和 U,因此,3-mers 可以将 lncRNA 的序列分裂成 AAA, AAC ,...,UUU。具体来说,我们首先应用滑动窗口将 lncRNA 的序列划分为数个联合三联体。然后,计算每个子序列的频率,并对这些数据进行归一化处理。最后,我们得到一个64维向量来表示 lncRNA 的特征信息。因为 lncRNA 的数量是467,所以我们创建了一个具有467行和64列的矩阵 IL 来存储这些 lncRNA 的向量,其中 代表 的特征。

4.7.HGANMDA

本文提出了一种结合节点层注意、语义层注意和双线性解码器的分层图注意网络模型用于miRNA和疾病关联预测(HGANMDA)。提出的模型的流程图如图1所示。HGANMDA 可以分为六个步骤: (1)构建 miRNA 疾病-lncRNA 异质图; (2)将 miRNA 和疾病节点投射到同一特征空间; (3)将节点层注意力应用于基于不同元路径的邻居节点聚集特征; (4)利用语义层注意力学习不同元路径的重要性并融合节点聚集特征信息和语义信息; (5)利用双线性解码器重建 miRNA 与疾病之间的联系; (6)利用交叉熵损失函数以端到端的方式训练整个模型。接下来,我们将介绍每个步骤的具体实现过程。

4.8.MiRNA-disease-lncRNA 异质图谱的构建(Construction of the miRNA-disease-lncRNA heterogeneous graph)

为了实现这个模型,我们需要构建一个包含495个 miRNA 节点,383个疾病节点,467个 lncRNA 节点的异质图,并验证所有节点之间的关联。在 HMDD v.2.0中,有5,430个经过实验验证的 miRNA 与疾病的关联。我们应用这5,430个关联作为 miRNA 结点和疾病结点之间的阳性样本,标记为1。然而,未知的 miRNA 疾病关联的数量远远大于已证实的 miRNA 疾病关联的数量。正负样本的不平衡会使预测结果趋向于多样本分类,从而降低模型的泛化能力。为了解决这个问题,我们从所有未知的 miRNA-疾病关联中随机选择了5,430个关联作为阴性样本,它们被标记为0并添加到异质图中。此外,我们分别定义MiRNA 与疾病的整合相似性分别为 miRNA 和疾病节点特征。因此,miRNA 可以被记录为一个495维的向量,如下所示:

其中 表示矩阵 IM 的第 i 列, 表示 miRNA 之间的整合相似度值。相似的,疾病 可以记录为383维向量 ,如下所示:

其中 表示矩阵 ID 的第 i 列,表示疾病 之间的整合相似性值。

4.9.节点层注意力(Node-layer attention)

在异构图中基于不同元路径的邻居节点,将这些有意义的邻居节点的特征信息聚集起来形成一个节点嵌入。首先,由于 miRNA-disease-lncRNA 异质图中节点的异质性,不同的节点可能位于不同的特征空间。因此,对于每种类型的节点,我们设计了特定类型的变换矩阵 W,将不同类型的节点投射到同一个特征空间中。这一投射过程如下:

其中 分别是 miRNA 结点和疾病结点 的投影特征。通过这种投影操作,可以将 miRNA 结点和疾病结点投影到64维空间。此外,由于 lncRNA 节点的特征位于64维空间中,lncRNA的特征如下:

其中表示矩阵 IL 的第 i 行. 表示矩阵转置。

其次,我们应用注意力机制[48]来学习 miRNA 节点,疾病节点和 lncRNA 节点的权重。假设中心节点 u(u 是 miRNA 或疾病节点)基于元路径 连接邻居节点 v,基于元路径 的节点 v 对节点 u 的重要性可以计算如下:

其中 是一个非线性激活函数(负值的斜率设置为0.2)。在基于不同元路径获得中心节点和邻居节点之间的重要性之后,我们应用 softmax 激活函数对它们进行归一化,以获得注意力系数。具体计算过程如下:

表示基于元路径 的节点 u 的一阶邻居节点集。

然后,根据相邻节点的特征和注意力系数对基于元路径 的节点 u 嵌入进行聚合:

其中代表 ELU 激活函数。由于注意系数 是由元路径  产生的,因此 是一个特定语义的节点嵌入,包含一种语义信息。

异构图具有无标度(scale - free)特性,导致图数据方差较大。为了减少方差,使结果更加稳定,我们引入了多头注意机制来扩展节点层的注意力。具体计算了节点层注意 K 次,并将每个节点的嵌入连接为节点 u 的特定语义嵌入。具体计算过程如下:

在我们的实验中,元路径集包括连接 miRNA 和疾病节点的元路径 ,连接 miRNA 和 lncRNA 节点的元路径 ,连接疾病和 miRNA 节点的元路径 以及连接疾病和 lncRNA 节点的元路径 。通过计算节点层的注意力,可以得到四组特定语义的节点嵌入,分别是

4.10.语义层注意力(Semantic-layer attention)

在 miRNA-disease-lncRNA 异质图中,miRNA 节点和疾病节点包含多种语义信息。然而,特定语义的节点嵌入只能从一个方面反映节点的语义信息。为了得到更全面、更充分的节点嵌入,我们提出了一种新的语义层注意力来学习不同元路径的重要性,并将它们集成至中心节点中。首先,通过非线性变换对特定语义的节点嵌入进行转换,得到每条元路径的重要性。然后,我们测量了特定语义的节点嵌入的重要性作为转换后的节点嵌入与语义层注意力向量 q 的相似性。最后,我们平均了特定语义的节点嵌入的重要性作为每个元路径的重要性。因此,元路径 的重要性可以计算如下:

其中表示权重矩阵,b 表示偏置向量, 表示激活函数,q 表示语义层的注意力向量,其维数设为128。表示节点的数量,这些节点与节点  是同一类型的,然后,我们通过 softmax 激活函数对每个元路径的重要性进行归一化。因此,我们可以得到元路径 的权重,即 。计算过程如下:

其中 P 表示与节点 u 相关的元路径类型的数量, 表示元路径 对中心节点 u 的贡献。我们可以知道,如果 越大,元路径 就越重要。最后,我们以元路径的权重作为系数,通过聚合特定语义的嵌入来计算最终的节点嵌入。计算过程如下:

通过语义层注意力,我们得到了 miRNA 的最终嵌入 和疾病的最终嵌入 。它们的尺寸分别是

4.11.双线性译码器(Bilinear decoder)

为了获得 miRNA 与疾病之间关联的预测概率,我们采用双线性译码器重建了 miRNA 节点与疾病节点之间的关联。因此,miRNA 结点 与疾病结点 相关联的预测概率可以计算如下:

Q表示一个可训练的参数矩阵,其维数为64 * 64。

最后,我们使用交叉熵损失函数来计算模型的预测值与训练样本之间的差异。交叉熵损失函数 LOSS 的计算过程如下:

y表示 miRNA 和疾病之间的正确关联标签。由于交叉熵损失越小,模型的预测性能越好。因此,我们采用反向传播算法对模型进行端到端的训练,以减少模型的损失,得到最佳的结果。

HGANMDA:用于miRNA与疾病关联预测的分层图注意力网络(Molecular Therapy)相关推荐

  1. 论文翻译 SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络

    SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络 行人轨迹预测是自 ...

  2. BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络

    BERT gated multi-window attention network for relation extraction 用于关系抽取的BERT门控多窗口注意力网络 Abstract 实体关 ...

  3. 监督分类空白处也被分类了_用于半监督短文本分类的异构图注意网络

    文章:Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification. Linmei Hu,T ...

  4. 【AAAI】用于网约车需求预测的时空多图卷积网络

    #AAAI# 今天分享的是AAAI 2019的一篇论文<用于网约车需求预测的时空多图卷积网络> 原文链接:https://ojs.aaai.org//index.php/AAAI/arti ...

  5. 论文浅尝 | KGAT: 用于推荐的知识图注意力网络

    笔记整理 | 李爽,天津大学 链接:https://arxiv.org/pdf/1905.07854v1.pdf 动机 为了提供更准确.多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助 ...

  6. DeepMNE:用于lncRNA疾病关联预测的深度多网络嵌入

    摘要 长非编码RNA(lncRNA)参与多种生物学过程,因此其突变和疾病在多种人类疾病的发病机制中起着重要作用.识别与疾病相关的lncRNAs对于疾病的诊断.预防和治疗至关重要.尽管已经开发了大量计算 ...

  7. LightGCN:用于推荐任务的简化并增强的图卷积网络 SIGIR 2020

    论文链接:https://arxiv.org/abs/2002.02126 代码链接:https://github.com/gusye1234/LightGCN-PyTorch 论文来源:SIGIR ...

  8. 【论文泛读12】用于网约车需求预测的时空多图卷积网络

    贴一下汇总贴:论文阅读记录 论文链接:<Spatiotemporal Multi-Graph Convolution Network for Ride-Hailing Demand Foreca ...

  9. 中科大提出SCAN:用于在线手写数学公式识别的笔画约束注意力网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:CSIG文档图像分析与识别专委会 论文:https://arxiv.org/abs/2002.086 ...

最新文章

  1. 魅族手机使用鸿蒙系统,魅族宣布接入华为鸿蒙系统,这应该是黄章最正确的决定...
  2. 【C#】分享一个弹出容器层,像右键菜单那样召即来挥则去
  3. .net工程师至少要懂的东西
  4. Go 内存对齐的那些事儿
  5. 解决网卡无法自动获取ip的办法
  6. too many connections的一个实践
  7. 生产者消费者_【Java面试】实现生产者消费者模式
  8. Visual Studio C++6.0下载地址
  9. Xamarin 设置可接受的版本
  10. JDK和JRE安装与下载
  11. 免费的html模板开源网站
  12. 2022电工(初级)考试模拟100题模拟考试平台操作
  13. 安卓控制新大陆云平台(二)
  14. realsenseD400系列使用realense-ros出现“symbol lookup error ... undefined symbol: _ZN2cv3M “解决方法(这个问题在我这里终结)
  15. wingdings字体符号在哪_wingding、Wingdings2、wingdings3字体特殊符号与键盘字母相对应位置...
  16. 网易互联网,网易互娱 2021届校招内推开始啦
  17. 解决conda install numpy 报错
  18. 疯狂Android讲义(第2版)
  19. java excel 边框颜色_poi生成excel整理(设置边框/字体/颜色/加粗/居中/)
  20. 包头师范学院计算机系,包头师范学院数学科学学院

热门文章

  1. encoder------decoder
  2. 激浊而扬清,废贪而立廉
  3. 一加9系列怎么样?性价比优选成为大众靠谱选择
  4. 《微信小程序-进阶篇》package.json版本说明及各类版本符号详解(一)
  5. 值得信任的邀约--记我的阿里云
  6. 【看表情包学Linux】进程地址空间 | 区域和页表 | 虚拟地址空间 | 初识写时拷贝
  7. 微信tinker 热修复
  8. (一)redis常见5种数据结构
  9. 苹果6可以分屏吗_苹果testflight上架可以永久使用吗?
  10. 服务器日志的查看常用命令总结