HINGRL: predicting drug–disease associations with graph representation learning on heterogeneous information networks

期刊:Briefings in Bioinformatics

中科院分区:一区

DOI:10.1093/bib/bbab515

代码链接: https://github.com/stevejobws/HINGRL

原文链接:https://academic.oup.com/bib

目录

一、摘要

二、数据集

三、方法分析

1.HIN模型的构建

2.药物-疾病生物知识提取

3.基于自动编码器的降维

4、图表示学习的选择

5、药物-疾病异构网络

6、分类器的选择

四、结果

五、结论


一、摘要

背景(讲了什么问题): 确定药物新适应症至关重要,性传统方法费时费力,风险高;也就是说确定药物-疾病的关联性十分重要,计算方法大都通过异构网络,不考虑药物与疾病的生物学知识,有助于提高药物重定位的准确性。

方法(用了什么方法):提出了一种新的基于异构信息的网络:HINGRL,用图表示学习来识别药物新适应性。具体就是将药物-疾病、药物-蛋白质、和蛋白质-疾病相结合来构建相结合构建HIN,从拓扑和生物学角度学习HIN中的节点特征;最后采用RF(随机森林)分类器,根据上一步的特征来预测位置药物的关联。

结果(为何此法较好):与先进的LAGCN、DTINet、 deepDR模型相比,在两个真实数据集(B和F数据集)实现了最佳性能。确定药物和疾病的特征,预测药物-疾病的关联性,要引入蛋白质,作为其中的关联网络,能够更好的提高其准确性。蛋白质相关的关联从拓扑的角度丰富了异构信息,从而改善了药物和疾病在确定 时的网络表示。

结论:同时考虑网络拓扑和药物-疾病的生物学知识,能够使HINRL模型能够更全面预测药物-疾病关联,利用异构信息为预测提供了一个新观点。

二、数据集

数据集:B数据集,F数据集(为了提高模型的泛化能力而增加的数据集)

数据集:B-dataset(有三种生物网络关联组成)

药物-疾病关联网络:CTD数据库:269种药物,598种疾病,18416药物疾病关联网络

药物-蛋白质关联网络:DrugBank 数据库:969种药物,613种蛋白质,11107药物蛋白质              关联网络。

蛋白质-疾病关联网络:DisGeNET 数据库:832种蛋白质,692种疾病,25087种蛋白质

F数据集:药物-疾病关联:593种药物,313种疾病,1933种药物-疾病相互作用。

药物-蛋白质关联:DrugBank数据库:3243条药物-蛋白质关联

蛋白质-疾病关联:DisGeNET 数据库:71840条蛋白质-疾病关联

为了构建阴性样本集,HINGRL将阳性样本中没有关联的药物和疾病随机配对,且阴性样本数等于阳性样本数,正负样本数量相等,避免了不平衡问题。

三、方法分析

1.HIN模型的构建

HIN是由药物-疾病、药物-蛋白质和蛋白质-疾病关联网络组成。HIN 中有两种可用的信息,一种是药物和疾病的生物学知识,另一种是网络拓扑。为了对 HIN 建模,我们引入了一个三元素元组,即 HIN = {V, A, E}

2.药物-疾病生物知识提取

有相似的化学结构性质,从SMILES中获取化学描述,之后用 RDKit 工具来检查药物分子中特定化学结构的存在。

3.基于自动编码器的降维

在得到了药物-疾病的生物学信息后,HINGRL应用无监督学习网络模型,即autoencoder,解决了原始数据的冗余和稀疏的问题。能够提高模型的泛化能力和训练过程中的过拟合,在自动编码器中,共有三层,包括输入层、隐藏层和输出层。具体来说,输入和输出层分别表示原始和新的特征空间,而隐藏层是为了确保从原始空间到新空间的转换中的损失最小化。当我们将自动编码器结合到 HINGRL 中进行降维时,药物和疾病的生物信息,即 ADR 和 ADI,被认为是输入层的输入。由于 ADR 和 ADI 的维度是通过相同的过程进行降维的,所以我们以 ADR 为例来演示如何应用自动编码器的细节。通过使用梯度下降算法交替优化。 HINGRL 使用的自动编码器的损失函数。

4、图表示学习的选择

有很多图表示学习方法可以很好地学习生物信息网络中生物分子的网络表示。为了研究它们与 HINGRL 集成时的性能,这篇文章比较了五种著名的图表示学习方法,包括图卷积网络 (GCN) 、LINE 、SDNE 、Node2vec 和 DeepWalk B 数据集并在图 6 和表 4 中展示了实验结果,我们注意到 DeepWalk 比其他方法产生更好的性能,因此表明 DeepWalk 更适合学习 HIN 中药物和疾病的网络表示。此外,GCN 的性能中等,因为它过于平滑,而 LINE 和 SDNE 之间的性能差异很小,因为它们在学习节点的网络表示方面具有相似的思想。

五种图表示学习的比较,可以看出DeepWalk比其他方法性能更好。

5、药物-疾病异构网络

HIN模型中观察的网络拓扑信息更为复杂应为他代表了成对节点的关系,然后通过网络结构把这些信息整合到HINGRL中,使用Deepwalk对给定的成对节点作为输入,采用随机游走理论学习每个节点,DeepWalk 的输出是从 skip-gram 模型获得的节点的相应表示向量。

那为什么要选择这个模型呢?与目前比较先进的三种模型LAGCN、DTINet、deepDR比较。就可以看出优缺:LAGCN 通过图卷积算法从多个网络中学习药物和疾病的嵌入,然后采用注意力机制整合这些嵌入来预测新的关联。 DTINet从不同的生物网络中获取药物和蛋白质的特征表示,然后寻找一个最优的投影来迫使药物的特征向量接近空间中已知的相互作用蛋白质。对于 DeepDR,构建多个与药物相关的异构网络以在重新利用过程中提取药物的特征,然后利用带重启的随机游走算法通过捕获这些网络的表示来推断药物的潜在适应症。应该注意的是,所有这三种竞争算法都利用了药物-疾病关联,但 LAGCN 在重新利用过程中还整合了药物和疾病的生物学知识。

准确性比较高,比其他算法稳健,上述三种模型都是竞争模型,波动较小比其他三种模型,稳健的原因是引入了异构信息,又是集成模型才赢RF 作为分类器,提高了HINGRL的鲁棒性与泛化能力。

6、分类器的选择

HINGRL选择了RF分类器。有很多的分类器而且进行了比较发现,RF分类器能够产生最好的性能。那为什么选择这个分类器呢?首先,在所有分类器中,Gaussian NB 的性能是最差的。其性能不尽如人意的主要原因是Gaussian NB假设了特征的独立性,这对于药物重定位的应用很难满足。其次,SVM 和 LR 的性能是公平的,因此我们数据集中的非线性程度还有待验证。第三,虽然 KNN 是第二好的分类器,但随着特征数量的增加,它的容错能力往往会变得不那么有效。最后,作为集成学习中的一种有效技术,RF 优于其他分类器,因为它增强了处理高维数据的能力,这个数据集就是这种情况。

使用不同的分类器的结果。可以看出随机森林的结果是最好的。

四、结果

在B和F数据集上的实验结果与其他模型的比较,

为了更好的研究异构信息,实现了两种变体HINGRL-A 和 HINGRL-B。HINGRLA 只考虑药物和疾病的生物学知识,而 HINGRL-B 在 HINGRL-A 的基础上额外整合了药物-疾病关联网络。

从表中可以看出两种变体的结果都没有HINGRL模型好,也就是说单纯的之考虑药物疾病的生物学知识对于药物重定位的表现并不好,在蛋白质相关的网络拓扑,丰富了异构信息,从而增强了药物疾病重定位的准确性。

HINGRL 通过在 B 数据集上训练不同比例实现的性能比较

HINGRL 通过在 F 数据集上训练不同比例实现的性能比较

五、结论

提出了这个HIN的模型,是基于图表示学习技术来预测药物-疾病关联。将蛋白质整合到药物-疾病相关联的网络,从而构成了复杂的HIN。HINGRL 最终利用 RF 分类器完成了它的预测任务。两个基准数据集的实验结果表明,在准确性和鲁棒性方面,HINGRL 的性能优于最新的药物重新定位算法。我们对案例研究的深入分析也有力地表明,HINGRL 可以成为发现新药物-疾病关联的有用工具,特别是对于没有任何已知关联的新疾病。

论文解读:HINGRL:通过异构信息网络上的图表示学习预测药物-疾病关联相关推荐

  1. KDD 2019论文解读:异构信息网络上的对抗生成学习

    前言 网络表示学习是一种在低维空间中表示网络数据的方法,在异构信息网络分析中得到了广泛的应用.现有的异构信息网络表示学习方法虽然在一定程度上实现了性能的提高,但仍然存在一些主要的不足.最重要的是,它们 ...

  2. 【论文解读】Graph Normalization (GN):为图神经网络学习一个有效的图归一化

    作者|平安产险视觉计算组 编辑丨极市平台 本文为极市开发者投稿,转载请获授权. 极市专栏 论文推荐:在图神经网络里面,应该如何选择更好的归一化技术?本文将介绍一种为图神经网络学习有效的图归一化的方式. ...

  3. 知识图谱实战应用15-知识图谱在生物基因学上的应用,实现基因与疾病关联查询

    大家好,我是微学AI,今天给大家介绍一下知识图谱实战应用15-知识图谱在生物基因学上的应用,实现基因与疾病关联查询.知识图谱在生物基因学中的应用非常广泛,可以帮助研究人员更好地理解和发现基因与疾病之间 ...

  4. 【论文解读】IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统

    论文解读者:北邮 GAMMA Lab 硕士生  李晨 题目: Graph Neural News Recommendation with Long-term and Short-term Intere ...

  5. 今晚直播 | NeurIPS 2021论文解读:基于置信度校正的可信图神经网络

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 论文解读:PF磷酸:基于机器学习的磷酸化位点预测疟原虫蛋白的工具

    Title:Pf-Phospho: a machine learning-based phosphorylation sites prediction tool for Plasmodium prot ...

  7. 论文解读HN-PPISP:一种基于MLP-Mixer的蛋白质-蛋白质相互作用位点预测混合网络

    Title:HN-PPISP: a hybrid network based on MLP-Mixer for protein–protein interaction site prediction ...

  8. 论文解读PointNet(用于点云处理的深度学习框架)

    随着最近几年神经网络在CV.NPL等领域取得重大的成果,因此就有学者希望将神经网络应用于3D任务中.在这篇文章(PointNet: Deep Learning on Point Sets for 3D ...

  9. KDD 18 AAAI 19 | 异构信息网络表示学习论文解读

    作者丨崔克楠 学校丨上海交通大学博士生 研究方向丨异构信息网络.推荐系统 本文要介绍的两篇论文在 metric learning 和 translation embedding 的角度对异构信息网络中 ...

最新文章

  1. shell下function报错
  2. 题目1178:复数集合
  3. 第二百二十六天 how can I 坚持
  4. 在CentOS6.8下安装Docker
  5. zcmu1756(模拟)
  6. JavaSE(十八)——IO流之字符流
  7. 美团flutter_ggtalk 聊聊跨平台:后起之秀 Flutter
  8. 技术管理—管理书籍推荐
  9. 【渝粤题库】陕西师范大学180109 小学教师专业发展 作业
  10. Spring Boot: SimpleCacheConfiguration
  11. java编程汽水_[原创]JAVA解决喝汽水问题
  12. 容器监控工具cAdvisor
  13. 每日新闻丨英特尔公布未来10年技术路线图;微软下月起终止支持Windows 7
  14. 帕累托分布(Pareto distributions)、马太效应
  15. 每日工作问题记录总结(好习惯 打卡2/?)
  16. 微分几何为何必然兴起?
  17. android 状态栏为白色的时候图标不显示的解决方案
  18. 加入AI考拉大家庭,是一种怎样的体验?--来自考拉码农的心声
  19. LINUX IIO子系统分析之一 IIO子系统概述
  20. 洗礼灵魂,修炼python(56)--爬虫篇—知识补充—编码之url编码

热门文章

  1. 变频器按启动没反应_变频器启动电机无法运行的故障原因
  2. 在centos或者linux中安装完软件不能远程连接问题
  3. UI自动化平台(一)
  4. 基于S7-200 PLC和MCGS组态的水箱水位控制系统设计 组态王动画仿真,带PLC源代码,plc程序每一条都带着解释
  5. 增长量计算n+1原则_2017国家公务员考试:简单易得分的增长量计算
  6. 2021年五一建模B赛题+思路
  7. CameraSR----Camera Lens Super-Resolution个人笔记
  8. 2019年高教社杯全国大学生数学建模竞赛题目 E题 “薄利多销”分析
  9. mac 版webstorm 破解终极版本
  10. git命令(使用git review)