1. 研究背景

现有的高通量筛选实验用于确定药物和靶标之间的生物活性是一个昂贵费时的步骤。因此,基于已经在临床实验中测量的相互作用,使用统计学和机器学习模型来估计新的药物-靶标的相互作用的强度是重要的替代方案。澳大利亚Deakin大学的Svetha Venkatesh课题组提出了GraphDTA,一种基于图神经网络的药物-靶标结合亲和力的预测方法。

2. 相关工作

2.1药物表征

发明了SMILES表示计算机可读的分子,开发了多个有效的应用程序,包括快速检索和子结构搜索。根据SMILES可以计算药物描述符用作预测亲和力的特征。可以将SMILES视为字符串使用自然语言处理(NLP)技术来强化药物,也可以视为1D表示,输入卷积神经网络(CNN)以学习模型来预测亲和性。

化学结构到SMILES字符串

SMILES可通过rdkit开源软件生成graph的形式,然后通过图卷积网络表示学习得到药物特征向量。

图形卷积网络(GCN)最流行的深度学习方法可用于药物-靶标结合亲和力的预测,GCN是卷积神经网络(CNN)到图结构数据的推广。GCN可分为两大类:基于谱的方法和基于空间的方法。基于谱的方法中,图首先在谱域中表示,然后在该域中定义卷积运算。相反,基于空间的方法直接在图空间域上执行学习算法。学习过程包括邻域公式,然后通过聚合来自其邻居节点的信息,然后是子采样任务来更新节点的信息。

2.2药物-靶标结合亲和力的预测

2.2.1亲和力相似度(SimBoost)

药物-靶标结合亲和力预测的任务可以被认为是协同过滤问题(CF)。对于药物- 靶标结合预测中可获得的亲和力通常是稀疏的。伴随着药物之间以及靶标之间的相似性,以在SimBoost中建立特征,这些特征是梯度增强机器的输入,以预测未知药物-靶标对的结合亲和力。

SimBoost算法预测过程

2.2.2基于内核(KronRLS)

可以从其他来源建立相似性而不是训练数据中的亲和力。鉴于问题是预测n种药物和m种靶标的亲和力,它们将有n * m种组合,并且核心的大小为(n * m)平方。为了加速模型训练,Cichonska等人建议使用KronRLS。

为了计算内核,可以使用任何相似性度量。药物的核心是基于Tanimoto的相似性构建的; 而对于目标,Smith-Waterman评分用作蛋白质序列的相似性度量。

2.2.3深度学习

提供药物(SMILES)和蛋白质(序列)的1D表示时,深度学习可能是预测亲和力的可能方法。

图中,input_1和input_2分别是药物和靶标。因此使用1D卷积和池的层来捕获输入中的潜在模式。然后将它们连接起来,通过Dropout的正则层发送,最后用训练亲和力回归。

3. 方法(GraphDTA)

通过将药物的特征带入药物-靶标相互作用的模型,研究人员提出了一种新的深度学习模型GraphDTA,用于药物-靶标亲和力预测。GraphDTA中基于药物的SMILES作为输入,通过开源软件RDKit构建药物的分子图并提取原子特征,将该图结构数据输入到GCN层中学习药物图特征表示中的潜在模式。然后将药物-靶标亲和力(DTA)预测问题转换为回归任务,其中输入是一对蛋白质和药物表示,并且输出是反映该对亲和力结合得分的连续值。

3.1化合物的图表示

化合物可描述为原子间相互作用的图。因此,以图表示的形式处理输入化合物,并随后在图上应用学习算法可以很好地适合任务。为此,对于每个输入化合物(SMILES),研究人员构建了反映化合物内原子之间相互作用的相应分子图。

3.2深入学习分子图

化合物以图的形式表示,问题是采用能够有效地从图结构化数据中学习的算法。最近在计算机视觉、语音识别和自然语言处理中的深度卷积神经网络的成功导致了将卷积运算扩展到图结构的想法。已经提出了许多工作来处理将CNN概括为图形的两个主要挑战,即在数据点未被布置为欧几里德网格的图中形成感受域,以及用于对图进行下采样的池化操作。

GraphDTA模型

研究人员提出了一种新的DTA预测模型,该模型基于图神经网络和传统CNN的组合。模型采用两个输入:SMILES和蛋白质序列,并且并行地向前馈送它们以学习每个的表示向量,然后将两个潜在的特征向量连接起来并经历几个密集层,以回归层来估计亲和力值。

研究人员为了评估基于图神经网络方法的有效性,采用了多种图神经网络模型。包括GCN、GAT、GIN和GAT-GCN。通过修改图神经网络的模式来测试模型性能。

GAT与GAT-GCN模型图

4. 实验与结果

研究人员主要通过对比非深度学习模型与比较流行的深度学习模型,通过测量计算一致性指数CI(指示预测值与实际值的一致性)与均方误差MSE这两个指标来表示模型的好坏。为了使实验结果具有比较性,分别在Davis与Kiba数据集对模型进行测量。

Davis数据集模型测量结果

KIBA数据集模型测量结果

两种数据集中的测量结果都表示在基于GAT-GCN结合的图表示模型中预测性能最佳。

5. 结论

本项工作中,研究人员提出了一种计算药物-靶标结合亲和力的新方法,称为GraphDTA;旨在降低药物开发的难度,减少发现新药物靶标相互作用在时间与成本上的花费,缩短药物开发周期。该模型使用由SMILES数据重构得来的二维图结构数据,能够表达药物的较完整信息,因此该方法能够获得较好的预测性能。

Code availability

https://github.com/thinng/GraphDTA

参考资料

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5395521/

https://www.biorxiv.org/content/10.1101/684662v3

GraphDTA | 基于图卷积网络预测药物-靶标结合亲和力相关推荐

  1. 基于注意力机制的图卷积网络预测药物-疾病关联

    BIB | 基于注意力机制的图卷积网络预测药物-疾病关联 智能生信 人工智能×生物医药 ​关注 科学求真 赢 10 万奖金 · 院士面对面 9 人赞同了该文章 今天给大家介绍华中农业大学章文教授团队在 ...

  2. Survey | 基于图卷积网络的药物发现方法

    本期介绍2019年6月发表在Briefings in Bioinformatics的综述,该综述由康奈尔大学等机构的研究人员撰写,系统总结了GCN及其在药物发现方面的最新进展,重点是与药物相关的应用: ...

  3. 生物信息学|利用层注意图卷积网络预测药物-疾病关联

    本篇推文引自:Predicting drug–disease associations through layer attention graph convolutional network 1. 摘 ...

  4. CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20在美国洛杉 ...

  5. 基于图卷积网络的测量与先验知识相结合的故障诊断方法

    目录 Graph Convolutional Network-Based Method for Fault Diagnosis Using a Hybrid of Measurement and Pr ...

  6. 论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐

    论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答 本文提出了一种基于图卷积网络的跨语言实体对齐方法,通过设计一种属性 embedding 用于 GCN 的训练,发现GCN能同时学习到特征 ...

  7. MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)

    Predicting miRNA-disease associations based on lncRNA–miRNA interactions and graph convolution netwo ...

  8. 时空编解码器残差多图卷积网络预测OD客流需求

    paper title <Predicting origin-destination ride-sourcing demand with a spatio-temporal encoder-de ...

  9. 使用多视角图卷积网络预测不规则区域的全市人群流量

    1.文章信息 <Predicting Citywide Crowd Flows in Irregular Regions Using Multi-View Graph Convolutional ...

最新文章

  1. Objective-c的@property 详解
  2. 微信开发提示未绑定网页开发者
  3. 理解class.forName()(good--字节码层面)
  4. Linux常用命令——useradd,usermod
  5. php中怎样阻止网页进行跳转,php中如何阻止网页进行跳转?
  6. maven工程xml文件路径问题
  7. python中注释的快捷键_【Python】注释
  8. redis 用户订单缓存_Redis实战(12)-基于Key失效和定时任务实现订单支付超时自动失效...
  9. python字符串前面加u,r,b的含义
  10. 关于Oracle10g归档参数的研究
  11. Eclipse基础--java环境变量设置
  12. [模板]匈牙利算法(二分图匹配)
  13. IIR滤波器和FIR滤波器
  14. 用python做网站的步骤_Python建网站的步骤
  15. 多多自走棋的各个套路简单分析
  16. Unity添加自发光材质
  17. linux终端分屏显示tmux,screen和tmux分屏
  18. 收录拒绝指定ip请求黑名单lua脚本、拒绝ip频次请求的lua脚本
  19. 斗图表情包爬虫(基于多线程)
  20. 微信企业支付RSA加密报错

热门文章

  1. Nginx——反向代理
  2. 图像技术在上亿规模实拍图片中的应用(算法好文)
  3. 精通Zookeeper系列开篇:进大厂不得不学的分布式协同利器!
  4. 一篇文章搞懂Filebeat
  5. 菜鸟实时数仓2.0进阶之路
  6. UniApp H5 浏览器下载图片 兼容iOS、Android
  7. SpringBootH ttpInvoker接口调用
  8. Docker对AUFS的使用
  9. 死锁产生条件-互斥条件
  10. JVM---执行引擎