基因疾病关联的图卷积神经网络

本文要介绍的是沙特阿卜杜拉国家科技大学高兴副教授课题组发表的一篇关于图卷积神经网络的基因疾病关联预测的论文。对候选基因排序对于遗传疾病基于基因的诊断是至关重要的。然而,由于有限、噪声的基因、疾病及其其关联的信息,这是一个极具挑战性的任务。而许多疾病基因排序计算方法,其性能很大程度上受到人工的提取特征、网络拓扑或预定义的数据融合规则的限制。作者提出一种新的基于图卷积网络的疾病基因排序方法PGCN。通过由基因、疾病以及各自的特征构成的异构网络的系统嵌入,嵌入学习模型和关联预测模型以端到端的方式组合在一起。实验结果表明,PGCN显著优于其他现有的预测方法。 研究背景 现有的疾病基因排序方法可以分为几类:基于文本挖掘方法、基于相似性方法、基于网络方法、基于矩阵填充方法等。尽管现有努力取得了进展,但仍然存在瓶颈。首先,基于相似性方法无法处理新的疾病相关基因未知。其次,基于网络的方法合理,其受网络拓扑结构的影响,不容易集成关于疾病和基因的多源信息。第三,矩阵补齐方法假设基因和疾病之间存在加权线性关系。此外,大多数现有的方法严重依赖于手工提取特征。另一方面,深度学习和图模型在生物信息学中的应用。 为此,作者提出一种新的疾病基因排序方法,由分子交互网络、疾病相似性网络、已知疾病-基因关联网络以及与基因和疾病相关的附加信息构成的异构网络。此方法首先通过图卷积神经网络得到基因和疾病相关的嵌入,同时考虑网络拓扑和疾病、基因的附加信息。嵌入形式送入边解码(边预测)模型。尽管此方法用两个步骤描述,但此模型以端到端的方式对模型进行训练。 模型与方法 方法框架 方法框架如图1所示。 (A)模型的输入包含两个组件:异构网络和节点的附加信息。其中异构网络采用HumanNet作为基因网络,疾病相似性网络作为疾病网络,OMIM的关联网络作为疾病-基因网络。对于疾病的附加信息,我们使用疾病本体相似度和OMIM计算的TF-IDF。为了获得基因的额外信息,我们使用了从其他物种的关联矩阵和基因表达微阵列数据。 (B)用于学习图卷积神经网络的节点嵌入的一层更新示例。对于每个节点模型从它的邻居节点之前层嵌入聚合信息,然后应用激活来获得该节点的当前层嵌入。对于不同的节点,计算图可以不同,但相同的操作在不同的计算图中共享参数。 (C)链路预测模型,我们从学习到的节点嵌入用双线性边解码器对于边预测建模。 (D)根据真实值和模型预测值计算交叉熵作为损失函数,以端到端方式训练节点嵌入模型和边解码模型。 图1. 方法框架 数学公式 在每一层,对于每一个节点,信息聚集和转换形式,如公式1所示。                                  (1)                                                (2) 采用ReLU 以为例: 以为例: 从GCN嵌入学习重构网络边,使用双线性解码器作为边解码器,如公式3所示。                                       (3) :疾病节点学习的嵌入表示。 :疾病节点学习的嵌入表示。 :可训练矩阵。 采用sigmoid。 使用交叉熵损失作为损失函数评估模型,如公式4所示。                       (4)                                               (5) 实验结果 PGCN的预测性能 首先,作者使用以下标准(AUROC、AUPRC、Recall@K)评估提出的方法和对比方法。其次,评估了不同方法对新基因、新疾病的关联预测性能。作者提出的方法优于现有的疾病基因排序方法。 图2. 预测性能比较 嵌入的生物意义 作者为了可视化disease和gene的embedding的意义,采用t-SNE进行降维,将32维的embedding vector降为两维,根据聚类的颜色表示不同关联得分的相似性,说明embedding向量是基因或者疾病的低维表示,并且学习了两者的关联信息。其可视化嵌入的结果如图3所示。 图3. 利用t-SNE在二维空间中可视化嵌入的聚类 总结 作者在这个工作中提出了一种新的、统一的疾病基因排序的框架。该方法使用图卷积神经网络结合异构网络拓扑结构、疾病和基因的邻居信息以及疾病、基因相关信息自动学习疾病和基因的嵌入表示,嵌入模型和关联预测模型以端到端的方式训练。实验证明该方法在恢复缺失关联以及发现新基因或新疾病关联的性能优越。其框架是通用的,可以应用到计算生物学的其他重要问题,比如药物-疾病关联等。 作者信息

背景

文章使用图卷积神经网络做疾病基因的优先级排序(Proper prioritization), 并取得不错的效果,我也发现有越来越多的人来使用图卷积来表达关联关系,例如上个月发表在cells的一篇文章同样也是用的图卷积做lncRNA和Disease之间的关联,并做了很多分析。

作者的motivation:候选基因集的优先级对于基因相关疾病十分重要,传统方法基于hand-craft特征,基于规则或者基于统计,无法对数据进行更好的表达

论文地址: https://www.biorxiv.org/content/biorxiv/early/2019/01/28/532226.full.pdf ,preprint中

源码地址:https://github.com/lykaust15/Disease_gene_prioritization_GCN,使用的框架是tensorflow+python3.6

目前该方向已有算法:

  • GeneHound(2018)
  • IMC(2014)
  • GCAS(2018)
  • Catapult(2013)

上述的主流算法可以分为一下几类:

  • filter methods: 候选list根据属性关联性划分为小的集合
  • text mining:根据文本中的疾病信息和基因做关联,计算关联得分,但只能socre已有基因
  • similarity profiling&data fusion:相似基因关联相似疾病(推荐系统的user-item),从不同数据集中得到归一化ranking, 最后top-N排序
  • network-based methods:用图网络之类表示edge-node关联
  • matrix completion techniques:关联矩阵,(推荐系统的高维user-item matrix) ,矩阵评分填充

计算流程

将disease和gene的特征作embedding, 并看作图网络的节点,边的值代表关联的权重,和相关性正相关,需要计算的是不同疾病对于不同基因的相关性,也就是上图中的candidate interaction 从已知的图结构中推测未知边的权重得分.

  • 输入:disease的关联图, gene<->gene关联图, gene<->disease关联图,disease和gene的embedding特征
  • 子网络:gene network + disease similarity network + disease-gene network(最后有12331 genes, 3215 diseases, 3988 disease-gene的关联信息)-> 关联关系比较少
  • 输出:未知edge的权重(二分类训练)

图信息

gene network

  • HumanNet:包含mRNA 共表达,蛋白质交互, 和基因组比较信息
  • 四个物种的21对基因组信息
  • 12331 genes 和733836 edges

disease network

  • OMIM数据集文本挖掘:提取医学解剖和疾病部分主题标题
  • 3215 diseases 和 645945 edges
  • node embedding:Disease Ontology similarity+ OMIM,频次作为关联, TF-IDF作为特征

disease-gene network

  • 从OMIM提取,没有embedding信息
  • 12331 genes, 3215 diseases, 3988 disease-gene关联边

GCN

  • 采用最简单的图卷积网络,更新临接矩阵
  • 逐层卷积,采用18年的权重归一化方法,2层的GCN层

第k层的卷积形式, c为归一化权重,N表示相邻节点:

新的edge 的关联获取方式:

第一个z是disease经过GCN的embedding,第二个z是gene的,W是临接矩阵,激活函数是sigmoid(个人理解相关联的disease和gene会获得很相似的embedding表达,不就是推荐系统的么。)

训练的时候采用logloss,相关边为1, 无关边 随机负采样为-1, 论文写的只训练disease和gene的边?:

Mark:有用的分析方法:T-SNE

作者为了可视化disease和gene的embedding的意义,采用T-SNE进行降维,将32维的embedding vector 降到两维,根据聚类的的颜色来表示不同关联得分的相似性,说明embedding向量就是基因或者疾病的低维表示, 并且学习了两者的关联信息。

编辑于 2019-09-22

基因疾病关联的图卷积神经网络相关推荐

  1. 论文解析-基于图卷积神经网络的癌症基因预测模型,利用LRP算法增加模型可解释性

    论文解析:Integration of multiomics data with graph convolutional networks to identify new cancer genes a ...

  2. 第二课.图卷积神经网络

    目录 卷积神经网络 图卷积神经网络 GNN数据集 图的表示 GCN GNN的基准化:Benchmarking Graph Neural Networks 卷积神经网络 在计算机视觉中,卷积网络是一种高 ...

  3. tensorflow lstm 预测_图卷积神经网络GCN与递归结构RNN相结合的时间序列预测

    时间序列预测任务可以按照不同的方法执行.最经典的是基于统计和自回归的方法.更准确的是基于增强和集成的算法,我们必须使用滚动周期生成大量有用的手工特性.另一方面,我们可以使用在开发过程中提供更多自由的神 ...

  4. 标题:浅析图卷积神经网络

    今天想和大家分享的是图卷积神经网络.随着人工智能发展,很多人都听说过机器学习.深度学习.卷积神经网络这些概念.但图卷积神经网络,却不多人提起.那什么是图卷积神经网络呢?简单的来说就是其研究的对象是图数 ...

  5. 图神经网络(一)图信号处理与图卷积神经网络(2)图信号与图的拉普拉斯矩阵

    图神经网络(一)图信号处理与图卷积神经网络(2)图信号与图的拉普拉斯矩阵  给定图G=(V,E)G=(V,E)G=(V,E),V表示图中的节点集合,假设其长度为NNN,图信号是一种描述V→RV→RV→ ...

  6. 【Pytorch神经网络实战案例】20 基于Cora数据集实现图卷积神经网络论文分类

    1 案例说明(图卷积神经网络) CORA数据集里面含有每一篇论文的关键词以及分类信息,同时还有论文间互相引用的信息.搭建AI模型,对数据集中的论文信息进行分析,根据已有论文的分类特征,从而预测出未知分 ...

  7. 【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN:基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

    图神经网络(Graph Neural Network,GNN)是一类能够从图结构数据中学习特征规律的神经网络,是解决图结构数据(非欧氏空间数据)机器学习问题的最重要的技术. 1 图神经网络的基础知识 ...

  8. gcn 图卷积神经网络_复制一文读懂图卷积GCN

    首发于郁蓁的机器学习笔记 写文章 一文读懂图卷积GCN 苘郁蓁 ​ 阿里巴巴 算法工程师 ​关注她 唯物链丶.小小将等 480 人赞同了该文章本文的内容包括图卷积的基础知识以及相关辅助理解的知识点,希 ...

  9. 神经网络模型中有什么样的算子_浅析图卷积神经网络

    今天想和大家分享的是图卷积神经网络. 随着人工智能发展,很多人都听说过机器学习.深度学习.卷积神经网络这些概念. 但图卷积神经网络,却不多人提起. 那什么是图卷积神经网络呢? 简单的来说就是其研究的对 ...

最新文章

  1. java快速创建dto_根据数据库表对象信息快速建立Dto类详解
  2. Chromium:安装depot_tools及获取Chromium源代码
  3. vs编译c语言文件不读取对象式宏,C代码的条编译宏windows的VS和linux下gcc编译不一样...
  4. 针对不同基础学Java编程的人,提出的小建议?
  5. ZooKeeper 集群:集群概念、选举流程、机器数量
  6. gensim中文处理
  7. Mac OS X 下 TAR.GZ 方式安装 MySQL
  8. 块元素与行内元素转化(display属性)
  9. eclipse debug 工程源码时出现source not found问题解决
  10. layui 加载第三方插件
  11. Qt文档阅读笔记-QGraphicsItem::paint中QStyleOptionGraphicsItem *option的进一步认识
  12. 计算机科学 —— 冯诺依曼结构
  13. JS键盘事件对象之keyCode、charCode、which属性对比
  14. 中国十大骨干网,了解互联网的真实结构
  15. level set method 水平集方法基本问题
  16. 清明假期,超市可重点主推的品类
  17. 双馈风机DFIG并网(Matlab Simulink) 有详细说明
  18. HTML做一个简单漂亮的宠物网页(纯html代码)宠物 5页(二级菜单)
  19. sqlserver jdbc 包下载
  20. C#-FFmpeg-视频添加logo

热门文章

  1. 计算机内存不足 ssd,电脑提示内存不足怎么办 虚拟内存设置方法【详解】
  2. 云桌面可附加桌面文件的程序_给我几分钟,还你一个小清新的电脑桌面
  3. 2021院士候选人,近150人获提名!看看有没有自己的母校~
  4. 随机挑选分类训练集和测试集
  5. React 项目中使用Echarts
  6. 第二十六课.深度强化学习(一)
  7. 其他算法-SVD奇异值分解
  8. 诚聘英才,共创未来!华南农业大学农学院高层次人才招聘
  9. 报告视频录制:腾讯会议录屏+人像画中画特效
  10. PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组、新增KEGG层级