论文解读者:北邮 GAMMA Lab 硕士生  楚贯一

1 引言

最近,越来越多的研究开始将深度学习方法应用到图数据领域。图神经网络在数据具有明确关系的结构场景,如物理系统,分子结构和知识图谱中有着广泛的研究价值和应用前景,本文将介绍在KDD 2020上发表的两个在这一场景下的最新工作。

第一个工作是Research Track的《ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction》,提出了一种基于主动学习的半监督图神经网络模型来对分子性质进行预测方法。

第二个工作是Research Track的《Hierarchical Attention Propagation for Healthcare Representation Learning》,基于注意力机制,提出了一种利用的层次信息表示医学本体的表示学习模型。

2 ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction

2.1 动机与贡献

分子性质(如能量)预测是化学和生物学中的一个重要问题。遗憾的是,许多监督学习方法都存在着标记分子在化学空间中稀缺的问题,而这类属性标记通常是通过密度泛函理论(DFT)计算得到的,计算量非常大。一个有效的解决方案是使用半监督方法使未标记的分子也能参与训练。然而,学习大量分子的半监督表示具有挑战性,存在包括分子本质和结构的联合表征,表征与属性学习的冲突等问题。本文作者提出了一个新的框架,结合了标记和未标记的分子来预测分子性质,称为主动半监督图神经网络(ASGN)。

2.2 模型

本文提出了一种新的主动半监督图神经网络(ASGN)框架,通过在化学空间中合并标记和未标记的分子来预测分子的性质。总体框架如图2所示。

总体来讲,本文使用教师模型和学生模型来迭代训练。每个模型都是一个图神经网络。在教师模型中,使用半监督的方式来获得分子图的一般表示。我们联合训练分子的无监督表示和基于属性预测的embedding。在学生模型中,通过微调教师模型中的参数来处理损失冲突。之后,再使用学生模型为未标记的数据集分配伪标签。作为对教师模型的反馈,教师模型可以从这些伪标签中学习学生模型学到的知识。同时,为了提高标记效率,作者使用了主动学习来选择新的有代表性的未标记分子进行标记。然后再将它们添加到标记的集合中,并反复fine-tune两个模型,直到达到预设精度。整个模型的核心思想是利用教师模型输出的embedding来寻找整个未标记集合中最具有多样化性质的子集,然后再使用DFT等方法给这些分子分配基本的真值标签。之后,将它们添加到标签集中,并重复迭代以提高性能。

2.2.1 教师模型

在教师模型中,本文采用了半监督学习方式。教师模型的损失函数由三部分组成,一个具有标记的分子的性质损失函数和两个无监督损失函数(分别从节点和图层面)。

(1) 本文使用了一种消息传递图神经网络(MPGNN),先将分子图转化为基于消息传递图神经网络的表示向量,之后在预测和标记







(即







中的标记属性)之间使用均方损失(MSE)来指导模型参数的优化

(2)在节点级表示学习中,模型主要学习从分子图的几何信息中获取领域知识。其主要思想是使用node embedding从表示中重建节点类型和拓扑(节点之间的距离)。具体地说,我们首先从图2所示的图中对一些节点和边进行随机采样,然后将这些节点的表示传递给MLP,并用它们重建节点类型和节点间的距离。从数学上讲,本文最小化了以下交叉熵:

(3)虽然能够重构分子拓扑结构的节点嵌入可以有效地表示分子的结构,然而结合图级表示学习对属性预测等下游任务也是有益的。为了学习图级表示,关键是利用化学空间中分子之间的相互关系,即相似的分子具有相似的性质。本文提出了一种基于学习聚类的图级表示方法。首先,计算网络的图级embedding。然后,我们使用一种基于隐式聚类的方法来为每个分子分配一个由隐式聚类过程生成的聚类ID,然后利用一个惩罚损失函数对模型进行优化,该过程迭代进行直到达到局部最小值。

(4)总LOSS:

2.2.2 学生模型

在实际应用中,直接优化教师模型中的公式(10)对属性预测的结果并不理想。由于教师模型中的优化目标之间存在冲突,每个联合优化目标的性能都比单独优化的性能要差。尤其是当带标记分子远少于无标记分子时,模型很少关注一个epoch内对







的优化,但对于分子性质的预测是本文最关心的问题。因此,与只需学习分子性质的模型相比,教师模型对于分子预测的损失要高得多。为了缓解这个问题,本文引入了一个学生模型。具体过程为:使用教师模型,通过共同优化上述对象函数来学习分子表示,当教师模型的学习过程结束时,我们将教师模型的权重转移到学生模型上,并使用学生模型仅对标记的数据集进行fine-tuning,以学习与图2所示公式(4)相同的分子性质:

在fine-tuning之后,我们使用学生模型来推断整个未标记的数据集,并为每个未标记的数据分配一个伪标签,表示学生对其性质的预测,未标记的数据集为

,其中







为学生模型的参数。在下一次迭代中,教师模型还需要学习这样的伪标签,公式(10)变成:

2.2.3 使用主动学习进行数据选择

在模型中本文已经把这些信息包括在有标记和未标记的分子中。然而,由于可用标签数量有限,准确度仍可能不尽如人意,所以需要寻找新的标签数据来提高其性能。因此,在每一次迭代中,我们使用教师模型输出的embedding迭代地选择一个分子子集,并通过DFT计算其性质(真值标签)。然后我们将这些通过主动学习输出的分子加入到标记集中,以迭代的方式微调两个模型。主动学习的关键策略是在化学空间中中找到一小批最多样化的分子来进行标记。一个经过充分研究的测量多样性的方法是从k-DPP中取样。然而,由于子集选择是NP难的,因此本文采用了贪婪近似,即k-中心法。用







表示未标记的数据集,用







表示有标记的数据集,我们采用一种贪婪的方法,在每次迭代中选择一个子集,使标记集和未标记集之间的距离最大化。具体来说,对于第k批中的每个0<i<b,我们选择满足以下条件的数据点:

是两个分子之间的距离。

2.3 实验

2.3.1 实验设置

•    Datasets:

(1)  QM9: 130,000 molecules, <9 heavy atoms

(2)  OPV: 100,000 medium sized molecules

•    Properties (All calculated by DFT)

(1)  QM9:

(2)  OPV:

2.3.2 实验结果

Results on QM9

Results on OPV

3 Hierarchical Attention Propagation for Healthcare Representation Learning

3.1 动机与贡献

医学本体论被广泛用于表示和组织医学术语。例如ICD-9、ICD-10、UMLS等。本体论通常以层次结构构建,编码不同医学概念之间的多层次子类关系,允许概念之间有非常细微的区别。医学本体论为将领域知识整合到医疗预测系统中提供了一个很好的途径,并可以缓解数据不足的问题,提高稀有类别的预测性能。为了整合这些领域知识,Gram是一种最新的图形注意力模型,它通过一种注意机制将医学概念表示为其祖先embedding到本体中的加权和。尽管表现出了不错的性能,但Gram只考虑了概念的无序祖先,没有充分地利用层次结构,因此表达能力有限。在本文中,我们提出了一种新的医学本体嵌入模型HAP,该模型将注意力分层地传播到整个本体结构中,医学概念自适应地从层次结构中的所有其他概念学习其embedding,而不仅仅是它的祖先。本文证明了HAP能够学习到更具表现力的医学概念embedding——从任意医学概念embedding中能够完全还原整个本体结构。在两个序列程序/诊断预测任务上的实验结果表明,HAP的embedding质量优于Gram和其他baseline。此外,本文发现使用完整的本体并不总是最好的。有时只使用较低层次的概念比使用所有层次的效果要好。

3.2 模型

本文提出了一种新的医学本体嵌入方法:

1)充分层次化知识的DAG(有向无环图)

2)尊重层次内节点的有序性。

HAP对模型进行两轮信息传播,更新每一级节点的嵌入:第一次是自下而上的传播,第二次是自上而下的传播。

假设本体节点有L层,其中第一层只包括单个根节点,第L层只有叶子医疗代码。第2,3,……L −1层可以包含中间类别节点或叶医疗代码(因为某些医疗代码没有完整的L层)。一开始,每个节点的embedding







是由一个基本embedding







初始化的。在自底向上的信息传播中,我们从第L-1层开始依次更新节点的embedding,直到第一层。对于第






层的某一节点







,本文通过使用注意力机制自适应地将当前embedding与第




层的其子级embedding相结合来更新其embedding :

其中






















表示开始更新




-1层节点前节点




的embedding,







表示embedding大小。注意力权重










的计算公式为:

其中

























是一个用于计算

























之间标量原始注意力的MLP。

自下而上的传播从第二层直到根节点为止。同一级别的节点更新可以并行执行,而上层节点的更新必须等到其所有较低级别都已更新为止。给定由自下而上传播计算的embedding,HAP以自顶向下的方式执行第二轮传播。具体地说,我们从第二层,第三层……直到第L层顺序更新节点的embedding。对于来自第




-1层的节点







,使用一个使用一个类似的注意力机制自适应地将当前节点的embedding与来自第




层的其父级embedding相结合来更新其embedding :

其中












表示开始更新




+1层节点前节点




的embedding。注意力权重










的计算公式为:

最后,在两轮传播之后,每个节点都将其注意力传播到整个知识DAG中。因此,每个节点的最终嵌入不仅有效地吸收了其祖先的知识,还吸收了其后代、兄弟姐妹,甚至一些遥远节点的知识。此外,由于传播顺序与层次结构严格一致,因此保留了节点排序信息。例如,在自顶向下的传播阶段,节点的祖先按顺序逐级向下传递信息,而不是像(1)中那样一次性传递信息。这使得HAP能够从不同层次上区分祖先/后代,并对排序信息进行编码。

最终的医学代码嵌入用于顺序程序/诊断预测任务。在






之后,本文采用了端到端的RNN框架。将最终得到的embedding







,







,……











以列的形式进行拼接得到embedding矩阵




























,注意一个访问记录







可以被表示为multi-hot向量







。为了对于每一个属于







的医学代码都得到一个embedding向量







,本文用












相乘并使用一个非线性变换:

之后我们依次将







,







,……,







输入RNN中,并对每一个访问输出一个中间隐藏态







,隐藏状态







是通过过去所有的时间戳直到到t的访问给出的:

之后,对于下一时间戳











的预测由下式给出:

我们使用分批梯度下降来最小化所有时间戳(除了时间戳1)的预测损失。单个患者的预测损失由下式得出:

3.3 实验

数据集设置:

结果:

•HAP (lv3): 所提出的HAP模型只使用最低的3个层次。也就是说,自下而上的传播在L-2层停止,自顶向下的传播也从L-2层开始。可以发现有时只使用较低层次的层次,就可以提供足够的领域知识,同时降低了计算复杂度。

• HAP (lv2): HAP模型只使用最低的2个层次.

本期责任编辑:杨成

本期编辑:刘佳玮


北邮 GAMMA Lab 公众号

主编:石川

责任编辑:王啸、杨成

编辑:刘佳玮

副编辑:郝燕如,纪厚业


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
获取本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/y7uvZF6
本站qq群704220115。加入微信群请扫码:

【论文解读】KDD20 | 图神经网络在生物医药领域的应用相关推荐

  1. 图神经网络在生物医药领域的12项研究综述

    本文转载自ScienceAI(Philosophyai) 2020年,图机器学习(Graph ML)已经成为机器学习(ML)领域中的一个备受关注的焦点研究方向.其中,图神经网络(GNN)是一类用于处理 ...

  2. [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  3. 疫苗行业薪酬增长率在生物医药领域最为突出;华为发布全场景智能光储解决方案;开利完成对广东积微集团的收购 | 美通社头条...

    要闻摘要:疫苗行业薪酬增长率在生物医药领域最为突出.全球整体疫苗接受程度在一个月内从63%升至66%.华为发布全场景智能光储解决方案.开利完成对广东积微集团的收购.Supermicro扩大全球产能产量 ...

  4. 中投民生:某药业加码生物医药领域战略布局,震惊股市!

    9月7日晚,华海药业公开发行可转债申请获证监会发审委通过.公司拟募集资金总额不超过18.43亿元,投向年产16个原料药项目及生物园区制药及研发中心项目等. 新研发中心将落户杭州 此次发行可转债,华海药 ...

  5. ICLR 2019论文解读:量化神经网络

    https://www.toutiao.com/a6701879235964830212/ 今年五月举办 ICLR 2019 会议共接收论文 502 篇,本文将解读其中两篇有关量化神经网络的研究. U ...

  6. KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练

    论文标题:GPT-GNN: Generative Pre-Training of Graph Neural Networks 论文链接:https://arxiv.org/abs/2006.15437 ...

  7. ICLR 2020 开源论文 | 多关系图神经网络CompGCN

    ©PaperWeekly 原创 · 作者|纪厚业 学校|北京邮电大学博士生 研究方向|图神经网络.推荐系统 图神经网络已经成为图数据分析领域的经典算法了,各大顶会上相关的论文也层出不穷.但是,这些工作 ...

  8. Nature论文解读:用于改善加权生物网络信噪比的网络增强方法

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. 论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

    摘要: 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求.本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER) ...

最新文章

  1. python 开发板 i2s_嵌入式小系统I2S接口调试总结
  2. c语言折半查找法程序,C语言基础:二分查找法演示代码
  3. 1分钟入门angular动画效果animations,敲简单滴哟~~☺
  4. ARP解决方法/工具 真假ARP防范区别方法 ARP终极解决方案
  5. 使用input type=file 上传文件时需注意
  6. C#中写入Excel
  7. 手把手教你用Python实现查找算法
  8. C#下实现的基础K-MEANS多维聚类
  9. display none的元素重新展示如何撑开页面_关于元素的浮动你了解多少
  10. C语言根号下ln怎么表示,c语言ln根号x
  11. 风力摆控制系统(B 题 本科组)-- 2015 年全国大学生电子设计竞赛试题
  12. Maya用样条线制作面片头发
  13. BF算法(Java实现)
  14. 山东大学程序设计思维实践- TT与可怜的猫
  15. 【数学建模】—— 层次分析法(AHP)
  16. python numpy.ndarray中的数据转为int型
  17. Linux驱动学习-平台设备驱动probe函数-20220410
  18. 初级程序员 高级程序员_程序员的十大电影
  19. 07月31日病毒预警与安全动态(转)
  20. QLineEdit输入限制

热门文章

  1. Android利用Jsoup解析html 开发网站客户端小记。
  2. Codeforces Round #133 (Div. 2) C. Hiring Staff 想法题目
  3. 团队每日冲刺博客05
  4. Python(2)-- 运算符
  5. bootstrap-datepicker default value
  6. 【VBA研究】怎样将单元格数据赋给数组
  7. 读取一个文件中的字符,统计每个字符出现的次数
  8. 介绍一些好用的ArcToolbox工具(默认ArcGIS没有)
  9. STL标准库vector笔记
  10. PHP 4 中对象的比较