论文解读者:北邮 GAMMA Lab 硕士生  楚贯一

1 引言

最近,越来越多的研究开始将深度学习方法应用到图数据领域。图神经网络在数据具有明确关系的结构场景,如物理系统,分子结构和知识图谱中有着广泛的研究价值和应用前景,本文将介绍在KDD 2020上发表的两个在这一场景下的最新工作。

第一个工作是Research Track的《ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction》,提出了一种基于主动学习的半监督图神经网络模型来对分子性质进行预测方法。

第二个工作是Research Track的《Hierarchical Attention Propagation for Healthcare Representation Learning》,基于注意力机制,提出了一种利用的层次信息表示医学本体的表示学习模型。

2 ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction

2.1 动机与贡献

分子性质(如能量)预测是化学和生物学中的一个重要问题。遗憾的是,许多监督学习方法都存在着标记分子在化学空间中稀缺的问题,而这类属性标记通常是通过密度泛函理论(DFT)计算得到的,计算量非常大。一个有效的解决方案是使用半监督方法使未标记的分子也能参与训练。然而,学习大量分子的半监督表示具有挑战性,存在包括分子本质和结构的联合表征,表征与属性学习的冲突等问题。本文作者提出了一个新的框架,结合了标记和未标记的分子来预测分子性质,称为主动半监督图神经网络(ASGN)。

2.2 模型

本文提出了一种新的主动半监督图神经网络(ASGN)框架,通过在化学空间中合并标记和未标记的分子来预测分子的性质。总体框架如图2所示。

总体来讲,本文使用教师模型和学生模型来迭代训练。每个模型都是一个图神经网络。在教师模型中,使用半监督的方式来获得分子图的一般表示。我们联合训练分子的无监督表示和基于属性预测的embedding。在学生模型中,通过微调教师模型中的参数来处理损失冲突。之后,再使用学生模型为未标记的数据集分配伪标签。作为对教师模型的反馈,教师模型可以从这些伪标签中学习学生模型学到的知识。同时,为了提高标记效率,作者使用了主动学习来选择新的有代表性的未标记分子进行标记。然后再将它们添加到标记的集合中,并反复fine-tune两个模型,直到达到预设精度。整个模型的核心思想是利用教师模型输出的embedding来寻找整个未标记集合中最具有多样化性质的子集,然后再使用DFT等方法给这些分子分配基本的真值标签。之后,将它们添加到标签集中,并重复迭代以提高性能。

2.2.1 教师模型

在教师模型中,本文采用了半监督学习方式。教师模型的损失函数由三部分组成,一个具有标记的分子的性质损失函数和两个无监督损失函数(分别从节点和图层面)。

(1) 本文使用了一种消息传递图神经网络(MPGNN),先将分子图转化为基于消息传递图神经网络的表示向量,之后在预测和标记







(即







中的标记属性)之间使用均方损失(MSE)来指导模型参数的优化

(2)在节点级表示学习中,模型主要学习从分子图的几何信息中获取领域知识。其主要思想是使用node embedding从表示中重建节点类型和拓扑(节点之间的距离)。具体地说,我们首先从图2所示的图中对一些节点和边进行随机采样,然后将这些节点的表示传递给MLP,并用它们重建节点类型和节点间的距离。从数学上讲,本文最小化了以下交叉熵:

(3)虽然能够重构分子拓扑结构的节点嵌入可以有效地表示分子的结构,然而结合图级表示学习对属性预测等下游任务也是有益的。为了学习图级表示,关键是利用化学空间中分子之间的相互关系,即相似的分子具有相似的性质。本文提出了一种基于学习聚类的图级表示方法。首先,计算网络的图级embedding。然后,我们使用一种基于隐式聚类的方法来为每个分子分配一个由隐式聚类过程生成的聚类ID,然后利用一个惩罚损失函数对模型进行优化,该过程迭代进行直到达到局部最小值。

(4)总LOSS:

2.2.2 学生模型

在实际应用中,直接优化教师模型中的公式(10)对属性预测的结果并不理想。由于教师模型中的优化目标之间存在冲突,每个联合优化目标的性能都比单独优化的性能要差。尤其是当带标记分子远少于无标记分子时,模型很少关注一个epoch内对







的优化,但对于分子性质的预测是本文最关心的问题。因此,与只需学习分子性质的模型相比,教师模型对于分子预测的损失要高得多。为了缓解这个问题,本文引入了一个学生模型。具体过程为:使用教师模型,通过共同优化上述对象函数来学习分子表示,当教师模型的学习过程结束时,我们将教师模型的权重转移到学生模型上,并使用学生模型仅对标记的数据集进行fine-tuning,以学习与图2所示公式(4)相同的分子性质:

在fine-tuning之后,我们使用学生模型来推断整个未标记的数据集,并为每个未标记的数据分配一个伪标签,表示学生对其性质的预测,未标记的数据集为

,其中







为学生模型的参数。在下一次迭代中,教师模型还需要学习这样的伪标签,公式(10)变成:

2.2.3 使用主动学习进行数据选择

在模型中本文已经把这些信息包括在有标记和未标记的分子中。然而,由于可用标签数量有限,准确度仍可能不尽如人意,所以需要寻找新的标签数据来提高其性能。因此,在每一次迭代中,我们使用教师模型输出的embedding迭代地选择一个分子子集,并通过DFT计算其性质(真值标签)。然后我们将这些通过主动学习输出的分子加入到标记集中,以迭代的方式微调两个模型。主动学习的关键策略是在化学空间中中找到一小批最多样化的分子来进行标记。一个经过充分研究的测量多样性的方法是从k-DPP中取样。然而,由于子集选择是NP难的,因此本文采用了贪婪近似,即k-中心法。用







表示未标记的数据集,用







表示有标记的数据集,我们采用一种贪婪的方法,在每次迭代中选择一个子集,使标记集和未标记集之间的距离最大化。具体来说,对于第k批中的每个0<i<b,我们选择满足以下条件的数据点:

是两个分子之间的距离。

2.3 实验

2.3.1 实验设置

•    Datasets:

(1)  QM9: 130,000 molecules, <9 heavy atoms

(2)  OPV: 100,000 medium sized molecules

•    Properties (All calculated by DFT)

(1)  QM9:

(2)  OPV:

2.3.2 实验结果

Results on QM9

Results on OPV

3 Hierarchical Attention Propagation for Healthcare Representation Learning

3.1 动机与贡献

医学本体论被广泛用于表示和组织医学术语。例如ICD-9、ICD-10、UMLS等。本体论通常以层次结构构建,编码不同医学概念之间的多层次子类关系,允许概念之间有非常细微的区别。医学本体论为将领域知识整合到医疗预测系统中提供了一个很好的途径,并可以缓解数据不足的问题,提高稀有类别的预测性能。为了整合这些领域知识,Gram是一种最新的图形注意力模型,它通过一种注意机制将医学概念表示为其祖先embedding到本体中的加权和。尽管表现出了不错的性能,但Gram只考虑了概念的无序祖先,没有充分地利用层次结构,因此表达能力有限。在本文中,我们提出了一种新的医学本体嵌入模型HAP,该模型将注意力分层地传播到整个本体结构中,医学概念自适应地从层次结构中的所有其他概念学习其embedding,而不仅仅是它的祖先。本文证明了HAP能够学习到更具表现力的医学概念embedding——从任意医学概念embedding中能够完全还原整个本体结构。在两个序列程序/诊断预测任务上的实验结果表明,HAP的embedding质量优于Gram和其他baseline。此外,本文发现使用完整的本体并不总是最好的。有时只使用较低层次的概念比使用所有层次的效果要好。

3.2 模型

本文提出了一种新的医学本体嵌入方法:

1)充分层次化知识的DAG(有向无环图)

2)尊重层次内节点的有序性。

HAP对模型进行两轮信息传播,更新每一级节点的嵌入:第一次是自下而上的传播,第二次是自上而下的传播。

假设本体节点有L层,其中第一层只包括单个根节点,第L层只有叶子医疗代码。第2,3,……L −1层可以包含中间类别节点或叶医疗代码(因为某些医疗代码没有完整的L层)。一开始,每个节点的embedding







是由一个基本embedding







初始化的。在自底向上的信息传播中,我们从第L-1层开始依次更新节点的embedding,直到第一层。对于第






层的某一节点







,本文通过使用注意力机制自适应地将当前embedding与第




层的其子级embedding相结合来更新其embedding :

其中






















表示开始更新




-1层节点前节点




的embedding,







表示embedding大小。注意力权重










的计算公式为:

其中

























是一个用于计算

























之间标量原始注意力的MLP。

自下而上的传播从第二层直到根节点为止。同一级别的节点更新可以并行执行,而上层节点的更新必须等到其所有较低级别都已更新为止。给定由自下而上传播计算的embedding,HAP以自顶向下的方式执行第二轮传播。具体地说,我们从第二层,第三层……直到第L层顺序更新节点的embedding。对于来自第




-1层的节点







,使用一个使用一个类似的注意力机制自适应地将当前节点的embedding与来自第




层的其父级embedding相结合来更新其embedding :

其中












表示开始更新




+1层节点前节点




的embedding。注意力权重










的计算公式为:

最后,在两轮传播之后,每个节点都将其注意力传播到整个知识DAG中。因此,每个节点的最终嵌入不仅有效地吸收了其祖先的知识,还吸收了其后代、兄弟姐妹,甚至一些遥远节点的知识。此外,由于传播顺序与层次结构严格一致,因此保留了节点排序信息。例如,在自顶向下的传播阶段,节点的祖先按顺序逐级向下传递信息,而不是像(1)中那样一次性传递信息。这使得HAP能够从不同层次上区分祖先/后代,并对排序信息进行编码。

最终的医学代码嵌入用于顺序程序/诊断预测任务。在






之后,本文采用了端到端的RNN框架。将最终得到的embedding







,







,……











以列的形式进行拼接得到embedding矩阵




























,注意一个访问记录







可以被表示为multi-hot向量







。为了对于每一个属于







的医学代码都得到一个embedding向量







,本文用












相乘并使用一个非线性变换:

之后我们依次将







,







,……,







输入RNN中,并对每一个访问输出一个中间隐藏态







,隐藏状态







是通过过去所有的时间戳直到到t的访问给出的:

之后,对于下一时间戳











的预测由下式给出:

我们使用分批梯度下降来最小化所有时间戳(除了时间戳1)的预测损失。单个患者的预测损失由下式得出:

3.3 实验

数据集设置:

结果:

•HAP (lv3): 所提出的HAP模型只使用最低的3个层次。也就是说,自下而上的传播在L-2层停止,自顶向下的传播也从L-2层开始。可以发现有时只使用较低层次的层次,就可以提供足够的领域知识,同时降低了计算复杂度。

• HAP (lv2): HAP模型只使用最低的2个层次.

本期责任编辑:杨成

本期编辑:刘佳玮


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
下载二:南大模式识别PPT后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

【KDD20】图神经网络在生物医药领域的应用相关推荐

  1. 【论文解读】KDD20 | 图神经网络在生物医药领域的应用

    论文解读者:北邮 GAMMA Lab 硕士生  楚贯一 1 引言 最近,越来越多的研究开始将深度学习方法应用到图数据领域.图神经网络在数据具有明确关系的结构场景,如物理系统,分子结构和知识图谱中有着广 ...

  2. 图神经网络在生物医药领域的12项研究综述

    本文转载自ScienceAI(Philosophyai) 2020年,图机器学习(Graph ML)已经成为机器学习(ML)领域中的一个备受关注的焦点研究方向.其中,图神经网络(GNN)是一类用于处理 ...

  3. 疫苗行业薪酬增长率在生物医药领域最为突出;华为发布全场景智能光储解决方案;开利完成对广东积微集团的收购 | 美通社头条...

    要闻摘要:疫苗行业薪酬增长率在生物医药领域最为突出.全球整体疫苗接受程度在一个月内从63%升至66%.华为发布全场景智能光储解决方案.开利完成对广东积微集团的收购.Supermicro扩大全球产能产量 ...

  4. 中投民生:某药业加码生物医药领域战略布局,震惊股市!

    9月7日晚,华海药业公开发行可转债申请获证监会发审委通过.公司拟募集资金总额不超过18.43亿元,投向年产16个原料药项目及生物园区制药及研发中心项目等. 新研发中心将落户杭州 此次发行可转债,华海药 ...

  5. 生物信息学在生物医药领域的应用

    简介 生物信息学是生命科学,信息学,数学,计算机,化学,物理等多学科相互交融而形成的一门学科,生物信息学的应用几乎覆盖了生物医学研究的各个领域.生物信息学对于现代生物学和医学数据的分析具有重大意义,其 ...

  6. 深度学习研究及其在生物医药领域的潜在应用

    深度学习已经在各种生物学应用中取得成功.在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1).我们首先回顾了生物标志物开发的重要领域, ...

  7. 科研实习 | 加拿大Mila实验室唐建教授招收机器学习/生物医药方向科研实习生...

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! Mila Mila 实验室是由深度学习先驱 Yoshua Bengio 教 ...

  8. 图神经网络如何对知识图谱建模? | 赠书

    几乎所有早期的知识图谱嵌入的经典方法都是在对每个三元组打分,在实体和关系的表示中并没有完全考虑到整幅图的结构. 早期,图神经网络的方法在知识图谱嵌入中并没有被重视,主要由于: 早期的图神经网络更多是具 ...

  9. 当深度学习遇上图: 图神经网络的兴起 | 赠书

    什么是图 也许我们从来没有意识到,我们正生活在一个充满图的世界.例如,我们最熟悉的社交网络(如下图所示),就是一个最典型的图. 在计算机领域,我们通常用图指代一种广义的抽象结构,用来表示一堆实体和它们 ...

  10. 当深度学习遇上图: 图神经网络的兴起!(文末送书)

    当深度学习遇上图,会碰撞出怎样的火花呢? 本文就带你来了解一下--近年来逆势而上的一门技术:图神经网络! 内容选自<图神经网络:基础与前沿(全彩)>一书! 01 什么是图 也许我们从来没有 ...

最新文章

  1. boost::leaf::result用法的测试程序
  2. ajax刷新iframe页面,通过iframe实现简单的ajax表单提交
  3. 打包指令_Linux系统常用指令总结
  4. 计算机一级考试有三科,全国计算机一级考试是一级WPS Office 一级MS Office 一级Photoshop 三个任选一个考试吗?...
  5. 【编译】StreamInsight简介
  6. shiro-cas------配置从数据库获取用户
  7. 链表分割——牛客剑指offer
  8. idea中安装uml工具插件
  9. 解决按键精灵助手无法连接Android手机的问题
  10. hive的dual表
  11. c语言程序书写时,C语言程序书写规范
  12. SEM竞价入门的4个基本常识|零基础必看
  13. 【Flutter】----学习笔记1(1~5)
  14. linux硬盘识别过程
  15. 人物志 | 美团技术委员会前端通道主席洪磊:爱折腾的斜杠青年
  16. 数据库的故障及其恢复策略
  17. bloomFilter和哈希函数murmur3
  18. 计算机这一门在高考里占分吗,2018高考各科答题要点 从答题规范上“要分”
  19. ns-3-model-library wifi 浅析_ns-3wifi部分解析_ns-3网络模拟器wifi部分文档分析_Part1
  20. 如何实现分库分表?怎么配置?

热门文章

  1. java设计模式-Observe
  2. rsync增量复制命令用法和守护进程的配置
  3. struts2入门之action获取表单提交数据
  4. 《sqoop实现hdfs中的数据导出至mysql数据库》
  5. Atitit.jdk java8的语法特性详解 attilax 总结
  6. 如何开始rails项目
  7. 金融IT和ERP,哪个更有前途?
  8. 数据之路 - Python爬虫 - BeautifulSoup库
  9. Android 集成Unity项目
  10. 趣图图解 SOLID 软件开发原则