笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习


论文地址:https://arxiv.org/pdf/2106.04509.pdf

动机

目前基于图的对比学习有以下几个问题:

不同领域的图,(比如social network和分子图)它们的图结构信息和图的semantics是不同的,因此很难设计一个通用的、适用于所有场景的数据增强方法;大多数方法只关心局部结构而忽略了全局结构,比如结构相似的两个图在embedding space也会更接近;对比的scheme不是单一的,对比可以发生在节点-图,节点-节点,图-图之间。

对比学习本身也有一些待解决的问题,之前很多对比学习方法是通过最大化一对graph augmentation之间的互信息来实现的:在高维情况下正确估计互信息很困难;最大化互信息和对比学习之间的联系尚不明确。

贡献

提出了一种基于局部领域知识的分子图augmentation方法;

提出了一种全局的对比损失,并将局部对比损失和全局对比损失线性组合作为总体损失。

模型与算法

局部水平:在graph augmentation中注入了领域知识

1.图上半部分为传统的图增强方法:丢掉节点、移动边、提取子图、mask属性,下半部分为提出的增强方法。把重要的子结构替换掉,但仍保持相似的性质。这里是替换了官能团,加上或去除普通的C原子,不影响替换前后分子图的性质。这一步引入了领域知识。

2.局部对比最大化两个augmented views的互信息。

3.每个样本的对比学习损失,其中s是衡量两个embedding相似度的函数。

全局水平:考虑了整体的graph semantic

1.定义了两个分子图之间的相似性,再最大化两个相似图之间的互信息。定义分子图相似性这一步用到了领域知识,因为分子的相似性就是分子指纹的谷本系数。

2.两种计算全局损失的方法:

Connection to Metric Learning

MoCL的损失是局部损失和全局损失的加和。引理设定了一些前提,比如分子相似度函数、参数,最终损失可以表示为三个triplet loss之和。因此,MoCL的优化目标是拉近正样本对,同时从局部和全局角度推开负样本对。

实验与结果

Q1:注入局部领域知识的对比学习是否学到了比普通augmentation方法更好的图表示?不同的图增强组合表现如何?

每个cell表示从头训练的GNN与用不同的augmentation组合方法训练的模型在linear protocol下的performance有多少进步。蓝色代表负值,红色代表正值。MoCL-DK得到的表示加上线性分类器产生的预测准确率与GNN效果(bace、bbbp、sider)相当,甚至比它更好(clintox , mutag)。可以看到包含MoCL-DK 的行和列的值通常更高 ,因此MoCL-DK 与其他augmentation方法相结合几乎总是能产生更好的结果。属性屏蔽和 MoCL-DK 通常在所有场景中都有效,将它们结合起来通常会有更好的性能。这验证了我们之前的假设,即 MoCL-DK 和属性屏蔽不违反生物学假设,因此比其他增强效果更好。

分别在linear protocol和semi-supervised protocol下进行了实验。跟其他用到data augmentation和对比学习的方法做了比较,在大部分数据集上超过了sota。

比较了不同augmentation强度情况下的效果,强度指的是增强几次,比如替换后再替换一次,就是增强两次。对于大多数数据集,随着增强次数越多,性能先上升后下降。 MoCL-DK3 通常能取得更好的结果。

Q2:注入全局领域知识是否进一步提升了图表示?计算全局损失的两个策略表现分别如何?

LS是第一种策略,CL是第二种策略。加上了全局领域知识进一步提升了模型的性能。

加入全局领域知识后不同augmentation方法的性能提升 。可以看到全局信息的引入会提升所有方法。

比较了两种protocol下,采用不同的策略的全局损失函数所获得的性能。可以看到,全局相似性的对比损失(CL)比最小二乘损失(LS)的策略获得了更好的结果。

Q3:超参数如何影响模型的性能?

相对较小的neighbor size和相对较大的全局损失占比会获得最佳结果。

欢迎有兴趣的同学阅读原文。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 | 融合多层次领域知识的分子图对比学习相关推荐

  1. 论文浅尝 | DeCLUTR: 无监督文本表示的深度对比学习

    Giorgi, J. M., O. Nitski, G. D. Bader and B. Wang (2020). "DeCLUTR: Deep Contrastive Learning f ...

  2. 论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

    论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理 Paper:https://www.aclweb.org/anthology/P19-1430/ Code:https://github.co ...

  3. 论文浅尝 | 面向自动分类归纳的端到端强化学习

    动机 术语层次在许多自然语言处理任务中扮演着重要角色.然而,大部分现有的术语层次是人工构建的,其覆盖范围有限,或者某些领域上不可用.因此,最近的工作集中在自动化的术语层次归纳(automatictax ...

  4. 论文浅尝 | 基于多原型mention向量的文本-实体联合学习

    链接:http://anthology.aclweb.org/P/P17/P17-1149.pdf   概述 在知识库和文本的联合表示中,歧义是个困扰的难题.同一个 mention 可能在不同的语境下 ...

  5. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  6. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  7. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  8. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  9. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

最新文章

  1. 使用小技巧教你用Selenium获取鼠标指向的元素
  2. LeetCode-Unique Binary Search Trees
  3. mysql热备份还原_利用xtrabackup完成mysql的热备份与还原
  4. Linux检查CPU过高的原因
  5. 一次外网打不开网站的故障总结
  6. 别怨自己命不好,先看看“厚德载物”你有几德?
  7. 北京上海等昨天大规模断网 专家称与太阳无关
  8. eclipse编码方式、标签语言获取根目录
  9. Redis基础、应用场景、数据结构及案例
  10. [Cogs728] [网络流24题#3] 最小路径覆盖 [网络流,最大流,二分图匹配]
  11. Office2016专业增强版与Visio2016专业版不能共存的解决办法
  12. 高德地图打包后不能使用,高德导航View不显示,高德地图导航组件黑屏的问题;
  13. 百度地图 截图java_我从百度地图静态图API中通过url获取到的图片,用java有没有什么办法可以把图片上的百度logo去掉呢...
  14. mysql 加号_从数据库中读取字符串时其中的空格变成加号
  15. 苏大计算机学院在哪,苏州大学计算机技术学院导师介绍:纪其进
  16. 武汉大学计算机学院樊浩南,今年高考光荣榜?谁能告之??谢谢!!
  17. QQzone 项目 (SSM)
  18. 广德现场:夜山明·潮牌酒倾情助阵第七届国际山地自行车开赛!
  19. 这样整理关键词,竞价推广更高效
  20. Protege4之基础知识介绍

热门文章

  1. 向量点积(Dot Product)
  2. presto领读 查询引擎翻译
  3. clamav Java_ClamAV安装使用及API例子
  4. mysql 查询 集合_MySQL使用集合函数进行查询操作实例详解
  5. c_str()的用法
  6. AfxGetMainWnd( )函数
  7. tablestore列式存储原理_10分钟搞透:技术人必会的MySQL体系结构与存储引擎!
  8. 计算机软件需求规格说明规范_太阳能(光伏)组件安全规范测试简介_丙观科技
  9. vba 判断文本框内容是否为空_【VBA】 数据输入 Inputbox 基本语法
  10. Vue项目中使用图片裁切器 cropperjs (头像裁切)