【论文笔记】Beyond Low-frequency Information in Graph Convolutional Networks
文章目录
- 1. Abstract
- 2. Introduction
- 低频和高频信号作用
- FAGCN怎么设计
- 3. An Experimental Investigation
- 4. Model
- 4.1 filter定义
- 4.2 Aggregation
- 4.3 Problems of signal combination
- 4.4 Spatial vision of FAGCN
- 4.5 系数αijG\alpha_{i j}^{G}αijG
- 4.6 模型整体框架
- FAGCN的表达能力
- 实验
本文发表在AAAI-21上
论文地址:https://arxiv.org/abs/2101.00797
github:https://github.com/bdy9527/FAGCN
1. Abstract
大多数现有的GNNS 通常利用节点特征的低频信号,这就产生了一个基本的问题:在现实世界的应用中,低频信息都是需要的吗?我们首先进行了一项实验研究,评估了低频信号和高频信号的作用,结果清楚地表明,仅使用低频信号不能在不同的网络中学到有效的节点表示。
我们如何在gnn中自适应地学习更多的低频信息?我们提出了一种具有自门机制的频率自适应图卷积网络(Frequency Adaptation Graph Convolutional Network,FAGCN),该网络可以在消息传递过程中自适应地集成不同的信号。
为了更深入的理解,我们从理论上分析了低频信号和高频信号在学习节点表示中的作用,这进一步解释了为什么FAGCN可以在不同类型的网络中表现良好。在6个真实网络上的大量实验证明,FAGCN不仅缓解了过度平滑的问题,而且比最新的技术有优势
2. Introduction
- 研究低频和高频信号在gnn中的作用,并验证高频信号对于异配网络是有用的。
- 提出FAGCN,它可以在不知道网络类型的情况下自适应地改变低频和高频信号的比例。
- 理论分析FAGCN是大多数现有gnn的推广,它可以自由地缩短或扩大节点表示之间的距离。
- 做了6个真实网络的实验,FAGCN不仅缓解了over-smoothing的问题,而且比最新的技术有优势
低频和高频信号作用
一般来说,gnn通过聚合来自邻居的信息来更新节点表示,这可以看作是低通滤波器的特殊形式(Wu et al. 2019; Li et al. 2019)。低频信息,是GNN成功的关键。但是,低频信息都是有用的吗?其他信息有什么作用呢?
首先,gnn中的低通滤波器主要保留了节点特征的共性,不可避免地忽略了差异,使得学习到的连通节点表示变得相似。由于低频信息的平滑性,可以很好地用于同配网络(assortative networks),即相似节点倾向于相互连接。然而,现实世界的网络并不总是协调性的,但有时是非协调性的,即来自不同类别的节点往往会相互联系。这里的低频信息不足以支持这种网络中的推理。在这种情况下,高频信息,捕捉节点之间的差异,也许更合适。
其次,当我们总是使用低通滤波器时,节点表示将变得难以区分,导致过平滑。
以低频和高频信号为例,并通过实验来评估它们的作用。结果清楚地表明,它们都有助于学习节点表征。具体地说,我们发现当网络表现出异配性时,高频信号比低频信号表现得更好。这意味着高频信息并非总是无用的,低频信息也并非总是对复杂网络最优的。
一旦识别出gnn中低频信息的弱点,一个自然的问题就是如何在gnn中使用不同频率的信号,同时使gnn适用于不同类型的网络?
要回答这个问题,需要解决两个挑战:
- 低频和高频信号都是原始特征的部分。传统的滤波器是针对某一特定信号而设计的,不能很好地同时提取不同频率的信号。
- 即使我们可以提取不同的信息,但是现实世界网络的assortativity 通常是不可知的,变化很大,而且任务与不同信息之间的相关性非常复杂,所以很难决定应该使用哪种信号:原始特征,低频信号,高频信号或它们的组合。
FAGCN怎么设计
- 首先定义了一个增强的低通和高通滤波器,从原始特征中分离低频和高频信号。
- 然后设计一种自门机制(a self-gating mechanism),在不了解网络分类的情况下,自适应地整合低频信号、高频信号和原始特征。
3. An Experimental Investigation
inter-connection:一条边相连的两个节点属于不同类
disassortative graphs:异配图,相邻节点不属于同一类
为了使网络表现出不同的性质,将inter-connection的概率从0增大到0.10,另一个固定为0.5。
在inter-connection很低的时候(图的左侧),网络就会表现出同配性,这种情况下,low-frequency signals会表现得很好。但是随着inter-connection的增大,网络会越来越表现出异配性,这时候high-frequency signals表现更好。
- Low-frequency signals perform better on assortative graphs
- High-frequency signals perform better on disassortative graphs
所以可以得出结论,高、低频信号都有作用
具体怎么实现的?
逐步增加合成网络的异配性,并观察这两种信号的性能如何变化。我们生成一个有200个节点的网络,并将其随机分为2类。对于第一类节点,我们从高斯分布N(0.5,1)\mathcal{N}(0.5,1)N(0.5,1)中采样一个20维特征向量,而对于第二类节点,高斯分布N(−0.5,1)\mathcal{N}(-0.5,1)N(−0.5,1)。
此外,同一类的连接是由p=0.05p= 0.05p=0.05的伯努利分布产生的,两个类之间的连接的概率qqq在0.01到0.1之间。
为什么会出现这种情况?
现有的GNN聚合低频信息,但是在聚合低频信息的时候,不会去考虑节点(被聚合的)和自己是不是一类的,都要使表征变得相似,这样就会带来over-smooth
当网络失配时,高频信号的有效性就出现了,但如图1(a)所示,单个滤波器不能在所有情况下都达到最优结果。FAGCN聚合同类型的低频信号,使节点趋同,但又同时不同类型的高频信号,使节点变得不同,以取得比较好的效果
4. Model
4.1 filter定义
首先要做的工作就是寻找filter ,将高、低频的信息进行分离
基于图上的拉普拉斯矩阵设计了两个滤波器:
Low-pass Filter:
FL=εI+D−1/2AD−1/2=(ε+1)I−L\mathcal{F}_{L}=\varepsilon I+D^{-1 / 2} A D^{-1 / 2}=(\varepsilon+1) I-L FL=εI+D−1/2AD−1/2=(ε+1)I−L
High-pass Filter:
FH=εI−D−1/2AD−1/2=(ε−1)I+L\mathcal{F}_{H}=\varepsilon I-D^{-1 / 2} A D^{-1 / 2}=(\varepsilon-1) I+L FH=εI−D−1/2AD−1/2=(ε−1)I+L
对于信号xxx和fff:
f∗Gx=U((U⊤f)⊙(U⊤x))=UgθU⊤xf *_{G} x=U\left(\left(U^{\top} f\right) \odot\left(U^{\top} x\right)\right)=U g_{\theta} U^{\top} x f∗Gx=U((U⊤f)⊙(U⊤x))=UgθU⊤x
如果用FL\mathcal{F}_{L}FL和FH\mathcal{F}_{H}FH代替卷积核fff:
FL∗Gx=U[(ε+1)I−Λ]U⊤x=FL⋅xFH∗Gx=U[(ε−1)I+Λ]U⊤x=FH⋅x\begin{array}{l} \mathcal{F}_{L} *_{G} x=U[(\varepsilon+1) I-\Lambda] U^{\top} x=\mathcal{F}_{L} \cdot x \\ \mathcal{F}_{H} *_{G} x=U[(\varepsilon-1) I+\Lambda] U^{\top} x=\mathcal{F}_{H} \cdot x \end{array} FL∗Gx=U[(ε+1)I−Λ]U⊤x=FL⋅xFH∗Gx=U[(ε−1)I+Λ]U⊤x=FH⋅x
图2 滤波器的频率响应函数
原来GCN的卷积核gθ=I−Λg_{\theta}=I-\Lambdagθ=I−Λ,现在变为(ε+1)I−Λ(\varepsilon+1) I-\Lambda(ε+1)I−Λ,也可以写成gθ(λi)=ε+1−λig_{\theta}\left(\lambda_{i}\right)=\varepsilon+1-\lambda_{i}gθ(λi)=ε+1−λi,如图2(a),但是当λi>1+ε\lambda_{i}>1+\varepsilonλi>1+ε,gθ(λi)<0g_{\theta}\left(\lambda_{i}\right)<0gθ(λi)<0,出现 negative amplitude。
所以采用二阶的卷积核gθ(λi)=(ε+1−λi)2g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1-\lambda_{i})^2gθ(λi)=(ε+1−λi)2,在图2(b)中,λi=0,gθ(λi)=(ε+1)2>1\lambda_{i}= 0, g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1)^2>1λi=0,gθ(λi)=(ε+1)2>1,λi=2,gθ(λi)=(ε+1)2<1\lambda_{i}= 2, g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1)^2<1λi=2,gθ(λi)=(ε+1)2<1,在二阶的低通滤波器,对低频的信号有比较好的增益,同时对高频信号有比较好的抑制。高通滤波器相反。(思考2)
卷积低频信号FL⋅x\mathcal{F}_{L} \cdot xFL⋅x的具体含义是空间域内节点特征与邻域特征的和,而高频信号FH⋅x\mathcal{F}_{H} \cdot xFH⋅x代表空间域内节点特征与邻域特征的差异(解释在模型的αijG\alpha_{i j}^{G}αijG部分和最后距离分析)
4.2 Aggregation
图 3: compare the aggregation process of existing GNNs and FAGCN
左侧是传统的GAT,只需学习一个系数a12a_{12}a12,对整体的特征做一个聚合;而新模型会先用低通、高通滤波器把特征拆分成低频和高频信息,分别学习一个系数。
4.3 Problems of signal combination
上面是比较初步的版本,有一些缺点:
signal combination:
【论文笔记】Beyond Low-frequency Information in Graph Convolutional Networks相关推荐
- 论文笔记:Encoding Social Information with Graph Convolutional Networks forPolitical Perspective *****
Encoding Social Information with Graph Convolutional Networks for Political Perspective Detection in ...
- 论文笔记:AAAI 2021 Beyond Low-frequency Information in Graph Convolutional Networks
前言 现有的大部分 GNN 方法集中于对图数据中的低频信息进行处理,这也产生了一个问题:真实世界中我们需要的仅仅是图中的低频信息吗? 作者在本文中进行了实验说明了在不同的条件下仅使用低频信息是有局限性 ...
- 论文笔记 Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
一.动机 为了抽取文档级别的关系,许多方法使用远程监督(distant supervision )自动地生成文档级别的语料,从而用来训练关系抽取模型.最近也有很多多实例学习(multi-instanc ...
- FastGCN: fast learning with graph convolutional networks via importance sampling 论文详解 ICLR 2018
文章目录 1 简单介绍 概率测度 probability measure 自助法 bootstrapping GCN面临的两个挑战 解决思路(创新点) 2 相关工作 3 通过采样进行训练和推理 定理1 ...
- AI医药论文解读:Modeling Polypharmacy Side Effects with Graph Convolutional Networks
论文题目 Modeling Polypharmacy Side Effects with Graph Convolutional Networks 中文 使用图卷积网络对多药副作用进行建模 论文出自 ...
- 【论文解读 ESWC 2018 | R-GCN】Modeling Relational Data with Graph Convolutional Networks
论文题目:Modeling Relational Data with Graph Convolutional Networks 论文来源:ESWC 2018 论文链接:https://arxiv.or ...
- 论文笔记:HIE-SQL:History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing
论文笔记:HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsin ...
- Re2:读论文 CS-GNN Measuring and Improving the Use of Graph Information in Graph Neural Networks
诸神缄默不语-个人CSDN博文目录 论文下载地址:https://openreview.net/attachment?id=rkeIIkHKvS&name=original_pdf 代码:yi ...
- 论文笔记:ICML 2019 Simplifying Graph Convolutional Networks
前言 随着2017年GCN概念的提出,近年来越来越多的GCN方法被提出.由于GCN本身的提出来源于深度学习中CNN和RNN的概念,因此可能会继承其中一些不必要的复杂度和冗余计算,本文提出了一种简化的图 ...
最新文章
- 西文是指什么_中西文化的关键性差别
- 下一个嵌入式大神,难道不是你吗?
- 清华计算机考研笔记,[考研天地]清华计算机,电子,自动化全套考研资料
- at命令不生效 linux_【干货】你不知道的 Linux 命令使用技巧
- fortinate防火墙使用本地用户三步开通PPTP ***
- 跨平台、多浏览器页面测试
- 【网站建设】简单一行代码,为网站开启深色模式支持
- SDUT 1291数据结构上机测试4.1:二叉树的遍历与应用1
- mysql 1130本地连接_mysql ERROR 1130 问题解决方案
- 数组累加兼eval性能测试
- 微信小程序的获取openid的坑
- 《动手学深度学习》资料汇总+网站推荐
- windows开启远程桌面
- 程序员如何写简历?程序员写出牛逼简历的5大技巧
- 上传txt文件乱码问题
- Elasticsearch:Standard Text Analyzer - 标准文本分析器
- python实现秒表计时器
- matlab积分泛函,泛函积分的数学方法概观.pdf
- llama是什么动物_河字猜一动物
- PCI、PCIE、NVME;ATA、SATA、AHCI及M.2接口简单辨别
热门文章
- [傅里叶变换及其应用学习笔记] 十. 卷积与中心极限定理
- Ubuntu 下 libev编译安装
- 算法导论 CLRS 23.3 解答 (未完成)
- mysql数据库修改排序规则
- nodeJS学习(9)--- nodeJS模块:exports vs module.exports
- A Byte of Python 笔记(12)python 标准库:sys、os,更多内容
- 第三篇:白话tornado源码之请求来了
- 不肯去幼儿园的小盆友
- 【实习之T100开发】T100 Q查询开发流程
- 女友晚安之后依然在线:python男友用20行代码写了个小工具