【论文笔记】Beyond Low-frequency Information in Graph Convolutional Networks

文章目录

1. Abstract
2. Introduction
- 低频和高频信号作用
- FAGCN怎么设计
3. An Experimental Investigation
4. Model
- 4.1 filter定义
- 4.2 Aggregation
- 4.3 Problems of signal combination
- 4.4 Spatial vision of FAGCN
- 4.5 系数αijG\alpha_{i j}^{G}αijG
- 4.6 模型整体框架
- FAGCN的表达能力
实验

本文发表在AAAI-21上
论文地址：https://arxiv.org/abs/2101.00797
github：https://github.com/bdy9527/FAGCN

1. Abstract

大多数现有的GNNS 通常利用节点特征的低频信号，这就产生了一个基本的问题：在现实世界的应用中，低频信息都是需要的吗？我们首先进行了一项实验研究，评估了低频信号和高频信号的作用，结果清楚地表明，仅使用低频信号不能在不同的网络中学到有效的节点表示。

我们如何在gnn中自适应地学习更多的低频信息？我们提出了一种具有自门机制的频率自适应图卷积网络(Frequency Adaptation Graph Convolutional Network，FAGCN)，该网络可以在消息传递过程中自适应地集成不同的信号。

为了更深入的理解，我们从理论上分析了低频信号和高频信号在学习节点表示中的作用，这进一步解释了为什么FAGCN可以在不同类型的网络中表现良好。在6个真实网络上的大量实验证明，FAGCN不仅缓解了过度平滑的问题，而且比最新的技术有优势

2. Introduction

研究低频和高频信号在gnn中的作用，并验证高频信号对于异配网络是有用的。
提出FAGCN，它可以在不知道网络类型的情况下自适应地改变低频和高频信号的比例。
理论分析FAGCN是大多数现有gnn的推广，它可以自由地缩短或扩大节点表示之间的距离。
做了6个真实网络的实验，FAGCN不仅缓解了over-smoothing的问题，而且比最新的技术有优势

低频和高频信号作用

一般来说，gnn通过聚合来自邻居的信息来更新节点表示，这可以看作是低通滤波器的特殊形式(Wu et al. 2019; Li et al. 2019)。低频信息，是GNN成功的关键。但是，低频信息都是有用的吗？其他信息有什么作用呢？

首先，gnn中的低通滤波器主要保留了节点特征的共性，不可避免地忽略了差异，使得学习到的连通节点表示变得相似。由于低频信息的平滑性，可以很好地用于同配网络（assortative networks），即相似节点倾向于相互连接。然而，现实世界的网络并不总是协调性的，但有时是非协调性的，即来自不同类别的节点往往会相互联系。这里的低频信息不足以支持这种网络中的推理。在这种情况下，高频信息，捕捉节点之间的差异，也许更合适。

其次，当我们总是使用低通滤波器时，节点表示将变得难以区分，导致过平滑。

以低频和高频信号为例，并通过实验来评估它们的作用。结果清楚地表明，它们都有助于学习节点表征。具体地说，我们发现当网络表现出异配性时，高频信号比低频信号表现得更好。这意味着高频信息并非总是无用的，低频信息也并非总是对复杂网络最优的。

一旦识别出gnn中低频信息的弱点，一个自然的问题就是如何在gnn中使用不同频率的信号，同时使gnn适用于不同类型的网络?

要回答这个问题，需要解决两个挑战:

低频和高频信号都是原始特征的部分。传统的滤波器是针对某一特定信号而设计的，不能很好地同时提取不同频率的信号。
即使我们可以提取不同的信息，但是现实世界网络的assortativity 通常是不可知的，变化很大，而且任务与不同信息之间的相关性非常复杂，所以很难决定应该使用哪种信号：原始特征，低频信号，高频信号或它们的组合。

FAGCN怎么设计

首先定义了一个增强的低通和高通滤波器，从原始特征中分离低频和高频信号。
然后设计一种自门机制（a self-gating mechanism），在不了解网络分类的情况下，自适应地整合低频信号、高频信号和原始特征。

3. An Experimental Investigation

inter-connection：一条边相连的两个节点属于不同类
disassortative graphs：异配图，相邻节点不属于同一类

为了使网络表现出不同的性质，将inter-connection的概率从0增大到0.10，另一个固定为0.5。
在inter-connection很低的时候（图的左侧），网络就会表现出同配性，这种情况下，low-frequency signals会表现得很好。但是随着inter-connection的增大，网络会越来越表现出异配性，这时候high-frequency signals表现更好。

Low-frequency signals perform better on assortative graphs
High-frequency signals perform better on disassortative graphs

所以可以得出结论，高、低频信号都有作用

具体怎么实现的？

逐步增加合成网络的异配性，并观察这两种信号的性能如何变化。我们生成一个有200个节点的网络，并将其随机分为2类。对于第一类节点，我们从高斯分布N(0.5,1)\mathcal{N}(0.5,1)N(0.5,1)中采样一个20维特征向量，而对于第二类节点，高斯分布N(−0.5,1)\mathcal{N}(-0.5,1)N(−0.5,1)。

此外，同一类的连接是由p=0.05p= 0.05p=0.05的伯努利分布产生的，两个类之间的连接的概率qqq在0.01到0.1之间。

为什么会出现这种情况？

现有的GNN聚合低频信息，但是在聚合低频信息的时候，不会去考虑节点（被聚合的）和自己是不是一类的，都要使表征变得相似，这样就会带来over-smooth

当网络失配时，高频信号的有效性就出现了，但如图1(a)所示，单个滤波器不能在所有情况下都达到最优结果。FAGCN聚合同类型的低频信号，使节点趋同，但又同时不同类型的高频信号，使节点变得不同，以取得比较好的效果

4. Model

4.1 filter定义

首先要做的工作就是寻找filter ，将高、低频的信息进行分离

基于图上的拉普拉斯矩阵设计了两个滤波器：

Low-pass Filter：
FL=εI+D−1/2AD−1/2=(ε+1)I−L\mathcal{F}_{L}=\varepsilon I+D^{-1 / 2} A D^{-1 / 2}=(\varepsilon+1) I-L FL=εI+D−1/2AD−1/2=(ε+1)I−L
High-pass Filter：
FH=εI−D−1/2AD−1/2=(ε−1)I+L\mathcal{F}_{H}=\varepsilon I-D^{-1 / 2} A D^{-1 / 2}=(\varepsilon-1) I+L FH=εI−D−1/2AD−1/2=(ε−1)I+L

对于信号xxx和fff：
f∗Gx=U((U⊤f)⊙(U⊤x))=UgθU⊤xf *_{G} x=U\left(\left(U^{\top} f\right) \odot\left(U^{\top} x\right)\right)=U g_{\theta} U^{\top} x f∗Gx=U((U⊤f)⊙(U⊤x))=UgθU⊤x
如果用FL\mathcal{F}_{L}FL和FH\mathcal{F}_{H}FH代替卷积核fff：
FL∗Gx=U[(ε+1)I−Λ]U⊤x=FL⋅xFH∗Gx=U[(ε−1)I+Λ]U⊤x=FH⋅x\begin{array}{l} \mathcal{F}_{L} *_{G} x=U[(\varepsilon+1) I-\Lambda] U^{\top} x=\mathcal{F}_{L} \cdot x \\ \mathcal{F}_{H} *_{G} x=U[(\varepsilon-1) I+\Lambda] U^{\top} x=\mathcal{F}_{H} \cdot x \end{array} FL∗Gx=U[(ε+1)I−Λ]U⊤x=FL⋅xFH∗Gx=U[(ε−1)I+Λ]U⊤x=FH⋅x

图2 滤波器的频率响应函数

原来GCN的卷积核gθ=I−Λg_{\theta}=I-\Lambdagθ=I−Λ，现在变为(ε+1)I−Λ(\varepsilon+1) I-\Lambda(ε+1)I−Λ，也可以写成gθ(λi)=ε+1−λig_{\theta}\left(\lambda_{i}\right)=\varepsilon+1-\lambda_{i}gθ(λi)=ε+1−λi，如图2(a)，但是当λi>1+ε\lambda_{i}>1+\varepsilonλi>1+ε，gθ(λi)<0g_{\theta}\left(\lambda_{i}\right)<0gθ(λi)<0，出现 negative amplitude。

所以采用二阶的卷积核gθ(λi)=(ε+1−λi)2g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1-\lambda_{i})^2gθ(λi)=(ε+1−λi)2，在图2(b)中，λi=0,gθ(λi)=(ε+1)2>1\lambda_{i}= 0, g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1)^2>1λi=0,gθ(λi)=(ε+1)2>1，λi=2,gθ(λi)=(ε+1)2<1\lambda_{i}= 2, g_{\theta}\left(\lambda_{i}\right)=(\varepsilon+1)^2<1λi=2,gθ(λi)=(ε+1)2<1，在二阶的低通滤波器，对低频的信号有比较好的增益，同时对高频信号有比较好的抑制。高通滤波器相反。（思考2）

卷积低频信号FL⋅x\mathcal{F}_{L} \cdot xFL⋅x的具体含义是空间域内节点特征与邻域特征的和，而高频信号FH⋅x\mathcal{F}_{H} \cdot xFH⋅x代表空间域内节点特征与邻域特征的差异（解释在模型的αijG\alpha_{i j}^{G}αijG部分和最后距离分析）

4.2 Aggregation

图 3: compare the aggregation process of existing GNNs and FAGCN

左侧是传统的GAT，只需学习一个系数a12a_{12}a12，对整体的特征做一个聚合；而新模型会先用低通、高通滤波器把特征拆分成低频和高频信息，分别学习一个系数。

4.3 Problems of signal combination

上面是比较初步的版本，有一些缺点：

signal combination：