论文题目：Heterogeneous Graph Transformer

论文来源：WWW 2020

论文链接：https://arxiv.org/abs/2003.01332

代码链接：https://github.com/acbull/pyHGT

关键字：GNN，HIN，表示学习，图嵌入，Graph Attention，动态图

文章目录

摘要
一、介绍
二、前期及相关工作
- 2.1 异构图挖掘
- 2.2 图神经网络
- 2.3 异构GNNS
三 HETEROGENEOUS GRAPH TRANSFORMER
- 3.1 Overall HGT Architecture（整体架构）
- 3.2 Heterogeneous Mutual Attention（异构相互关注）
- 3.3 Heterogeneous Message Passing(异构消息传递)
- 3.4 Target-Specific Aggregation(特定目标聚合)
- 3.5 Relative Temporal Encoding（相对时间编码）
四 WEB-SCALE HGT TRAINING
- 4.1 HGSampling（异构图采样算法）
- 4.2 Inductive Timestamp Assignment（）
5 评估
- 5.1 Web-Scale Datasets
- 5.2 Case Study
- 5.3 Visualize Meta Relation Attention
6 总结

摘要

近年来，图神经网络(gnn)在结构化数据建模方面取得了巨大的成功。然而，大多数gnn是为同构图设计的，其中所有的节点和边都属于同一类型，这使得它们无法表示异构结构。在本文中，我们提出了异构图转换器(HGT)体系结构来建模web规模的异构图。为了建模异构性，我们设计了节点和边类型相关的参数来表征每条边上的异构注意力，使HGT能够对不同类型的节点和边保持专门的表示。为了处理动态异构图，在HGT中引入了相对时间编码技术，能够捕获任意持续时间的动态结构依赖关系。为了处理网络规模的图数据，我们设计了异构小批量图采样算法——hgsampling，以实现高效和可扩展的训练。在开放学术图(Open Academic Graph)上的1.79亿个节点和20亿个边的大量实验表明，在各种下游任务上，所提出的HGT模型始终比所有最先进的GNN基线性能好9%-21%。HGT的数据集和源代码可在https://github.com/acbull/pyHGT公开获得。

一、介绍

如上图所示，本文意在建立一种不用特意设置异构图的模型。
异构图通常用于对包含不同类型对象和不同交互的多行为复杂系统进行抽象和建模，这类系统的一些常见实例包括学术图、Facebook实体图、LinkedIn经济图，以及广泛的物联网网络。例如，图1中的Open Academic Graph (OAG)包含五种类型的节点:论文、作者、机构、地点(期刊、会议或预印)和领域，以及它们之间的不同类型的关系。
在过去的十年中，对挖掘异构图[17]进行了一系列重要的研究。一个经典的范例是定义和使用元路径来建模异构结构。最近，鉴于图神经网络(gnn)的成功，有几次尝试采用gnn在异构网络中学习。然而，这些工作面临着几个问题:首先，它们大多涉及到为每种类型的异构图设计元路径，需要特定的领域知识;其次，它们要么简单地假设不同类型的节点/边共享相同的特征和表示空间，要么单独对节点类型或边类型保持不同的非共享权值，从而不足以捕获异构图的属性;第三，它们大多数忽略了每个(异构)图的动态特性;最后，它们内在的设计和实现使得它们无法对web规模的异构图进行建模。
以OAG为例:首先，OAG中的节点和边可能具有不同的特征分布，如论文具有文本特征，而机构可能具有隶属学者的特征，合作作者与引文链接存在明显差异;第二，OAG一直在不断发展，例如，1)出版量每12年翻一番[4]，2)KDD会议在20世纪90年代更多地与数据库相关，而在最近几年更多地与机器学习相关;最后，OAG包含数亿个节点和数十亿的关系，使得现有的异构gnn无法扩展处理它。
鉴于这些限制和挑战，我们提出研究异构图神经网络的目标是维护节点和边缘类型相关的表示，捕捉网络动态，避免定制的元路径，并可扩展到web规模的图。在这项工作中，我们提出了异构图转换器(HGT)体系结构来处理所有这些问题。
为了处理图的异构性，我们引入了依赖节点和边缘类型的注意机制。HGT中的异构相互关注不是参数化每一种类型的边，而是通过基于其元关系三元组分解每条边e = (s, t)来定义（s,t为节点，e为二者交互的边）。图1说明了异构学术图的元关系。具体来说，我们使用这些元关系来参数化权重矩阵，以计算每条边上的注意力。因此，允许不同类型的节点和边保持其特定的表示空间。同时，不同类型的连接节点仍然可以交互、传递和聚合消息，而不受其分布间隔的限制。由于其体系结构的性质，HGT可以通过消息跨层传递来合并来自不同类型的高阶邻居的信息，这可以被视为“软”元路径。也就是说，即使HGT只以其单跳边作为输入，而没有人工设计元路径，所提出的注意机制也可以自动、隐式地学习和提取对不同下游任务重要的“元路径”。
为了处理动态图，我们提出了相对时间编码(RTE)策略来增强HGT。我们没有将输入图切片到不同的时间戳中，而是建议将发生在不同时间的所有边作为一个整体来维护，并设计RTE策略来建模具有任何持续时间长度的结构性时态依赖关系，甚至使用不可见的和未来的时间戳。通过端到端训练，RTE使HGT能够自动学习异构图的时间依赖性和演化。
为了处理网络规模的图数据，我们设计了第一个异构子图采样算法——hgsampling——用于小批量GNN训练。其主要思想是对不同类型节点比例相似的异构子图进行采样，因为直接使用现有的(同质)GNN采样方法，如GraphSage[7]、FastGCN[1]、LADIES[29]等，会导致节点类型和边类型高度不平衡。此外，还设计了保持采样子图密集的方法，以最大限度地减少信息的丢失。使用HGSampling，所有的GNN模型，包括我们提出的HGT，都可以在任意大小的异构图上进行训练和推断。

二、前期及相关工作

在本节中，我们将介绍具有动态网络的异构图的基本定义，并回顾图神经网络(gnn)及其异构变体的最新发展。我们还强调了HGT与异构图神经网络现有尝试的区别。

2.1 异构图挖掘

异构图是对现实世界中许多复杂系统的关系数据建模的重要抽象。它的正式定义为：有向图G = (V, E, A, R)，其中每个节点V∈V，每个边E∈E分别与其类型映射函数τ (V): V→A和ϕ(E): E→R相关联。（V为点集，E为边集，A为属性集，R为关系集）
元关系。对于从源节点s链接到目标节点t的边e = (s, t)，其元关系表示为<τ (s)， ϕ(e)，τ (t)>(T(s)是s对应的属性，ϕ(e)是e对应的关系，T(t)是t对应的属性)。经典的元路径范式被定义为这种元关系的序列。注意，为了更好地模拟真实世界的异构网络，我们假设在不同类型的节点之间可能存在多种类型的关系。例如，在OAG中，通过考虑作者顺序，即“第一作者”、“第二作者”等，作者和论文节点之间存在不同类型的关系。
动态图建模：为了对真实世界(异构)图的动态特性建模，当节点s在T时刻连接到节点t，我们给一条边e = (s, t)分配一个时间戳T。如果s第一次出现，T也被分配给s。如果s在一段时间内构建连接，那么它可以与多个时间戳相关联。例如，当一篇论文在时间T的会议上发表时，T将被分配到该论文与会议节点之间的边。相反，可以相应地为节点分配不同的时间戳。例如，会议节点“WWW”可以在任何一年分配。WWW @1994意味着我们正在考虑WWW的第一版，它更侧重于互联网协议和Web基础设施，而WWW @2020意味着即将到来的WWW，它将其研究主题扩展到社会分析、无处不在计算、搜索与IR、隐私与社会等。
在异构图挖掘方面已经有了大量的研究，如节点分类、聚类、排序、表示学习等，而对HGs的动态视角尚未进行广泛的探索和研究。

2.2 图神经网络

近年来，图神经网络在关系数据方面取得了成功。一般来说，一个GNN可以被认为是使用输入图结构作为计算图传递消息，在此期间聚合局部邻域信息以获得更上下文化的表示。形式上，一般GNN框架有以下结构:

其中N (t)表示节点t的所有源节点，E(s, t)表示节点s到t的所有边。
最重要的GNN运算符是提取(·)和聚合(·)。Extract(·)表示邻居信息提取器。它以目标节点的表示Hl−1[t]和两个节点之间的边e作为查询，从源节点的表示Hl−1[s]中提取有用信息。Aggregate(·)通过mean、sum、max等聚合算子收集源节点的邻域信息，同时还可以设计更复杂的pooling和归一化函数。
各种(同构的)GNN架构已经被提出遵循这个框架。Kipf等[9]提出了图卷积网络(graph convolutional network, GCN)，该网络对图中每个节点的一跳邻居进行平均，然后进行线性投影和非线性激活操作。Hamilton等人提出了GraphSAGE，将GCN的聚合操作从平均值推广到sum、max和一个RNN单元。Velickovi等人将注意机制引入到gnn中，提出了图注意网络(GAT)[22]，使GAT能够对同一邻域内的节点赋予不同的重要性。

2.3 异构GNNS

近年来，研究人员试图将gnn扩展到异构图的建模中。Schlichtkrull等人[14]提出了关系图卷积网络(RGCN)来建模知识图。RGCN为每一种边缘类型保持一个独特的线性投影权值。Zhang et al.[27]提出了异构图神经网络(HetGNN)，该网络针对不同的节点类型采用不同的神经网络来集成多模态特征。Wang et al.[23]通过对不同的元路径定义边保持不同的权值来扩展图注意网络。它们还使用高级语义注意来区分和聚合来自不同元路径的信息。
虽然这些方法在经验上比普通的GCN和GAT模型更好，但它们没有充分利用异构图的特性。它们都只使用节点类型或边类型来确定GNN权值矩阵。但是，不同类型的节点或边的数量可能会有很大的差异。对于没有足够出现次数的关系，很难学习精确的特定关系权重。为了解决这个问题，我们建议考虑参数共享以获得更好的泛化。给定边缘e = (s, t)其元关系为<τ (s)， ϕ(e)，τ (t)⟩，如果我们使用三个交互矩阵对元关系中的三个对应元素τ (s)、ϕ(e)和τ (t)建模，则可以共享大部分权重。例如，在“第一作者”和“第二作者”关系中，它们的源节点和目标节点类型都分别是论文的作者。换句话说,从一个关系中学习到的关于作者和论文的知识可以很快地转移到另一个关系中。因此，我们将此思想与强大的类似变压器的注意力架构相结合，提出了异构图转换器。综上所述，HGT与现有尝试的主要区别包括:
(1)我们没有单独处理节点或边缘类型，而是使用元关系<τ (s)， ϕ(e)，τ (t)⟩来分解交互并转换矩阵，使HGT能够使用相同或更少的参数捕获不同关系的公共和特定模式。(2)与现有的大多数基于自定义元路径的研究不同，我们依靠神经体系结构的本质来整合高阶异构邻居信息，从而自动学习隐式元路径的重要性。(3)以往的研究大多没有考虑到(异构)图的动态特性，我们提出了相对时间编码技术，利用有限的计算资源整合时间信息。(4)现有的异构gnn都不是为web规模图设计和实验的，因此我们提出了为web规模图训练而设计的异构的Mini-Batch图采样算法，可以在10亿规模的开放学术图上进行实验。

三 HETEROGENEOUS GRAPH TRANSFORMER

3.1 Overall HGT Architecture（整体架构）

在本节中，我们将介绍异构图转换器(HGT)。其思想是利用异构图的元关系对异构相互关注、消息传递和传播步骤的权重矩阵进行参数化。为了进一步整合网络动态，我们在模型中引入了一种相对时间编码机制。

图2:异构图转换器的总体架构：给定一个目标节点为t的采样子图,s1和s2作为源节点,边e1 = (s1, t) & e2 = (s2, t)和相应的元关系<τ(s1),ϕ(e1),τ(t) >和<τ(s2),ϕ(e2),τ(t) >作为输入为每个结点学习H(l)的情景化表示,可用于下游任务。颜色用来解码节点类型。HGT包括三个组件:(1)元关系感知的异构相互关注，(2)源节点的异构消息传递，(3)目标特定的异构消息聚合。
图2显示了HGT的总体架构。HGT提取所有链接的节点对,目标节点t是由通过边e与源节点s进行链接。HGT的目标是从源节点聚合信息得到更符合实际的目标节点表示t。这种过程可以分解为三个部分：异构相互关注、异构消息传递和目标特定聚合（Heterogeneous Mutual Attention, Heterogeneous Mes-
sage Passing and Target-Specific Aggregation）。
我们将HGT第l层的输出表示为H (l)，它也是(l+1)层的输入。通过叠加L层，我们可以得到整个图H (L)的节点表示，它可以用于端到端训练，也可以反馈给下游任务。

3.2 Heterogeneous Mutual Attention（异构相互关注）

第一步是计算源节点s和目标节点t之间的相互注意。我们首先对一般的基于注意的gnn进行简要介绍，如下:

其中有三个基本运算符:Attention，它估计每个源节点的重要性;Message，仅使用源节点提取消息;和Aggregate，根据注意权重对邻居消息进行聚合。
Graph Attention Network (GAT)[22]采用了一种附加机制(如Attention)，使用相同的权重来计算Message，并为Aggregate步骤利用简单平均值后的非线性激活。在形式上,都有

虽然GAT对重要节点给予较高的关注值是有效的，但它通过使用一个权重矩阵w假设s和t具有相同的特征分布。正如我们在第1节中讨论的那样，这种假设对于异构图通常是不正确的，因为在异构图中，每种类型的节点都可以有自己的特征分布。
针对这一局限性，我们设计了异构互注意机制。给定一个目标节点t，它的所有邻居s∈N (t)，可能属于不同的分布，我们希望根据它们的元关系<τ (s)， ϕ(e)，τ (t)>三元组计算它们的相互关注。
受Transformer架构设计的启发，我们将目标节点t映射为一个Query向量，将源节点s映射为一个Key向量，并计算它们的点积作为注意力。关键的区别在于，普通的Transformer对所有单词使用一组投影，而在我们的例子中，每个元关系应该有一组不同的投影权重。为了最大化参数共享，同时保持不同关系的特定特征，我们提出将交互算子的权矩阵（w）参数化为源节点投影、边投影和目标节点投影。具体来说，我们给每条边e = (s, t)的计算h-head注意(见图2(1)):

首先,对于第i个注意头ATT -headi (s、e、t),我们把τ(s)源节点用一个线性投影K-Lineariτ(s)投影成关键向量Ki (s):其中，Rd→R d /h, h是注意头的数量和d/h是向量维度。注意，K-Lineari τ (s)由源节点s的类型τ (s)索引，这意味着每一种类型的节点都有一个唯一的线性投影，以最大限度地模拟分布差异。类似地，我们也用线性投影Q-Lineari τ (t)将目标节点t投影到第i 个查询向量中。
其次,我们需要计算查询向量Qi (t)和关键向量Ki (s)之间的相似度，异构图的一个独特特征是节点类型对之间可能存在不同的边类型(关系)，如τ (s)和τ (t)，因此，与直接计算Query和Key向量之间的点积的普通Transformer不同，对于每个边缘类型φ (e)，我们保持不同的边缘矩阵W^ATT ∈R^d/h*d/h。在这样做的时候，甚至在两者相同的节点类型之间，模型也可以捕获不同的语义关系，。此外，由于不是所有的关系对目标节点的贡献都相等，我们添加一个先验张量µ∈R^|a |*| R| *| a |^来表示每个元关系三元组的一般意义，作为对注意的自适应标度。
最后，将h个注意头串接在一起，得到每个节点对的注意向量。然后，对于每个目标节点t，从其相邻节点N (t)中收集所有注意向量，进行softmax处理，使其满足∀s∈N (t) AttentionH GT (s, e, t) = 1h×1。(即向量序列之和为1)

3.3 Heterogeneous Message Passing(异构消息传递)

在计算相互注意的同时，我们将信息从源节点传递到目标节点(见图2(2))。与注意过程类似，我们希望将边的元关系加入到消息传递过程中，以缓解不同类型节点和边的分布差异。对于一对节点e = (s, t)，我们通过以下方法计算其多头消息:

为了得到第i个消息头MSG-headi (s, e, t)，我们首先将τ (s)型源节点s通过M-Linear _τ(s) 线性投影投影到第i个消息矢量中:R^d→R^d\h。然后是矩阵W ^MSG _φ(e)∈R ^d\h*d\h，用于合并边缘依赖关系。最后一步是连接所有h消息头，以获得每个节点对的Message^HGT(s, e, t)。

3.4 Target-Specific Aggregation(特定目标聚合)

计算了异构的多头注意和消息后，我们需要将它们从源节点聚合到目标节点(参见图2(3))。注意式3中的softmax过程使每个目标节点t的注意向量之和为1，因此，我们可以简单地将注意向量作为权值，对源节点对应的消息进行平均，得到更新后的向量H (l)[t]为:

这将不同特征分布的所有邻居(源节点)的信息聚合到目标节点t。
最后一步是将目标节点t的向量映射回其类型特定的分布，并以其节点类型τ (t)为索引，为此，我们对更新后的向量H (l)[t]应用线性投影A - linearτ (t)，然后残差连接为:

通过这种方式,我们为每个目标节点t得到了HGT第L层的输出H^(l)。由于现实世界的“小世界”特性图,叠加HGT块l层(l是一个小值)可以使到大部分节点均具有不同的类型和关系图。即HGT为每个节点生成高度情景化表示的H (L)，可以将其输入到任何模型中，进行下游的异构网络任务，如节点分类和链路预测。
通过整个模型架构，我们高度依赖于使用元关系- <τ (s)， ϕ(e)，τ (t)>-分别参数化权重矩阵。这可以解释为模型容量和效率之间的权衡。与传统的Transformer相比，我们的模型区分了不同关系的运算符，因此更能处理异构图中的分布差异。相比于现有模型对每个元关系保持一个单独的矩阵作为一个整体，HGT的三元组参数化可以更好地利用异构图模式实现参数共享。这种参数共享一方面可以使出现次数少的关系得到快速适应和泛化;另一方面，不同关系的运算符仍然可以通过使用一个小得多的参数集来保持其特定的特征。

3.5 Relative Temporal Encoding（相对时间编码）

到目前为止，我们提出了一种用于异构图建模的图神经网络hgt。接下来，我们引入了相对时间编码(RTE)技术来实现图形的动态处理。整合时间信息的传统方法是为每个时隙构造一个单独的图。然而，这样的过程可能会在不同的时隙中失去很大一部分的结构依赖关系。同时，节点在t时刻的表示可能依赖于发生在其他时隙的边。因此，对动态图建模的一种正确方法是维护所有发生在不同时间的边，并允许具有不同时间戳的节点和边相互交互。

基于此，我们提出了相对时间编码(RTE)机制来建模异构图中的动态依赖关系。RTE的灵感来自Transformer的位置编码方法，该方法成功地捕获了长文本中单词的顺序依赖关系。具体来说，给定源节点s和目标节点t，以及它们对应的时间戳T(s)和T(t)，我们将相对时间间隔∆T(t, s) = T(t)−T(s)作为指标，得到相对时间编码RT E(∆T(t, s))。注意到数据集不会覆盖所有可能的时间间隔，因此RTE应该能够推广到看不见的时间和时间间隔。因此，我们采用一组固定的正弦函数作为基，用一个可调的线性投影T-Linear: Rd→Rd作为RT E:

最后，将相对于目标节点t的时间编码添加到源节点s的表示中，如下所示:

这样，时间扩充表示H (l−1)将捕获源节点s和目标节点t的相对时间信息，RTE过程如图3所示。

四 WEB-SCALE HGT TRAINING

在本节中，我们介绍了HGT的策略，以训练具有动态信息的Webscale异构图，包括一种高效的异构小批量图采样算法——hgsampling——和一种归纳的时间戳分配方法

4.1 HGSampling（异构图采样算法）

全批处理GNN[9]训练需要计算每一层的所有节点表示，这使得它不适合web规模的图。为了解决这个问题，人们提出了不同的基于采样的方法，在节点的子集上训练gnn。但是，直接将它们用于异构图，由于不同类型节点的度分布和节点总数会有很大的差异，容易导致不同类型节点的子图非常不均衡。
为了解决这一问题，我们提出了一种高效的异构小批量图采样算法——hgsampling——使HGT和传统的gnn都能够处理web规模的异构图。HGSampling能够1)保持每一种类型的节点和边的数量相似，2)保持采样后的子图稠密，以最小化信息丢失，减少样本方差。
算法1概述了HGSampling算法。其基本思想是为每个节点类型τ保持一个独立的节点预算B[τ]，并使用重要抽样策略对每种类型的节点进行相同数量的抽样，以减少方差。给定已抽样的节点t，我们用算法2将其所有的直接邻居加到相应的预算中，并在第8行将t的归一化度加到这些邻居中，然后计算抽样概率。这种归一化相当于将每个采样节点的随机漫步概率累加到其邻域，避免采样被高阶节点主导。直观地说，该值越高，候选节点与当前采样节点的相关性就越大，因此被采样的概率就应该越高。

在更新预算之后，我们在算法1第9行中计算采样概率，其中我们计算每个预算中每个节点的累积归一化度的平方。如[29]中所证明的，利用这种抽样概率可以减小抽样方差。然后，我们通过使用计算出的概率对类型τ中的n个节点进行采样，将它们添加到输出节点集，将其邻域更新到预算中，并在第12-15行中将其从预算中移除。重复此过程L次，从初始节点得到一个深度为L的采样子图。最后，我们重构采样节点之间的邻接矩阵。通过使用上述算法，采样后的子图每个类型包含的节点数量相似(基于单独的节点预算)，且足够稠密以降低采样方差(基于归一化度和重要度采样)，适合于web规模异构图上的gnn训练。

4.2 Inductive Timestamp Assignment（）

到目前为止，我们假设每个节点t都被分配了一个时间戳t (t)。然而，在现实世界的异构图中，许多节点并没有与固定的时间相关联。因此，我们需要为它分配不同的时间戳。我们将这些节点表示为普通节点。例如，1974年和2019年的WWW大会，这两年的WWW节点有着截然不同的研究主题。因此，我们需要决定将哪个时间戳附加到WWW节点上。

在异构图中也存在具有显式时间戳的事件节点。例如，论文节点应该与其发布行为相关联，因此附加到其发布日期。

我们提出了一个归纳时间戳分配算法来分配时间戳基于事件节点他们被链接。算法如算法2第6行所示。其思想是，计划节点从事件节点继承时间戳。我们检查候选源节点是否为事件节点。如果是，就像在特定年份发表的一篇论文一样，我们保留它的时间戳来捕捉时间相关性。如果没有，就像一个可以与任何时间戳相关联的会议一样，我们归纳地分配相关节点的时间戳，例如其论文发表的年份到这个普通节点。通过这种方法，我们可以在子图采样过程中自适应地分配时间戳。

5 评估

在本节中，我们在三个异构的学术图数据集上评估提出的异构图转换器。我们进行论文领域预测、论文场景预测和作者消歧任务。我们还通过案例研究来演示HGT如何自动学习和提取对下游任务很重要的元路径。

5.1 Web-Scale Datasets

为了检验所提出模型及其现实应用的性能，我们使用开放学术图(Open Academic Graph, OAG)[16,20,28]作为实验基础。OAG由超过1.78亿节点和22.36亿边组成——最大的公开可用的异构学术数据集。此外，OAG中的所有论文都与它们的出版日期相关联，从1900年到2019年。为了检验所提模型的泛化性，我们也从OAG中构造了两个领域特定的子图:计算机科学(CS)和医学(Med)学术图。图统计如表1所示，其中P-A、P-F、P-V、A-I、P-P分别表示论文与作者、论文与领域、论文与地点、作者与研究所之间的边数，以及两篇论文之间的引文链接数。

CS图和Med图都包含数千万个节点和数亿条边，这使得它们至少比其他CS(如DBLP)和Med(如Pubmed)学术数据集大一个数级，这些数据集通常用于现有的异构GNN和异构图挖掘研究。此外，使用的三种数据集比之前广泛采用的GNN研究中使用的小型引用图更容易区分，例如Cora、Citeseer和Pubmed[9,22]，它们只包含数千个节点。共有5种节点类型:“Paper”、“Author”、“Field”、“Venue”和“Institute”。OAG中的“Field”节点被分为从L0到L5的6个级别，这些级别用层次树进行组织。因此，我们区分对应于字段级别的“纸域”边缘。此外，我们还区分了不同的作者顺序(即第一作者、最后作者和其他作者)和会场类型(即期刊、会议和预印本)。最后，“自我”类型对应于自环连接，它在GNN架构中被广泛添加。除了对称的“Self”关系外，所有其他关系类型φ都有一个反向关系类型φ−1。

5.2 Case Study

为了进一步评估相对时间编码(RTE)如何帮助HGT捕获图形动态，我们进行了一个展示会议主题演变的案例研究。我们选择100个被引用次数最高的计算机科学会议，将它们分配给三个不同的时间戳，分别是2000年、2010年和2020年，并构造由它们初始化的子图。使用训练有素的HGT，我们可以得到这些会议的表示，我们可以计算它们之间的欧几里德距离。我们选择WWW、KDD和NeurIPS作为说明。对于每一个会议，我们挑选了5个最相似的会议(即欧几里得距离最小的会议)来展示会议主题如何随着时间的推移而演变。
如表3所示，从2000年到2020年，这些场馆的关系发生了变化。例如2000年WWW更多的是关于一些数据库会议，如SIGMOD和VLDB，以及一些网络会议，如NSDI和GLOBECOM。然而，2020年的WWW除了与SIGMOD和GLOBECOM相关之外，还将与一些数据挖掘和信息检索会议(KDD、SIGIR和WSDM)相关。此外，2000年的KDD更与传统的数据库和数据挖掘场所相关，而在2020年，它将倾向于与各种主题相关，如机器学习(NeurIPS)、数据库(SIGMOD)、Web (WWW)、人工智能(AAAI)和NLP (EMNLP)。此外，我们的HGT模型可以捕捉新会议带来的差异。例如，2020年的NeurIPS将与ICLR合作，ICLR是一个新组织的深度学习会议。实例研究表明，相对时间编码能够有效地捕捉异构学术图的时间演化

5.3 Visualize Meta Relation Attention

为了说明合并的元关系模式如何有利于异构消息传递过程，我们选择在前两个HGT层中每个层中具有最大注意值的模式，并在图5中绘制元关系注意层次树。例如,计算论文的代表⟨Paper, is_published_at, Venue, is_published_at−1, Paper⟩, ⟨Paper,
has_L2_f ield_o f , Field, has_L5_f ield_o f −1, Paper⟩, and ⟨Institute,
is_a f f iliated_with−1, Author, is_f irst_author_o f , Paper⟩是最重要的三元关系序列,它可以被视为元路径PVP,PFP和IAP。相对的，这些元路径及其重要性可以从数据中自动学习，无需手动设计。右边显示了计算作者节点表示的另一个例子。这样的可视化表明，异构Graph Transformer能够隐式地学习为特定下游任务构建重要的元路径，而无需手工定制。

6 总结

在本文中，我们提出了异构图转换器(HGT)体系结构来建模web规模的异构和动态图。为了建模异构性，我们使用元关系<τ (s)， ϕ(e)，τ (t)>来分解交互和转换矩阵，使模型在资源更少的情况下拥有类似的建模能力。为了捕捉图的动态，我们提出了相对时间编码(RTE)技术，利用有限的计算资源来整合时间信息。为了对网络规模的数据进行高效、可扩展的HGT训练，我们设计了异构的Mini-Batch图采样算法——hgsampling。我们在Open Academic Graph上进行了全面的实验，表明所提出的HGT模型能够捕获异构性，并在各种下游任务上优于所有最先进的GNN基线。
在未来，我们将探索HGT是否能够生成异构图，例如，预测新的论文及其标题，以及我们是否可以对HGT进行预训练，使其有利于标签稀缺的任务

Heterogeneous Graph Transformer(中文翻译助理解)相关推荐

知识图谱论文阅读（二十）【WWW2020】Heterogeneous Graph Transformer
题目: Heterogeneous Graph Transformer 论文链接: https://arxiv.org/abs/2003.01332 代码链接:https://github.com/a ...
Understanding Quaternions 中文翻译《理解四元数》
Tags: math, quaternion 原文地址:http://www.3dgep.com/understanding-quaternions/ 正文在这篇文章中我会尝试用简单的方式去解释四元 ...
Reinforcement Learning Enhanced Heterogeneous Graph Neural Network阅读笔记
强化学习增强异质图神经网络代码源:https://github.com/zhiqiangzhongddu/RL-HGNN 摘要异构信息网络(HINs)涉及多种节点类型和关系类型,在许多实际应用中非 ...
（十九）【AAAI2021】Knowledge-Enhanced Hierarchical Graph Transformer Network for Multi-Behavior Recommend
题目: Knowledge-Enhanced Hierarchical Graph Transformer Network for Multi-Behavior Recommendation 论文链接 ...
Advances in Graph Neural Networks笔记4：Heterogeneous Graph Neural Networks
诸神缄默不语-个人CSDN博文目录本书网址:https://link.springer.com/book/10.1007/978-3-031-16174-2 本文是本书第四章的学习笔记. 感觉这一章 ...
视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning
背景本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收.论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(en ...
Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation 个人总结
Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation 个人总结写在前面:为方便阅读,尽量使用中文总 ...
MapReduce:Simplified Data Processing on Large Clusters(中文翻译2)
[注:本人菜鸟一枚,喜欢Hadoop方向的大数据处理,现在正在研读Google影响世界的三篇论文,遂一边阅读一边翻译,错误在所难免,希望大家给予批评,我会增加学习的动力] 1 Introduction ...
Heterogeneous Graph Neural Network（异质图神经网络）
Heterogeneous Information Network 传统的同构图(Homogeneous Graph)中只存在一种类型的节点和边,当图中的节点和边存在多种类型和各种复杂的关系时,再采用 ...

Heterogeneous Graph Transformer(中文翻译助理解)