最新综述！基于图神经网络的关系抽取技术进展

关系抽取任务是为了预测文本中两个实体中的语义关系，是 NLP 中的重要任务。基于图的模型由于其在关系推理中的有效性和强度而被广泛采用，许多研究依赖于外部解析器将文本序列转换为依赖树来初始化图，但是，解析器产生的错误会传播到图中。本文主要介绍如何直接从文本中构建图来避免上述问题，将通过三篇顶会文献综述基于对话文本的关系抽取最新进展。

GDPNet

论文标题：

GDPNet: Refining Latent Multi-View Graph for Relation Extraction

收录会议：

AAAI 2021

论文链接：

https://www.aaai.org/AAAI21Papers/AAAI-3290.XueF.pdf

代码链接：

https://github.com/XueFuzhao/GDPNet

1.1 论文工作

由于基于 BERT 等序列模型与基于图模型算法是关系抽取任务的研究前沿，这篇文献构造了利用潜在的多视图来捕获 token 之间各种可能的关系，随之对这个图进行精炼以选择重要的词进行关系预测，最后将改进的图表示和基于 BERT 模型的表示连接起来进行关系抽取。

论文的重要创新点在于提出了 GDPNet （Gaussian Dynamic Time Warping Pooling Net），利用高斯图生成器（Gaussian Graph Generator, GGG）来产生多视图的边，这个图通过 Dynamic Time Warping Pooling （DTWPool）来精炼。

1.2 论文方法

GDPNet 的总体架构如图 1 的左侧所示。其中有三个关键组件：BERT 模块、图模块和 SoftMax 分类器。BERT 模块将 token 编码为相应的特性表示形式。如图 1 的右侧所示，图模块从 BERT 中获取 token 表示，并使用高斯图生成器构造一个多视图。然后通过图卷积和 DTWPool 的多次交互来细化图。最后，将改进后的潜在图输入 SoftMax 分类器预测关系类型。

1.2.1 BERT Module

论文使用 BERT 作为特征编码器来提取 token 表示，将序列映射为 BERT 的输入序列，，对应的 BERT 产生的 token 表示为，在 GDPNet 中，通过图模块充分利用了整个 token 表示。

1.2.2 Graph Module

图模块由高斯图生成器 (GGG)、多层图卷积和 DTWPool 组成。GGG 用于生成潜在的多视图，而图卷积和 DTWPool 层用于图的精炼。

1.2.2.1 Gaussian Graph Generator

BERT 模块中的部分用来生成多视图用以建模 token 之间的关系。论文使用潜在图的初始节点表示，其中每个节点表示对应于 token 表示，接着，基于利用 GGG 初始化多视图的边。具体来说，首先将每个节点编码为多个高斯分布如下:

与表示两个可训练的神经网络，表示非线性激活函数，表示多视图中的视图数量。对于多视图的第个试图会得到一些高斯分布，每个高斯分布会对应于节点表示。论文使用高斯分布之间 KL 散度来建模边的关系：

在计算每个视图节点边的关系之后，会得到多个邻接矩阵，因此多视图可以表示为。

1.2.2.2 Multi-view Graph Convolution

多视图卷积记为:

是初始节点表示和子层生成的节点表示的串联特征。

1.2.2.3 Dynamic Time Warping Pooling

在图卷积通过消息传播更新节点表示后，引入 Dynamic TimeWarping Pooling （DTWPool）来精炼潜在多视图。首先利用 SAGPool 来计算每个视图的注意力系数：

对于潜在多视图中的第 n 个视角，会得到分数集，论文保留了 SAGPool 的节点选择方法，即使在图的大小和结构发生变化时，也保留了输入图中的一部分节点。在节点选择之后，第个视角保留的节点是的子集，因为潜在图通常有多个视角，所以会发现多个不同的子集。

由于多视图的特性，DTWPool 通过从不同视图获取节点的联合集，自适应地对图进行了细化：

其中是从所有不同视图中选择的子集的并集。在图模块中，论文对图卷积和 DTWPool 进行迭代操作，从而得到一个图序列。

信息节点的数量在不同的文本序列中是不同的。在图的池化过程中，保持重要信息是很重要的。这个图中的节点嵌入了丰富的上下文信息，因此将上下文总结到 pooling 节点中是有益的。为了这个目的，作者提出了使用 SoftDTW 来指导图池化操作。SoftDTW 是一个可微分的损失函数，用于寻找不同长度的两个序列之间可能的最佳对齐方式：

在 GDPNet 中，论文利用 SoftDTW 损耗最小化原始图与最后池化图之间的距离：

使用 SoftDTM 损失，DTWPool 可以在不丢失大量上下文信息的情况下细化图。

为了最小化信息损失，论文将池化过程中创建的中间图的节点表示连接起来，从而得到最终的图，类似于学习图的残差连接。由于池中的图具有不同的大小，论文对所有节点只连接其中的节点表示，因此，最终图的节点与 1 相同。

1.2.3 Classifier

给定最终的图，论文采用最大池的神经网络来计算图的表示。然后将计算的表示与 [CLS] 令牌的表示连接起来，形成最终的表示。

1.3 实验

论文提出的 GDPNet 可以应用于句子级和对话级的 RE 任务。由于数据格式、适用的基线模型以及处理主体和客体实体和的方式的不同，论文进行了两组实验，将 GDPNets 和 SoTA 模型在两项任务上进行了比较。表 2 与表 5 总结了在 DialogRE 和 TACRED 上的结果。论文还展示了如何容易地修改 GDPNet，如表 4 所示，以便在每个任务上与 SoTA 模型进行公平比较。

SOLS

论文标题：

Speaker-Oriented Latent Structures for Dialogue-Based Relation Extraction

收录会议：

EMNLP 2021

论文链接：

https://arxiv.org/abs/2109.05182

2.1 论文工作

由于基于对话的关系抽取（Dialogue-based relation extraction ，DiaRE）任务涉及多个说话人，会存在逻辑纠缠和信息稀疏的问题。为了解决这一问题，论文提出了 Speaker-Oriented Latent Structures（SOLS），可以明确地诱发说话人导向的潜在结构，以获得更好的 DiaRE。在学习过程中，论文针对说话人的正则化方法逐步突出与说话人相关的关键线索，并删除无关线索，缓解了信息稀疏性问题。

2.2 论文方法

该模型旨在通过探索面向说话者的潜在结构来获得更好的 DiaRE。论文提出的模型有四个模块：

1. 对话编码器（Dialogue Encoder）使用对话作为输入，输出是语境的相关表示。

2. 上下文化的表示将被输入到 SOLS 诱导器（SOLS Inducer）中，以自动生成两个面向说话者的潜在结构和一个新的正则化项，旨在缓解纠缠的逻辑和数据稀疏问题。

3. 然后将潜在结构馈给 SOLS 编码器（SOLS Encoder），该编码器是一个图卷积网络（GCN），主要用于信息聚合。

4. 分类器（Classifier）。

2.2.1 Dialogue Encoder

表示一个对话拥有 n 个 token 和 m 个话语，然后将视为一个长的序列，并将它送入对话编码器，例如 BiLSTM，或者基于预训练的 BERT 模型，来产生上下文的语境表示。

2.2.2 SOLS Inducer

SOLS 的直觉是学习一种潜在的对话结构，能够找出与说话者相关的语境，而忽略不相关或不太相关的语境。论文使用离散-连续分布通过采样边缘分数接近 0 或 1 来明确学习面向说话者的对话结构。因此，将图中的边缘分数视为一个门，接近 1 或 0 的分数分别表示打开或关闭两个令牌之间的连接。直观上，分数值接近 1 表示两个符号之间有很强的关系。

2.2.2.1 Sampling a Gate

取样器主要有四个模块，主要包括 MLP 模块、分布生成器、Stretcher & Rectifier 和门生成器。

对于每个令牌对，MLP 模块将它们的表示作为输入，并执行非线性转换，并输出标量值，。

分布生成器构造了一个 Binary Concrete（BC）分布，，BC 分布是由连续离散随机变量组成的，基于 Gumbel-Max 方法。使用来控制概率质量使 BC 分布向 0 或向 1 倾斜，分别在负和正的位置。从这样的分布中采样值类似于生成一个门，可以打开或关闭两个令牌之间的连接。

由于 BC 的随机条件，是由之前步骤生成的，因此定义为（0,1）开区间，值 0 和 1 不能被采样到。因此，作者依靠 Hard Concrete（HC）分布将采样从开区间拓展到闭区间。

最后，从 HC 分布中对于第和第个 token 采样一个分数：

2.2.3 Speaker-Oriented Structures

2.2.3.1 Latent Structure

依据以上的步骤，在对话中，论文采样每一对节点的门来构建图，对于目标关系，为每个 speaker 生成两个不同的图，直观的说，每个图将不依赖于话语边界强调每个说话者不同 token 之间的特定的潜在依赖关系。图 4 展示了对于两个说话者如何产生两个结构。

直接将两个图输入 GCNs 可能会为关系分类引入噪声，因为对话中的许多上下文可能与关系分类任务无关。

2.2.3.2 Controlled Sparsity

为了缓解这个问题，在两个图诱导过程中引入正则化损失来突出关键线索，同时丢弃不相关的连接，从而最小化要选择的上下文标记的数量。可以看错可控的稀疏机制以完全可微的方式使两个图中预测的非零数最小化。

2.2.4 SOLS Encoder

对于两个邻接矩阵与，论文使用 GCN 作为图编码器来进行信息聚合，对于第层，第个节点的卷积操作，使用之前层的输出作为卷积的输入并更新表示：

对两个说话者使用相同的 GCN，并获得更新的上下文化对话表示：

2.2.5 Classifier and Loss Function

作者使用 MLP 作为分类器来预测目标参数对之间的关系：

整体的损失可以被计算为：

2.3 实验

2.3.1 Dataset

主要用了三个数据集：

1. dialogue - English version，为第一个来自美国著名喜剧《老友记》的人类注释对话级别 RE 数据集；

2. DialogRE Chinese version，翻译自 DialogRE-EN；

3. Medical Information Extractor（MIE），涉及从一个中国医疗咨询网站收集的医患对话。

2.3.2 Main Results

论文将提出的 SOLS 方法与如下所述的各种基线进行比较，主要有以下四种方法：

Sequence-based Models
Rule-based Graph Models
Latent Graph Models
BERT-based Models

表 2 总结了 DialogRE-EN 和 DialogRE-CN 数据集和评分的结果。在 MIE 数据集上，表 3 表明，在相同的基于 bert 的编码器下，SOLS 获得了最好的结果，进一步证明了潜在结构的有效性。

DRE

论文标题：

Dialogue Relation Extraction with Document-Level Heterogeneous Graph Attention Networks

论文链接：

https://arxiv.org/pdf/2009.05092.pdf

代码链接：

https://github.com/declare-lab/dialog-HGAT

3.1 论文工作

论文提出了一种基于注意力机制的异构图神经网络的 DRE 方法，其中图包含有意义连接的说话人、实体、类型和话语节点。该图被送到图注意力网络，用于相关节点之间的上下文传播，有效地捕获对话上下文。

3.2 论文方法

在这项工作中，论文引入了一个基于注意的图网络来解决每个对话都被表示为异构图的问题。

1. 首先利用一个由两个双向长短期记忆网络组成的语音编码器对会话信息进行编码。这些话语编码，连同单词嵌入、说话者嵌入、论点嵌入和类型嵌入，在逻辑上连接起来，形成一个异构。

2. 该图通过五个图注意层，这些注意层聚合了来自邻近节点的信息。

3. 将学习到的参数嵌入连接起来，并将其提供给一个分类器。

3.2.1 Utterance Encoder

对于对话，利用 GloVe 来初始化词嵌入，并且将其送入 BiLSTM 模型以得到上下文的语境表示。BiLSTM 的操作可以定义为：

与之前的方法不同，在话语编码中只采用语义语境特征，我们在语境表示中添加句法特征，如 POS 标签和命名实体类型。在话语中每个 token 的嵌入可以描述为：

3.2.2 Graph Construction

3.2.2.1 Node Construction

论文设计了一个包含五种节点的异构图网络：话语节点（utterance nodes）、类型节点（type nodes）、词节点（word nodes）、说话者节点（speaker nodes）和参数节点（argument nodes）。每种类型的节点用于在对话框中编码一种类型的信息。在该任务中，只有词节点、说话者节点和论点节点可能会参与最终的分类过程。

话语节点是由 Utterance Encoder得到的话语嵌入初始化的，与构成话语的基本节点相连。类型节点表示话语中单词的实体类型，其中包括各种命名实体和数字实体，由于在一个对话中可能有不同的类型，类型节点可以促进信息集成。

单词节点表示会话的词汇表。每个单词节点都与包含单词的话语相连接，它也与单词在对话中可能存在的所有类型相连接，论文使用 GloVe 初始化单词节点的状态。

说话人节点表示对话中每个唯一的说话人。每个说话人节点都与说话人自己发出的话语相连接。这种类型的节点是用一些特定的嵌入进行初始化的，可以从不同的说话者那里收集信息。

参数节点是两个特殊的节点，用于编码参数对的相对位置信息。每个图中总共有两个参数节点。一个代表主语参数，另一个代表宾语参数。

3.2.2.2 Edge Construction

论文所提出的图是无向的，但是传播是有方向的，其中有五种类型的边，分别是 utterance-word，utterance-argument，utterance-speaker，type-word 和 type-argument 边。每个边有特定的类型，除了 utterance-word 之外，其余边会被随机初始化。对于 utterance-word 之间的边，论文采用 POS 标签来初始化边缘特征。

3.2.2.3 Graph Attention Mechanism

论文使用图注意机制将邻近信息聚合到目标节点，图注意机制可以描述为：

3.2.2.4 Message Propagation

如图2所示，论文提出的图模块中有五层，每一层代表一个聚合。在图中标记了四种类型的层。LayerA 和 LayerD 包含话语节点和基本节点之间的消息传播，LayerB 和 LayerC 同样是基本节点和类型节点之间的消息传播。将整个消息传播路径称为元路径。不同的元路径策略可能导致不同的性能。元路径消息传播路径可以被表示为，，，表示 utterance nodes，basic nodes，和 type nodes。

使用残差连接机制避免梯度消失：

并经过两层的前向传递网络：

假设嵌入矩阵主要包含话语节点、基本节点和类型节点的初始嵌入：

消息传播过程可以写成：

3.2.3 Relation Classifier

在异构图中传播消息后，得到所有实体的新表示。

表示给定参数对关系类型的概率。

3.3 实验

3.3.1 Dataset

论文使用 DialogRE 数据集，数据统计如下表所示：

3.3.2 Result and Analysis

如表 2 所示，模型在验证和测试集上都比最先进的方法高出 9.6%/7.5% 的分数，8.4%/5.7%的分数，这表明了在异质图中沿着特定任务功能元路径的信息传播的有效性。

为了理解模型组件的影响，论文使用模型在 DialogRE 数据集上执行 ablation study，结果见表 3。

论文还通过更改元路径策略来测试消息传播策略的性能，

Strategy1：作者只建立了一个 LayerA，其中基本节点由初始化的话语节点更新一次。

Strategy2：层的顺序是 A-B-C-D-A-D-A。

Strategy3：层的顺序是 A-B-C-D-A-B-C-D-A。

总结

这三篇文章主要集中于语句间的关系抽取任务，会存在实体间逻辑上关系接近但语法上距离比较远的问题。可以看出通过语句内容来构建图，并用图神经网络来完成关系抽取任务已经成为研究的趋势。构建图的方法主要有基于依赖树、基于词嵌入向量与基于类型节点的连接关系，这三种方法各有优势。在图神经网络的创新方面主要利用了图卷积神经网络和图注意力网络，且第三篇文献结合了异质图神经网络，来解决图的分类问题。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读