关系抽取任务是为了预测文本中两个实体中的语义关系,是 NLP 中的重要任务。基于图的模型由于其在关系推理中的有效性和强度而被广泛采用,许多研究依赖于外部解析器将文本序列转换为依赖树来初始化图,但是,解析器产生的错误会传播到图中。本文主要介绍如何直接从文本中构建图来避免上述问题,将通过三篇顶会文献综述基于对话文本的关系抽取最新进展。

GDPNet

论文标题:

GDPNet: Refining Latent Multi-View Graph for Relation Extraction

收录会议:

AAAI 2021

论文链接:

https://www.aaai.org/AAAI21Papers/AAAI-3290.XueF.pdf

代码链接:

https://github.com/XueFuzhao/GDPNet

1.1 论文工作

由于基于 BERT 等序列模型与基于图模型算法是关系抽取任务的研究前沿,这篇文献构造了利用潜在的多视图来捕获 token 之间各种可能的关系,随之对这个图进行精炼以选择重要的词进行关系预测,最后将改进的图表示和基于 BERT 模型的表示连接起来进行关系抽取。

论文的重要创新点在于提出了 GDPNet (Gaussian Dynamic Time Warping Pooling Net),利用高斯图生成器 (Gaussian Graph Generator, GGG)来产生多视图的边,这个图通过 Dynamic Time Warping Pooling (DTWPool)来精炼。

1.2 论文方法

GDPNet 的总体架构如图 1 的左侧所示。其中有三个关键组件:BERT 模块、图模块和 SoftMax 分类器。BERT 模块将 token 编码为相应的特性表示形式。如图 1 的右侧所示,图模块从 BERT 中获取 token 表示,并使用高斯图生成器构造一个多视图。然后通过图卷积和 DTWPool 的多次交互来细化图。最后,将改进后的潜在图输入 SoftMax 分类器预测关系类型。

1.2.1 BERT Module

论文使用 BERT 作为特征编码器来提取 token 表示,将序列 映射为 BERT 的输入序列,,对应的 BERT 产生的 token 表示为 ,在 GDPNet 中,通过图模块充分利用了整个 token 表示。

1.2.2 Graph Module

图模块由高斯图生成器 (GGG)、多层图卷积和 DTWPool 组成。GGG 用于生成潜在的多视图,而图卷积和 DTWPool 层用于图的精炼。

1.2.2.1 Gaussian Graph Generator

BERT 模块中的 部分用来生成多视图用以建模 token 之间的关系。论文使用潜在图的初始节点表示 ,其中每个节点表示对应于 token 表示,接着,基于 利用 GGG 初始化多视图的边。具体来说,首先将每个节点 编码为多个高斯分布如下:

与 表示两个可训练的神经网络, 表示非线性激活函数, 表示多视图中的视图数量。对于多视图的第 个试图会得到一些高斯分布 ,每个高斯分布会对应于节点表示 。论文使用高斯分布之间 KL 散度来建模边的关系:

在计算每个视图节点边的关系之后,会得到多个邻接矩阵 ,因此多视图可以表示为 。

1.2.2.2 Multi-view Graph Convolution

多视图卷积记为:

是初始节点表示和子层生成的节点表示的串联特征。

1.2.2.3 Dynamic Time Warping Pooling

在图卷积通过消息传播更新节点表示后,引入 Dynamic TimeWarping Pooling (DTWPool)来精炼潜在多视图。首先利用 SAGPool 来计算每个视图的注意力系数:

对于潜在多视图中的第 n 个视角,会得到分数集 ,论文保留了 SAGPool 的节点选择方法,即使在图的大小和结构发生变化时,也保留了输入图中的一部分节点。在节点选择之后,第 个视角保留的节点是 的子集,因为潜在图通常有多个视角,所以会发现多个 不同的子集。

由于多视图的特性,DTWPool 通过从不同视图获取节点的联合集,自适应地对图进行了细化:

其中 是从所有不同视图中选择的子集的并集。在图模块中,论文对图卷积和 DTWPool 进行迭代操作,从而得到一个图序列 。

信息节点的数量在不同的文本序列中是不同的。在图的池化过程中,保持重要信息是很重要的。这个图中的节点嵌入了丰富的上下文信息,因此将上下文总结到 pooling 节点中是有益的。为了这个目的,作者提出了使用 SoftDTW 来指导图池化操作。SoftDTW 是一个可微分的损失函数,用于寻找不同长度的两个序列之间可能的最佳对齐方式:

在 GDPNet 中,论文利用 SoftDTW 损耗最小化原始图与最后池化图之间的距离:

使用 SoftDTM 损失,DTWPool 可以在不丢失大量上下文信息的情况下细化图。

为了最小化信息损失,论文将池化过程中创建的中间图的节点表示连接起来,从而得到最终的图 ,类似于学习图的残差连接。由于池中的图具有不同的大小,论文对所有节点只连接其中的节点表示,因此,最终图 的节点与 1 相同。

1.2.3 Classifier

给定最终的图 ,论文采用最大池的神经网络来计算图的表示。然后将计算的表示与 [CLS] 令牌 的表示连接起来,形成最终的表示。

1.3 实验

论文提出的 GDPNet 可以应用于句子级和对话级的 RE 任务。由于数据格式、适用的基线模型以及处理主体和客体实体 和 的方式的不同,论文进行了两组实验,将 GDPNets 和 SoTA 模型在两项任务上进行了比较。表 2 与表 5 总结了在 DialogRE 和 TACRED 上的结果。论文还展示了如何容易地修改 GDPNet,如表 4 所示,以便在每个任务上与 SoTA 模型进行公平比较。

SOLS

论文标题:

Speaker-Oriented Latent Structures for Dialogue-Based Relation Extraction

收录会议:

EMNLP 2021

论文链接:

https://arxiv.org/abs/2109.05182

2.1 论文工作

由于基于对话的关系抽取(Dialogue-based relation extraction ,DiaRE)任务涉及多个说话人,会存在逻辑纠缠和信息稀疏的问题。为了解决这一问题,论文提出了 Speaker-Oriented Latent Structures(SOLS),可以明确地诱发说话人导向的潜在结构,以获得更好的 DiaRE。在学习过程中,论文针对说话人的正则化方法逐步突出与说话人相关的关键线索,并删除无关线索,缓解了信息稀疏性问题。

2.2 论文方法

该模型旨在通过探索面向说话者的潜在结构来获得更好的 DiaRE。论文提出的模型有四个模块:

1. 对话编码器(Dialogue Encoder)使用对话作为输入,输出是语境的相关表示。

2. 上下文化的表示将被输入到 SOLS 诱导器(SOLS Inducer)中,以自动生成两个面向说话者的潜在结构和一个新的正则化项,旨在缓解纠缠的逻辑和数据稀疏问题。

3. 然后将潜在结构馈给 SOLS 编码器(SOLS Encoder),该编码器是一个图卷积网络(GCN),主要用于信息聚合。

4. 分类器(Classifier)。

2.2.1 Dialogue Encoder

表示一个对话拥有 n 个 token 和 m 个话语 ,然后将 视为一个长的序列,并将它送入对话编码器,例如 BiLSTM,或者基于预训练的 BERT 模型,来产生上下文的语境表示 。

2.2.2 SOLS Inducer

SOLS 的直觉是学习一种潜在的对话结构,能够找出与说话者相关的语境,而忽略不相关或不太相关的语境。论文使用离散-连续分布通过采样边缘分数接近 0 或 1 来明确学习面向说话者的对话结构。因此,将图中的边缘分数视为一个门,接近 1 或 0 的分数分别表示打开或关闭两个令牌之间的连接。直观上,分数值接近 1 表示两个符号之间有很强的关系。

2.2.2.1 Sampling a Gate 

取样器主要有四个模块,主要包括 MLP 模块、分布生成器、Stretcher & Rectifier 和门生成器。

对于每个 令牌对,MLP 模块将它们的表示作为输入,并执行非线性转换 ,并输出标量值 ,。

分布生成器构造了一个 Binary Concrete(BC)分布,,BC 分布是由连续离散随机变量组成的,基于 Gumbel-Max 方法。使用 来控制概率质量使 BC 分布向 0 或向 1 倾斜,分别在负和正的位置。从这样的分布中采样值类似于生成一个门,可以打开或关闭两个令牌之间的连接。

由于 BC 的随机条件,是由之前步骤生成的,因此定义为(0,1)开区间,值 0 和 1 不能被采样到。因此,作者依靠 Hard Concrete(HC)分布将采样从开区间拓展到闭区间。

最后,从 HC 分布中对于第 和第 个 token 采样一个分数 :

2.2.3 Speaker-Oriented Structures

2.2.3.1 Latent Structure

依据以上的步骤,在对话 中,论文采样每一对节点的门来构建图 ,对于目标关系,为每个 speaker 生成两个不同的图,直观的说,每个图将不依赖于话语边界强调每个说话者不同 token 之间的特定的潜在依赖关系。图 4 展示了对于两个说话者如何产生两个结构。

直接将两个图输入 GCNs 可能会为关系分类引入噪声,因为对话中的许多上下文可能与关系分类任务无关。

2.2.3.2 Controlled Sparsity

为了缓解这个问题,在两个图诱导过程中引入正则化损失 来突出关键线索,同时丢弃不相关的连接,从而最小化要选择的上下文标记的数量。 可以看错可控的稀疏机制以完全可微的方式使两个图中预测的非零数最小化。

2.2.4 SOLS Encoder

对于两个邻接矩阵 与,论文使用 GCN 作为图编码器来进行信息聚合,对于第 层,第 个节点的卷积操作,使用之前层的输出 作为卷积的输入并更新表示:

对两个说话者使用相同的 GCN,并获得更新的上下文化对话表示:

2.2.5 Classifier and Loss Function

作者使用 MLP 作为分类器来预测目标参数对 之间的关系:

整体的损失可以被计算为:

2.3 实验

2.3.1 Dataset

主要用了三个数据集:

1. dialogue - English version,为第一个来自美国著名喜剧《老友记》的人类注释对话级别 RE 数据集;

2. DialogRE Chinese version,翻译自 DialogRE-EN;

3. Medical Information Extractor(MIE),涉及从一个中国医疗咨询网站收集的医患对话。

2.3.2 Main Results

论文将提出的 SOLS 方法与如下所述的各种基线进行比较,主要有以下四种方法:

  • Sequence-based Models

  • Rule-based Graph Models

  • Latent Graph Models

  • BERT-based Models

表 2 总结了 DialogRE-EN 和 DialogRE-CN 数据集  和  评分的结果。在 MIE 数据集上,表 3 表明,在相同的基于 bert 的编码器下,SOLS 获得了最好的结果,进一步证明了潜在结构的有效性。

DRE

论文标题:

Dialogue Relation Extraction with Document-Level Heterogeneous Graph Attention Networks

论文链接:

https://arxiv.org/pdf/2009.05092.pdf

代码链接:

https://github.com/declare-lab/dialog-HGAT

3.1 论文工作

论文提出了一种基于注意力机制的异构图神经网络的 DRE 方法,其中图包含有意义连接的说话人、实体、类型和话语节点。该图被送到图注意力网络,用于相关节点之间的上下文传播,有效地捕获对话上下文。

3.2 论文方法

在这项工作中,论文引入了一个基于注意的图网络来解决每个对话都被表示为异构图的问题。

1. 首先利用一个由两个双向长短期记忆网络组成的语音编码器对会话信息进行编码。这些话语编码,连同单词嵌入、说话者嵌入、论点嵌入和类型嵌入,在逻辑上连接起来,形成一个异构。

2. 该图通过五个图注意层,这些注意层聚合了来自邻近节点的信息。

3. 将学习到的参数嵌入连接起来,并将其提供给一个分类器。

3.2.1 Utterance Encoder

对于对话 ,利用 GloVe 来初始化词嵌入,并且将其送入 BiLSTM 模型以得到上下文的语境表示。BiLSTM 的操作可以定义为:

与之前的方法不同,在话语编码中只采用语义语境特征,我们在语境表示中添加句法特征,如 POS 标签 和命名实体类型 。在话语中每个 token 的嵌入可以描述为:

3.2.2 Graph Construction

3.2.2.1 Node Construction

论文设计了一个包含五种节点的异构图网络:话语节点(utterance nodes)、类型节点(type nodes)、词节点(word nodes)、说话者节点(speaker nodes)和参数节点(argument nodes)。每种类型的节点用于在对话框中编码一种类型的信息。在该任务中,只有词节点、说话者节点和论点节点可能会参与最终的分类过程。

话语节点是由 Utterance Encoder得到的话语嵌入初始化的,与构成话语的基本节点相连。类型节点表示话语中单词的实体类型,其中包括各种命名实体和数字实体,由于在一个对话中可能有不同的类型,类型节点可以促进信息集成。

单词节点表示会话的词汇表。每个单词节点都与包含单词的话语相连接,它也与单词在对话中可能存在的所有类型相连接,论文使用 GloVe 初始化单词节点的状态。

说话人节点表示对话中每个唯一的说话人。每个说话人节点都与说话人自己发出的话语相连接。这种类型的节点是用一些特定的嵌入进行初始化的,可以从不同的说话者那里收集信息。

参数节点是两个特殊的节点,用于编码参数对的相对位置信息。每个图中总共有两个参数节点。一个代表主语参数,另一个代表宾语参数。

3.2.2.2 Edge Construction

论文所提出的图是无向的,但是传播是有方向的,其中有五种类型的边,分别是 utterance-word,utterance-argument,utterance-speaker,type-word 和  type-argument 边。每个边有特定的类型,除了 utterance-word 之外,其余边会被随机初始化。对于 utterance-word 之间的边,论文采用 POS 标签来初始化边缘特征。

3.2.2.3 Graph Attention Mechanism

论文使用图注意机制将邻近信息聚合到目标节点,图注意机制可以描述为:

3.2.2.4 Message Propagation

如图2所示,论文提出的图模块中有五层,每一层代表一个聚合。在图中标记了四种类型的层。LayerA 和 LayerD 包含话语节点和基本节点之间的消息传播,LayerB 和 LayerC 同样是基本节点和类型节点之间的消息传播。将整个消息传播路径称为元路径。不同的元路径策略可能导致不同的性能。元路径消息传播路径可以被表示为 ,,, 表示 utterance nodes,basic nodes,和 type nodes。

使用残差连接机制避免梯度消失:

并经过两层的前向传递网络:

假设嵌入矩阵主要包含话语节点、基本节点和类型节点的初始嵌入:

消息传播过程可以写成:

3.2.3 Relation Classifier

在异构图中传播消息后,得到所有实体的新表示。

表示给定参数对关系类型的概率。

3.3 实验

3.3.1 Dataset

论文使用 DialogRE 数据集,数据统计如下表所示:

3.3.2 Result and Analysis

如表 2 所示,模型在验证和测试集上都比最先进的方法高出 9.6%/7.5% 的 分数,8.4%/5.7%的 分数,这表明了在异质图中沿着特定任务功能元路径的信息传播的有效性。

为了理解模型组件的影响,论文使用模型在 DialogRE 数据集上执行 ablation study,结果见表 3。

论文还通过更改元路径策略来测试消息传播策略的性能,

Strategy1:作者只建立了一个 LayerA,其中基本节点由初始化的话语节点更新一次。

Strategy2:层的顺序是 A-B-C-D-A-D-A。

Strategy3:层的顺序是 A-B-C-D-A-B-C-D-A。

总结

这三篇文章主要集中于语句间的关系抽取任务,会存在实体间逻辑上关系接近但语法上距离比较远的问题。可以看出通过语句内容来构建图,并用图神经网络来完成关系抽取任务已经成为研究的趋势。构建图的方法主要有基于依赖树、基于词嵌入向量与基于类型节点的连接关系,这三种方法各有优势。在图神经网络的创新方面主要利用了图卷积神经网络和图注意力网络,且第三篇文献结合了异质图神经网络,来解决图的分类问题。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

​最新综述!基于图神经网络的关系抽取技术进展相关推荐

  1. AGGCN | 基于图神经网络的关系抽取模型

    今天给大家介绍2019年6月发表在ACL上的论文"Attention Guided Graph Convolutional Networks for Relation Extraction& ...

  2. MILA研究院唐建:基于图神经网络的关系推理(附视频)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  3. 图神经网络GNN预训练技术进展概述

    来源:图与推荐本文约2800字,建议阅读5分钟本文为大家推荐四篇有关于GNN预训练的文章. 论文推荐 /introduction/ 机器学习的成功很大程度上取决于数据.但是,高质量的标记数据通常很昂贵 ...

  4. 【信息抽取】如何使用循环神经网络进行关系抽取

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  5. 【信息抽取】如何使用卷积神经网络进行关系抽取

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  6. 当图网络遇上计算机视觉!计算机视觉中基于图神经网络和图Transformer的方法和最新进展...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 可能是目前最全面的<当图网络遇上计算机视觉>综述!近四 ...

  7. ACL 2021 | 基于词依存信息类型映射记忆神经网络的关系抽取

    ©作者 | 陈桂敏 来源 | QTrade AI研究中心 QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型.信息抽取.对话机器人.内容推荐等.本文介绍的是一篇信息抽 ...

  8. 【图神经网络】图分类学习研究综述[2]:基于图神经网络的图分类

    基于GNN的图分类学习研究综述[2]:基于图神经网络的图分类 论文阅读:基于GNN的图分类学习研究综述 3. 基于图神经网络的图分类 3.1 卷积 3.2 池化 论文阅读:基于GNN的图分类学习研究综 ...

  9. 最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代

    最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代 A Survey on Deep Learning for Localization and Mapping Towards the A ...

最新文章

  1. 重磅!深度学习知识总结和调参技巧开放下载了
  2. 百度 php 图片文字识别,PHP实现百度OCR文字识别
  3. STM32 电机教程 29 - 无刷无感入门1
  4. Android PC投屏简单尝试—最终章1
  5. postman可以测试websocket吗_小海塔罗娱乐测试2021年可以脱单吗?
  6. 基于 Go 的内置 Parser 打造轻量级规则引擎
  7. linux下字符串操作,Linux Bash 中字符串操作
  8. dalvik.system.PathClassLoader[DexPathList[[zip file /data/app/comda.xfdsafda.activdity-1/base.apk]
  9. easyui 提示框组件_jQuery EasyUI 教程-Tooltip(提示框)
  10. Linux中安装软件
  11. 老男孩Linux笔记,运维/后端/服务器领域
  12. matlab归一化mapminmax警告,利用mapminmax归一化的问题
  13. JAVA 2048源码_java实现2048游戏源代码
  14. android模拟器mac版本下载,TapTap安卓模拟器for Mac-TapTap模拟器Mac版下载 V1.8.3-PC6苹果网...
  15. hiveSQL面试题16__时间序列--构造日期
  16. mysql根据成绩排名次_用mysql语句 实现按成绩 排名次
  17. 计算机任务管理器不能打开,电脑任务管理器无法打开怎么办
  18. pycharm关联git
  19. 基址寻址与变址寻址的个人理解
  20. 数据科普:期权的希腊字母 | 上(投资必知必会)

热门文章

  1. Arduino--二维码显示
  2. 大工19春《计算机原理》在线作业2,大工19春《计算机原理》在线作业2.pdf
  3. json带斜杠java,带斜杠的json解析
  4. bin文件怎么转换成文本文档_怎么把视频文件转换成MP3?这款工具六步帮你实现...
  5. 【剑指offer】21、调整数组顺序使奇数在偶数前面
  6. python-configparser生成ini配置文件
  7. 1071. Speech Patterns (25)
  8. 机器学习相关——SVD分解
  9. 周末加班重构代码的几点感慨
  10. QueryBuildRange中的表达式