论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵，天津大学硕士

链接：https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf

动机

从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究联合实体关系的提取。在这篇文章中，作者将跨域相关资讯整合到预先训练好的编码器中，以执行实体关系抽取作业。并在预训练网络中引入了一个span编码器和一个span对编码器，使得跨内和跨间信息更容易导入预训练模型，而不是使用通用的句子编码器（如现有的通用预训练模型）。为了学习编码器，作者从不同的角度设计了三个定制的预训练目标，分别针对token、span和span对。特别地，训练span编码器以恢复span中令牌的随机洗牌，并且训练span对编码器以使用对比丢失来预测来自相同句子的正对和来自不同句子的负对。实验结果表明，该预训练方法优于远程监督预训练方法，在两个实体关系抽取基准数据集（ACE05，SciERC）上取得了良好的效果。

亮点

该工作的亮点主要包括：

（1）引入了一个跨距编码器和一个跨距对编码器，将跨距内和跨距间的信息整合到预训练网络结构中，这在通用的预训练模型中是被忽略的。

（2）设计了三种新的目标，标记边界目标、跨度排列目标和对比跨度对目标来学习更好的编码器。

（3）实验结果表明，该方法不仅在实体关系抽取任务上超过了BERT，而且在ACE05数据集上取得了显著的改进，与SciERC数据集上的最新成果相当

概念及模型

给定一个输入句子

和x中的一组跨度S（随机抽样），预训练模型的目标是获得每个跨度

的上下文向量表示，以及每个跨度对（s1，s2）的上下文向量表示。如下图所示，预训练任务优化了共享transformer网络、span级CNN和关于令牌边界目标、span置换目标和对比span对目标的注意参数。与通常的预训练语言模型不同，该网络包含了丰富的跨内和跨间信息。一旦该网络被预先训练，就可以为实体关系提取任务对其进行微调。

句子编码器

为了获得句子x中每个标记的上下文表示h_i，作者使用多层Transformer作为基本编码器，就像其他的预训练模型一样，如UNILM、BERT和XLM。多层Transformer的输出通过以下方式计算：

x_i的单词表示x_i跟随BERT的单词表示，并对相应的标记、段和位置嵌入求和。

跨距编码器

给定句子中的Span

，为了计算相应的上下文Span表示h_s，作者使用了一个CNN(一个单一的卷积层，带有一个最大池化层，后面是向量

上的MLP。如上图的右边部分所示。

跨距对编码器

给定句子x中的跨度对p=（s₁；s₂），句子x被分成五个跨度，即左上下文（L）、s1、中上下文（M）、s2和右上下文（R）。为了获得相应的上下文跨度对表示

，作者首先使用跨度编码器来提取关于五个跨度的五个特征向量。设

为span编码器计算的相应表示。为了使模型能够关注更多的信息广度，作者将跨度对p表示为一个位置感知注意机制的上下文广度表示的加权和：

其中注意力得分a_j可以计算为：

预训练目标

TokenBoundary Objective (TBO)：提出了一个变体的MLM，具体地说，对于每个令牌，作者屏蔽除第一个子令牌之外的子令牌，然后用第一个子令牌表示和相应的位置嵌入来预测被屏蔽的子令牌。在实验中，为每个句子随机选择15%的子标记来实现这个目标。

SpanPermutation Objective (SPO)：提出了一种不同的策略来将跨内信息整合到预训练模型中。SpanBERT仍然致力于增强单个标记的表示，而作者强调整个跨度的上下文表示。不是在SpanBERT中预测一个被屏蔽的span的每个标记，而是在span中洗牌这些标记，然后期望模型能够识别中断。

ContrastiveSpan Pair Objective (CSPO)：提出了一种基于对比学习框架的跨对层次目标。受InfoWord的启发，它将跨度及其匹配的上下文(即同一句子中的上下文)视为正对。否则作为否定对。作者把这个想法推广到span对的层次上。

理论分析

实验

在这一部分，作者在ACE05和SciERC两个基准实体关系提取数据集上进行了实验。ACE05数据集为文档集合注释实体和关系类型。它是实体关系抽取任务的标准语料库。语料库中有7种实体类型和6种关系类型。SciERC数据集提供500篇科学摘要的实体注释、参考注释和关系注释，这些科学摘要均来自会议/研讨会的论文集。实验中只使用实体和关系的注解。语料包含6种科学实体类型和7种关系类型。实验像之前的工作一样将Fl评分作为评估标准。具体来说，如果一个输出实体的类型和边界是正确的，那么它就是正确的；如果它的类型和它的两个参数实体是正确的，那么输出关系就是正确的(即完全匹配)。

上表为模型在ACE05数据集上的实验结果，将这篇文章的方法与上表中以前的工作进行比较。总的来说，作者提出的预训练方法“SPE”在两种关系评价方法上都比现有的模型有了显著的改进。特别是，它比基于LSTM的GCN联合模型提高了4.1分，比基于bert的QA模型提高了3.0%；与多任务学习相比较在ELMO和BERT上也取得了显著的改善。值得注意的是，该模型的实体检测结果表现不佳，主要原因是在微调步骤中，作者不引入额外的监督信号，如参考解析和事件提取。然而，即使没有额外的多任务训练数据，该模型仍然获得了最佳的关系性能，证明
了所提出的训练前方法对于实体关系提取任务的有效性。

上表为模型在SciERC数据集上的实验结果，基线方法是使用ELMOembeddings学习多任务和使用BERT进行多任务学习。从上表的上面一部分来看，“BERT”和“SPE”在实体性能和关系性能上都显著优于ELMO。作者把这一现象归因于BERT的强大能力。“SPE”的性能优于“BERT”，表明所提出的目标在实体关系提取方面很有帮助，并且能够将跨度信息整合到预先训练的模型中。该预训练模型可以匹配先前最先进的BERT多任务学习方法，而无需额外的多任务学习数据。

总结

提出了一个具有三个目标的预训练网络体系结构，可以将跨内信息和跨间信息整合到预训练模型中。与通用的预训练模型相比，作者引入了一个跨度编码器和一个跨度画式编码器。通过设计三个预训练目标，作者可以更好地学习为实体关系提取任务定制的预训练编码器。在两个基准数据集上的实验验证了所提预训练方法的有效性。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 网站。