从最近的AAAI和EMNLP中了解命名实体识别与关系抽取的联合建模

每天给你送来NLP技术干货！

来自：复旦DISC

引言

命名实体识别和关系抽取都属于信息抽取方向，二者都是自然语言处理中非常重要的任务。早期的信息抽取将实体识别和关系抽取看作串联的任务，但这样存在误差累积、关系重叠等一系列问题。近年来，有许多将实体识别和关系抽取任务进行联合建模的研究。

本次Fudan DISC实验室将分享AAAI2022中的两篇和EMNLP2021中的一篇关于命名实体识别与关系抽取的论文，介绍实体关系联合抽取相关技术，以及一种将命名实体识别建模为关系分类的方法。

文章概览

1. OneRel: 单模块单步的实体关系联合提取（OneRel: Joint Entityand Relation Extraction with One Module in One Step）

该篇文章提出了一种新的视角，将联合提取任务转化为细粒度的三元组分类问题，并提出了一种新的联合提取模型。

论文地址：https://arxiv.org/abs/2203.05412

2. TDEER:一种联合提取实体和关系的高效解码方案（TDEER: An Efficient Translating Decoding Schema for Joint Extractionof Entities and Relations）

本文提出了一种新的从非结构化文本中联合提取实体和关系的翻译解码方案，从而能够有效、高效地处理重叠三元组问题。

论文地址：https://aclanthology.org/2021.emnlp-main.635

3. 将词-词关系分类用作统一命名实体识别（Unified Named Entity Recognition as Word-Word RelationClassification）

该篇文章将统一命名实体识别建模为词-词关系分类，通过有效地建模实体词与下一个相邻词和尾部词关系之间的相邻关系，解决了统一命名实体识别的核心瓶颈问题。

论文地址：https://arxiv.org/abs/2112.10070

论文细节

论文动机

现有的实体关系联合提取方法通常将任务分解为几个基本模块或处理步骤，从而使其易于执行。但是这些方法忽略了一个事实，即提取出的三元组中的头实体、关系实体和尾实体是相互依存和不可分割的。因此，以往的方法存在错误级联和信息冗余的问题。为了解决这些问题，在本文中，作者提出了一种新的联合实体和关系提取模型，名为OneRel，它将联合提取转换为一个细粒度的三元组分类问题，是一种单模块、单步解码的实体关系联合抽取方法，能直接识别三元组、更好捕获三元组之间的相互依赖。

背景介绍

现有的联合提取方法大致可以分为两类，而作者提出了不同于这两类的新方法：

第一类是多模块多步法，利用不同的模块和相关的处理步骤依次提取实体和关系，即先识别一个句子中的所有实体，然后对每个实体进行关系分类；或先检测句子表达的关系，然后预测头实体和尾实体；或先区分所有头实体，然后通过序列标记或问答推断对应的关系和尾实体。但这类方法存在错误级联问题。

第二类是多模块单步法，先并行提取实体和关系，然后将它们组合成三元组。由于在单独的识别过程中，实体和关系之间没有足够的相互约束，这种多模块单步法不能完全捕获被预测实体和关系之间的依赖关系，导致在三元组构造过程中存在信息冗余。

与上述两种方法不同，本文提出将联合抽取问题看作一个细粒度的三元组分类问题，能够用单模块单步的方式从句子中提取三元组。

方法

本文提出了一种新的标记策略——Rel-Spec Horns标记策略，并提供了一个基于评分的分类器。

Rel-Spec Horns标记策略

本文中的方法分为标签和解码两个阶段。在标签阶段，对于一个句子，作者设计了一个分类器来为所有可能的三元组分配标签，并维护一个三维矩阵来存储分类结果；而解码阶段的任务是从这个矩阵中解码实体和关系。

在标签阶段，本文使用“BIE”(Begin, Inside,End)符号来表示一个token在实体中的位置信息。例如，“HB”表示头实体的开始token，“TE”表示尾实体的结束token。在标签策略中使用了四种类型的标签:(1)HB-TB。这个标签指的是两个位置分别是一个特定关系条件下的一对头和尾的开始标记。(2) HB-TE。这个标记意味着与行相对应的标记是头实体的开始，与列相对应的标记是尾实体的结束。(3)HE-TE这个标签与“HB-TB”具有类似的逻辑，这意味着两个位置分别是基于特定关系的成对头实体和尾实体的结束标记。(4)“-”。除上述三种情况外，所有单元格将被标记为“-”。

从下图中的(b)和(c)可以看到，因为只需要标记矩形的三个角，所以此方法被命名为Rel-Spec Horns标记。

显然，标记的矩阵是稀疏的，其具有以下优点：首先，使用3个特殊标记而不是9个特殊标记，可以在进行分类时有效地缩小潜在的搜索空间；其次，稀疏矩阵使训练过程中有足够的负样本；最后，矩阵的稀疏性保证了三元解码的简单性和效率。

此外，这种Rel-Spec Horns标记可以自然地处理实体对重叠的复杂场景，它将根据实体对之间的关系在不同的子矩阵中标记实体对。例如在上图(a)和(b)中，(New York City, located in, New York State)和(New York State, Contains, New York City)是两个三元组，因此，这两个实体对分别被标记为Located in和Contains。对于最复杂的HeadTailOverlap (HTO)情形，例如图(c)中三元组(New York City, Cityname, New York)中实体对位于对角线附近，所以仍然可以很容易地解码。

解码

标记矩阵标记了成对头实体和尾实体的边界以及它们之间的关系。因此，从矩阵解码三元组变得很简单。对于每个关系，从“HB-TE”拼接到“HE-TE”得到头实体；从“HB-TB”拼接到“HB-TE”得到尾实体；两对实体共享相同的“HB-TE”。

基于分数的分类器

对于一个输入句子，首先用预训练的BERT得到它的embedding，然后枚举所有可能的三元组，设置分类器来分配置信度较高的标签。作者受知识图嵌入技术的启发，借鉴了HOLE的理念，其得分函数为：

其中h、t分别表示头和尾。☆表示循环关联，用于挖掘两个实体之间的潜在相关性，本文中它被定义为非线性拼接投影的算子：

其中W和b是可训练的权重和偏差，是ReLU激活函数。接下来，作者使用所有关系的表示R来同时计算所有可能的三元组的显著性，所以最终的得分函数定义为：

最后，将得分向量输入softmax函数来预测相应的标签：

OneRel的目标函数定义为

其中g指gold tag。

实验

作者在NYT和WebNLG这两个数据集上评估了模型，取得了如下结果。可以观察到，本文中的方法OneRel优于所有10个baseline，并在所有数据集上达到了最高的F1得分。

论文动机

常用的从非结构化文本中联合提取实体和关系以组成三元组的方法是通过预测实体对来解码三元组，得到对应的关系。然而，如何更有效地处理这一任务仍然面临许多挑战，特别是对于重叠的三元组问题。为了解决这一问题，本文提出了一种新的高效的实体和关系提取模型TDEER，即Translating Decoding Schema for Joint Extraction of Entities andRelations，这种框架通过做翻译解码从而共同提取实体和关系来处理重叠的三元组问题。具体来说，TDEER将关系解释为一种从主语实体到宾语实体的转换操作，即“主语+关系→宾语”的三元组解码，这种解码方案能有效地解决重叠三元组问题。此外，本文还提出了一种负样本策略来检测和减少错误在不同阶段的传播，这种策略可以使TDEER减轻错误积累，从而获得更好的结果。

方法

本文提出了一个三阶段模型——TDEER，模型如下图。

在第一阶段，TDEER使用基于跨域的实体标记模型来提取所有的主语和宾语。

在第二阶段，TDEER采用多标签分类策略来检测所有相关关系。

在第三阶段，TDEER通过所提出的翻译解码模式迭代主语和关系对，以识别各自的宾语。

下面是模型的各部分细节。

输入层

将一个句子填充后，通过预训练的BERT来从输入文本提取特征映射。

实体标签模型

为了有效地获取实体及其位置，本文采用了基于跨度的标签模型。作者使用两个二元分类器分别预测实体的起始位置和结束位置。语句中每个token的操作如下：

其中和分别表示识别输入序列中第i个标记为实体的起始位置和结束位置的概率。σ(·)为sigmoid激活函数。

通过最小化以下损失函数来训练实体标签模型：

关系探测器

为了识别句子中的相关关系，作者采用了一种多标签分类策略。对于基于BERT / LSTM的模型，将“[CLS]”令牌/最后输出(LO)表示作为一个关系检测空间，用于多标签分类，如下所示：

关系检测器通过最小化二元交叉熵损失函数来检测关系。

翻译解码模式

作者对检测到的主语和关系进行迭代，以预测宾语的起始位置。对于每一个主语和关系对，先将它们的表示结合起来，然后使用注意力机制来获得一个选择性的表示，这会为宾语可能的位置分配更高的权重。最后，将选择性表示传递给一个全连接层来获得输出，也就是宾语的位置。

负样本策略

大多数由多个部分组成的实体和关系提取模型存在误差积累问题。由于各部分之间存在依赖关系，来自上游的错误将传播到下游。在TDEER中，翻译解码器依赖于实体标记和关系检测器，因此检测器可能从上游接收错误实体或关系。所以，作者引入了一种负样本策略来检测和减轻来自上游的误差。

在训练阶段，将正确的主语/关系替换为其他不恰当的主语/关系，从而产生不正确的三元组作为负样本。该策略使TDEER能够在解码阶段处理主语和关系的噪声输入。

联合训练

作者联合训练基于跨度的实体标签模型、关系检测器和翻译解码器。联合损失函数定义如下：

其中α， β和λ是常数，在本文的实验中分别设置为1.0、1.0和5.0。

实验

作者在NYT、WebNLG、NYT11-HRL这三个数据集上验证了模型提取重叠三元组和普通三元组的能力，在所有数据集上都取得了优于baseline模型的结果。

此外，作者还进行了消融实验来探索负样本策略、关系探测器和注意力机制的效果。

动机

到目前为止，命名实体识别（NER）主要涉及三种类型，包括扁平、重叠（又称嵌套）和不连续的NER，这些类型大多是单独研究的。而用一个模型同时处理上述三个工作的方法主要包括基于跨度的模型和序列到序列的模型，但前者只关注边界识别，而后者可能会受到曝光偏差的影响。本文提出了一种新的替代方法——，将统一NER建模为词-词关系分类。该方法通过有效地建模实体词与下一个相邻词（NNW）和尾部词-\*（THW-\*）关系之间的相邻关系，解决了统一NER的核心瓶颈。

概念介绍

先介绍NNW和THW-*这两个概念：

NNW(next-neighbor-word)即实体中的下一个相邻词。
THW-*(tail-head-word-*)即头尾词，是指实体的头尾产生的联系，实体的类型为*。

方法

现有的大部分实体识别工作主要集中在如何准确识别实体边界。然而，在仔细反思这三种NER任务的共同特征后，作者发现统一NER任务的瓶颈更多地在于对实体词之间的相邻关系的建模。这种邻接关系本质上描述了部分文本段之间的语义连通性，尤其对重叠和不连续文本段起着关键作用。如下图，可以毫不费力地检测到扁平的实体“aching in legs”，因为它的组成词都是自然相邻的。但是，为了检测出“achingin shoulders”这一不连续实体，有效地捕捉“aching in”与“shoulders”这两个相邻段之间的语义关系是必不可少的。

所以，本文研究了一种使用词-词关系分类的统一NER形式，即。该方法通过有效地建模实体边界识别和实体词之间的相邻关系，解决了统一NER问题。具体来说，预测了上述两种类型的关系——NNW和THW-*。NNW关系用于实体词识别，表明两个参数词在一个实体中是否相邻(如aching→in); THW-*关系用于实体边界和类型检测，表明两个参数词是否分别是“*”实体的尾部和头部边界(如legs→aching, Symptom)。这样就构造出了一种把统一命名实体识别任务作为词-词关系分类任务的方法，这种方法充分考虑了实体的边界词和内部词之间的关系。

在基础上，作者进一步提出了统一NER的神经网络。通过BERT和BiLSTM提供上下文相关的单词表示，基于此再构建一个二维的单词对网格，然后，作者设计了多粒度的二维卷积来细化词对的表示，从而能同时有效的捕获到近距离和远距离的词对。最后用一个预测器对词-词关系进行预测，并得到所有可能的实体。

模型结构

本文框架的体系结构主要由下图中的三个部分组成。首先是广泛使用的预训练语言模型BERT和双向LSTM作为编码器，从输入句子生成上下文相关的单词表示；然后利用卷积层构建和细化词对网格的表示，为以后的词-词关系分类提供依据；最后，使用一个包含双仿射分类器和多层感知机的协同预测层来联合推理所有词对之间的关系。

编码器层

本文在模型的输入部分使用BERT。给定一个输入语句，将每个标记或单词转换成单词块，然后将它们输入到一个预训练BERT模块中。在BERT计算之后，每个句子的词可能包含多个片段的向量表示。在这里，作者使用max pooling来生成基于词块的词表示。为了进一步增强上下文建模，再采用双向LSTM生成最终的词表示。

卷积层

作者使用卷积神经网络作为表示的细化器，因为CNN非常适合用于网格上的二维卷积，而且在处理关系分类方面也表现得不错。本文的卷积层包括三个模块：用于生成词对网格表征的归一化条件层、用于丰富词对网格表征的BERT风格的网格建立模块、用于捕捉近的词与远的词之间相互作用的多粒度扩张卷积。

协同预测层

通过卷积层得到词对网格表示之后，用一个MLP来预测每对词之间的关系。然而之前的工作表明，在关系分类任务中，MLP预测器可以通过与双仿射预测器合作来增强。因此，我们同时取这两个预测因子来计算词对的两个独立关系分布，并把它们组合起来作为最终的预测。

解码层

本文的模型预测的是词和它们之间的关系，这可以被看作是一个有方向的词图。所以解码的目标是利用NNW关系，从词图中找到从一个词到另一个词的路径。每一条路径对应一个实体，下图演示了由易到难的四种解码的情况。

在例子(a)中，两条路径“A→B”和“D→E”对应扁平实体，THW关系表示它们的边界和类型。

在例子(b)中，如果没有THW关系，则只能找到一条路径，因此“BC”就丢失了。相比之下，在THW关系的帮助下，很容易识别出“BC”嵌套在“ABC”中，这说明了THW关系的必要性。

例子(c)展示了如何识别不连续的实体。有两条路径“A→B→C”和“A→B→D”，NNW关系有助于连接不连续的跨度“AB”和“D”。

最后考虑一个复杂且罕见的情况(d)，在这种情况下可以仅使用NNW关系找到4条路径，相对的，仅使用THW关系只能识别出连续实体(如“ABCD”)，而不能正确识别不连续实体(如“ACD”)。因此，我们可以通过协作使用这两种关系来获得正确的答案。

学习

对于每个句子，我们的训练目标是最小化对应gold label的负对数似然损失:

其中N是句子中的单词数，是表示单词对关系的gold label的向量，为预测概率向量，r表示预定义关系集R的第r个关系。

实验

本文在14个数据集上进行了实验，包括CoNLL-2003、ACE 2004、ShARe13等，并在这14个数据集上都达到了SoTA表现。另外，通过在CoNLL2003、ACE2005和CADEC数据集上进行消融实验，作者证明了本文提出的几个模块的有效性。

供稿丨戴鼎璋编辑丨林恒旭责编丨李秉轩

供稿人：戴鼎璋丨研究生1年级丨研究方向：知识建模丨邮箱：21210980029@m.fudan.edu.cn

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型，刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！