每天给你送来NLP技术干货!


来自:复旦DISC

引言

命名实体识别和关系抽取都属于信息抽取方向,二者都是自然语言处理中非常重要的任务。早期的信息抽取将实体识别和关系抽取看作串联的任务,但这样存在误差累积、关系重叠等一系列问题。近年来,有许多将实体识别和关系抽取任务进行联合建模的研究。

本次Fudan DISC实验室将分享AAAI2022中的两篇和EMNLP2021中的一篇关于命名实体识别与关系抽取的论文,介绍实体关系联合抽取相关技术,以及一种将命名实体识别建模为关系分类的方法。

文章概览

1. OneRel: 单模块单步的实体关系联合提取(OneRel: Joint Entityand Relation Extraction with One Module in One Step)

该篇文章提出了一种新的视角,将联合提取任务转化为细粒度的三元组分类问题,并提出了一种新的联合提取模型。

论文地址:https://arxiv.org/abs/2203.05412

2. TDEER:一种联合提取实体和关系的高效解码方案(TDEER: An Efficient Translating Decoding Schema for Joint Extractionof Entities and Relations)

本文提出了一种新的从非结构化文本中联合提取实体和关系的翻译解码方案,从而能够有效、高效地处理重叠三元组问题。

论文地址:https://aclanthology.org/2021.emnlp-main.635

3. 将词-词关系分类用作统一命名实体识别(Unified Named Entity Recognition as Word-Word RelationClassification)

该篇文章将统一命名实体识别建模为词-词关系分类,通过有效地建模实体词与下一个相邻词和尾部词关系之间的相邻关系,解决了统一命名实体识别的核心瓶颈问题。

论文地址:https://arxiv.org/abs/2112.10070

论文细节

1


论文动机

现有的实体关系联合提取方法通常将任务分解为几个基本模块或处理步骤,从而使其易于执行。但是这些方法忽略了一个事实,即提取出的三元组中的头实体、关系实体和尾实体是相互依存和不可分割的。因此,以往的方法存在错误级联和信息冗余的问题。为了解决这些问题,在本文中,作者提出了一种新的联合实体和关系提取模型,名为OneRel,它将联合提取转换为一个细粒度的三元组分类问题,是一种单模块、单步解码的实体关系联合抽取方法,能直接识别三元组、更好捕获三元组之间的相互依赖。

背景介绍

现有的联合提取方法大致可以分为两类,而作者提出了不同于这两类的新方法:

第一类是多模块多步法,利用不同的模块和相关的处理步骤依次提取实体和关系,即先识别一个句子中的所有实体,然后对每个实体进行关系分类;或先检测句子表达的关系,然后预测头实体和尾实体;或先区分所有头实体,然后通过序列标记或问答推断对应的关系和尾实体。但这类方法存在错误级联问题。

第二类是多模块单步法,先并行提取实体和关系,然后将它们组合成三元组。由于在单独的识别过程中,实体和关系之间没有足够的相互约束,这种多模块单步法不能完全捕获被预测实体和关系之间的依赖关系,导致在三元组构造过程中存在信息冗余。

与上述两种方法不同,本文提出将联合抽取问题看作一个细粒度的三元组分类问题,能够用单模块单步的方式从句子中提取三元组。

方法

本文提出了一种新的标记策略——Rel-Spec Horns标记策略,并提供了一个基于评分的分类器。

Rel-Spec Horns标记策略

本文中的方法分为标签和解码两个阶段。在标签阶段,对于一个句子,作者设计了一个分类器来为所有可能的三元组分配标签,并维护一个三维矩阵来存储分类结果;而解码阶段的任务是从这个矩阵中解码实体和关系。

在标签阶段,本文使用“BIE”(Begin, Inside,End)符号来表示一个token在实体中的位置信息。例如,“HB”表示头实体的开始token,“TE”表示尾实体的结束token。在标签策略中使用了四种类型的标签:(1)HB-TB。这个标签指的是两个位置分别是一个特定关系条件下的一对头和尾的开始标记。(2) HB-TE。这个标记意味着与行相对应的标记是头实体的开始,与列相对应的标记是尾实体的结束。(3)HE-TE这个标签与“HB-TB”具有类似的逻辑,这意味着两个位置分别是基于特定关系的成对头实体和尾实体的结束标记。(4)“-”。除上述三种情况外,所有单元格将被标记为“-”。

从下图中的(b)和(c)可以看到,因为只需要标记矩形的三个角,所以此方法被命名为Rel-Spec Horns标记。

显然,标记的矩阵是稀疏的,其具有以下优点:首先,使用3个特殊标记而不是9个特殊标记,可以在进行分类时有效地缩小潜在的搜索空间;其次,稀疏矩阵使训练过程中有足够的负样本;最后,矩阵的稀疏性保证了三元解码的简单性和效率。

此外,这种Rel-Spec Horns标记可以自然地处理实体对重叠的复杂场景,它将根据实体对之间的关系在不同的子矩阵中标记实体对。例如在上图(a)和(b)中,(New York City, located in, New York State)和(New York State, Contains, New York City)是两个三元组,因此,这两个实体对分别被标记为Located in和Contains。对于最复杂的HeadTailOverlap (HTO)情形,例如图(c)中三元组(New York City, Cityname, New York)中实体对位于对角线附近,所以仍然可以很容易地解码。

解码

标记矩阵标记了成对头实体和尾实体的边界以及它们之间的关系。因此,从矩阵解码三元组变得很简单。对于每个关系,从“HB-TE”拼接到“HE-TE”得到头实体;从“HB-TB”拼接到“HB-TE”得到尾实体;两对实体共享相同的“HB-TE”。

基于分数的分类器

对于一个输入句子,首先用预训练的BERT得到它的embedding,然后枚举所有可能的三元组,设置分类器来分配置信度较高的标签。作者受知识图嵌入技术的启发,借鉴了HOLE的理念,其得分函数为:

其中h、t分别表示头和尾。☆表示循环关联,用于挖掘两个实体之间的潜在相关性,本文中它被定义为非线性拼接投影的算子:

其中W和b是可训练的权重和偏差,是ReLU激活函数。接下来,作者使用所有关系的表示R来同时计算所有可能的三元组的显著性,所以最终的得分函数定义为:

最后,将得分向量输入softmax函数来预测相应的标签:

OneRel的目标函数定义为

其中g指gold tag。

实验

作者在NYT和WebNLG这两个数据集上评估了模型,取得了如下结果。可以观察到,本文中的方法OneRel优于所有10个baseline,并在所有数据集上达到了最高的F1得分。

2

论文动机

常用的从非结构化文本中联合提取实体和关系以组成三元组的方法是通过预测实体对来解码三元组,得到对应的关系。然而,如何更有效地处理这一任务仍然面临许多挑战,特别是对于重叠的三元组问题。为了解决这一问题,本文提出了一种新的高效的实体和关系提取模型TDEER,即Translating Decoding Schema for Joint Extraction of Entities andRelations,这种框架通过做翻译解码从而共同提取实体和关系来处理重叠的三元组问题。具体来说,TDEER将关系解释为一种从主语实体到宾语实体的转换操作,即“主语+关系→宾语”的三元组解码,这种解码方案能有效地解决重叠三元组问题。此外,本文还提出了一种负样本策略来检测和减少错误在不同阶段的传播,这种策略可以使TDEER减轻错误积累,从而获得更好的结果。

方法

本文提出了一个三阶段模型——TDEER,模型如下图。

在第一阶段,TDEER使用基于跨域的实体标记模型来提取所有的主语和宾语。

在第二阶段,TDEER采用多标签分类策略来检测所有相关关系。

在第三阶段,TDEER通过所提出的翻译解码模式迭代主语和关系对,以识别各自的宾语。

下面是模型的各部分细节。

输入层

将一个句子填充后,通过预训练的BERT来从输入文本提取特征映射。

实体标签模型

为了有效地获取实体及其位置,本文采用了基于跨度的标签模型。作者使用两个二元分类器分别预测实体的起始位置和结束位置。语句中每个token的操作如下:

其中分别表示识别输入序列中第i个标记为实体的起始位置和结束位置的概率。σ(·)为sigmoid激活函数。

通过最小化以下损失函数来训练实体标签模型:

关系探测器

为了识别句子中的相关关系,作者采用了一种多标签分类策略。对于基于BERT / LSTM的模型,将“[CLS]”令牌/最后输出(LO)表示作为一个关系检测空间,用于多标签分类,如下所示:

关系检测器通过最小化二元交叉熵损失函数来检测关系。

翻译解码模式

作者对检测到的主语和关系进行迭代,以预测宾语的起始位置。对于每一个主语和关系对,先将它们的表示结合起来,然后使用注意力机制来获得一个选择性的表示,这会为宾语可能的位置分配更高的权重。最后,将选择性表示传递给一个全连接层来获得输出,也就是宾语的位置。

负样本策略

大多数由多个部分组成的实体和关系提取模型存在误差积累问题。由于各部分之间存在依赖关系,来自上游的错误将传播到下游。在TDEER中,翻译解码器依赖于实体标记和关系检测器,因此检测器可能从上游接收错误实体或关系。所以,作者引入了一种负样本策略来检测和减轻来自上游的误差。

在训练阶段,将正确的主语/关系替换为其他不恰当的主语/关系,从而产生不正确的三元组作为负样本。该策略使TDEER能够在解码阶段处理主语和关系的噪声输入。

联合训练

作者联合训练基于跨度的实体标签模型、关系检测器和翻译解码器。联合损失函数定义如下:

其中α, β和λ是常数,在本文的实验中分别设置为1.0、1.0和5.0。

实验

作者在NYT、WebNLG、NYT11-HRL这三个数据集上验证了模型提取重叠三元组和普通三元组的能力,在所有数据集上都取得了优于baseline模型的结果。

此外,作者还进行了消融实验来探索负样本策略、关系探测器和注意力机制的效果。

3

动机

到目前为止,命名实体识别(NER)主要涉及三种类型,包括扁平、重叠(又称嵌套)和不连续的NER,这些类型大多是单独研究的。而用一个模型同时处理上述三个工作的方法主要包括基于跨度的模型和序列到序列的模型,但前者只关注边界识别,而后者可能会受到曝光偏差的影响。本文提出了一种新的替代方法——,将统一NER建模为词-词关系分类。该方法通过有效地建模实体词与下一个相邻词(NNW)和尾部词-\*(THW-\*)关系之间的相邻关系,解决了统一NER的核心瓶颈。

概念介绍

先介绍NNW和THW-*这两个概念:

  • NNW(next-neighbor-word)即实体中的下一个相邻词。

  • THW-*(tail-head-word-*)即头尾词,是指实体的头尾产生的联系,实体的类型为*。

方法

现有的大部分实体识别工作主要集中在如何准确识别实体边界。然而,在仔细反思这三种NER任务的共同特征后,作者发现统一NER任务的瓶颈更多地在于对实体词之间的相邻关系的建模。这种邻接关系本质上描述了部分文本段之间的语义连通性,尤其对重叠和不连续文本段起着关键作用。如下图,可以毫不费力地检测到扁平的实体“aching in legs”,因为它的组成词都是自然相邻的。但是,为了检测出“achingin shoulders”这一不连续实体,有效地捕捉“aching in”与“shoulders”这两个相邻段之间的语义关系是必不可少的。

所以,本文研究了一种使用词-词关系分类的统一NER形式,即。该方法通过有效地建模实体边界识别和实体词之间的相邻关系,解决了统一NER问题。具体来说,预测了上述两种类型的关系——NNW和THW-*。NNW关系用于实体词识别,表明两个参数词在一个实体中是否相邻(如aching→in); THW-*关系用于实体边界和类型检测,表明两个参数词是否分别是“*”实体的尾部和头部边界(如legs→aching, Symptom)。这样就构造出了一种把统一命名实体识别任务作为词-词关系分类任务的方法,这种方法充分考虑了实体的边界词和内部词之间的关系。

基础上,作者进一步提出了统一NER的神经网络。通过BERT和BiLSTM提供上下文相关的单词表示,基于此再构建一个二维的单词对网格,然后,作者设计了多粒度的二维卷积来细化词对的表示,从而能同时有效的捕获到近距离和远距离的词对。最后用一个预测器对词-词关系进行预测,并得到所有可能的实体。

模型结构

本文框架的体系结构主要由下图中的三个部分组成。首先是广泛使用的预训练语言模型BERT和双向LSTM作为编码器,从输入句子生成上下文相关的单词表示;然后利用卷积层构建和细化词对网格的表示,为以后的词-词关系分类提供依据;最后,使用一个包含双仿射分类器和多层感知机的协同预测层来联合推理所有词对之间的关系。

编码器层

本文在模型的输入部分使用BERT。给定一个输入语句,将每个标记或单词转换成单词块,然后将它们输入到一个预训练BERT模块中。在BERT计算之后,每个句子的词可能包含多个片段的向量表示。在这里,作者使用max pooling来生成基于词块的词表示。为了进一步增强上下文建模,再采用双向LSTM生成最终的词表示。

卷积层

作者使用卷积神经网络作为表示的细化器,因为CNN非常适合用于网格上的二维卷积,而且在处理关系分类方面也表现得不错。本文的卷积层包括三个模块:用于生成词对网格表征的归一化条件层、用于丰富词对网格表征的BERT风格的网格建立模块、用于捕捉近的词与远的词之间相互作用的多粒度扩张卷积。

协同预测层

通过卷积层得到词对网格表示之后,用一个MLP来预测每对词之间的关系。然而之前的工作表明,在关系分类任务中,MLP预测器可以通过与双仿射预测器合作来增强。因此,我们同时取这两个预测因子来计算词对的两个独立关系分布,并把它们组合起来作为最终的预测。

解码层

本文的模型预测的是词和它们之间的关系,这可以被看作是一个有方向的词图。所以解码的目标是利用NNW关系,从词图中找到从一个词到另一个词的路径。每一条路径对应一个实体,下图演示了由易到难的四种解码的情况。

在例子(a)中,两条路径“A→B”和“D→E”对应扁平实体,THW关系表示它们的边界和类型。

在例子(b)中,如果没有THW关系,则只能找到一条路径,因此“BC”就丢失了。相比之下,在THW关系的帮助下,很容易识别出“BC”嵌套在“ABC”中,这说明了THW关系的必要性。

例子(c)展示了如何识别不连续的实体。有两条路径“A→B→C”和“A→B→D”,NNW关系有助于连接不连续的跨度“AB”和“D”。

最后考虑一个复杂且罕见的情况(d),在这种情况下可以仅使用NNW关系找到4条路径,相对的,仅使用THW关系只能识别出连续实体(如“ABCD”),而不能正确识别不连续实体(如“ACD”)。因此,我们可以通过协作使用这两种关系来获得正确的答案。

学习

对于每个句子,我们的训练目标是最小化对应gold label的负对数似然损失:

其中N是句子中的单词数,是表示单词对关系的gold label的向量,为预测概率向量,r表示预定义关系集R的第r个关系。

实验

本文在14个数据集上进行了实验,包括CoNLL-2003、ACE 2004、ShARe13等,并在这14个数据集上都达到了SoTA表现。另外,通过在CoNLL2003、ACE2005和CADEC数据集上进行消融实验,作者证明了本文提出的几个模块的有效性。

供稿丨戴鼎璋编辑丨林恒旭责编丨李秉轩

供稿人:戴鼎璋丨研究生1年级丨研究方向:知识建模丨邮箱:21210980029@m.fudan.edu.cn

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

从最近的AAAI和EMNLP中了解命名实体识别与关系抽取的联合建模相关推荐

  1. 机器不学习:浅析深度学习在实体识别和关系抽取中的应用

    机器不学习 jqbxx.com -机器学习好网站 命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.命名实体 ...

  2. 实体对齐 算法_中英命名实体识别及对齐中的中文分词优化 论文笔记

    1.计算命名实体词汇对齐的置信度:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别. 2.分词工具:采用中科院分词工具ICTCLAS.Stanford分词工具对中文句子进行分词,其中Stan ...

  3. python识别中文人名_使用Python在NLP中的命名实体识别中提取人名

    我有一句话,我需要单独识别人名: 例如: sentence = "Larry Page is an American business magnate and computer scient ...

  4. NAACL| 基于标签感知的双迁移学习在医学命名实体识别中的应用

    本期给大家介绍上海交通大学APEX数据和知识管理实验室俞勇教授课题组发表在NAACL的文章"Label-aware Double Transfer Learning for Cross-Sp ...

  5. 【NLP-NER】命名实体识别中最常用的两种深度学习模型

    命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务.NER是信息提取.问答系统.句法分析.机器翻译等众多NLP任务的重要基础工具. 上一期我们介绍了N ...

  6. 【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究

    NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务.在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解:在信息提取任务中,需要提取相应 ...

  7. 【神经网络】神经网络结构在命名实体识别(NER)中的应用

    命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...

  8. 一文详解深度学习在命名实体识别(NER)中的应用

    近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务-命名实体识别(Named Entity Recogni ...

  9. 论文阅读:(2020版)A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法

    A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法 目录 A Survey on Deep Learning f ...

  10. 【NER】EMNLP 2020 命名实体识别

    点击上方,选择星标,每天给你送干货! 来自:复旦DISC 引言 命名实体识别(Named Entity Recognition, NER)在自然语言处理领域应用广泛,是关系抽取.问答系统.知识图谱等任 ...

最新文章

  1. linux shell数组动态在for中追加元素及其遍历
  2. 【linux】kill命令模板
  3. esp32 arduino adc_英雄联盟手游射手出装怎么出 adc英雄出装推荐
  4. php 获取字符串长度 包含空格,php中常用的字符串长度函数strlen()与mb_strlen()实例解释...
  5. [译].NET 4 中玩耍内存映射文件
  6. ROS学习记录:动作编程
  7. c++函数返回多个值_Excel函数技巧之返回多个匹配结果
  8. ASP.NET Web程序设计 第一章 ASP.NET Web应用程序基础笔记
  9. std::numeric_limits的一个使用注意事项
  10. 学习Struts2框架笔记-第1天
  11. Win7电脑遇到蓝屏,并报错:IRQL NOT LESS OR EQUAL
  12. 异步编程 CompletableFuture(JDK1.8)
  13. 无线产品的‘接收灵敏度’、‘无线协商速率’、‘发射功率’、‘无线干扰’
  14. 技术苍穹与平台沃土:华为构筑产业数字化的太极之道
  15. 精彩回顾 | 阿里云APM城市技术行·深圳站
  16. 维谛(Vertiv)培训中心迁新址,再攀培训业务新高峰
  17. 计算机学前教育教案,学前教育视唱练耳教案
  18. HTML 锚点的作用及用法
  19. [论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)
  20. 基于python开发pepper机器人的人脸识别--使用facenet

热门文章

  1. Qt5学习笔记之图标下载和转换
  2. sqlite3 not found问题解决方法
  3. iOS应用的真机调试
  4. 用exp无法导出空表解决方法/用exp导出数据时表丢失原因
  5. Openresty 与 Tengine
  6. 机器学习、数据分析类面经分享
  7. #Linux学习笔记# Linux系统查看文件内容的命令
  8. java中间==、equals和hashCode差额
  9. Windows RPC Demo实现
  10. 随笔(3)——智慧医养融合:从智能交互到交互智能