论文链接：A Neural Layered Model for Nested Named Entity Recognition
模型代码：Github

Abstract

嵌入在较长实体中的实体被称为嵌套实体。大多数命名实体识别(NER)系统只处理扁平实体，而忽略了内部的嵌套实体，这将导致系统无法捕获底层文本中的细粒度语义信息。为了解决这一问题，我们提出了一种新颖的神经网络模型，它通过动态叠加扁平NER层来识别嵌套实体。其中每个扁平NER层都基于目前最先进的扁平NER模型，即使用双向长短期记忆(LSTM)网络来捕获序列上下文表示，并将其提供给级联的CRF层。我们的模型将LSTM层的输出合并到当前的扁平NER层中，为检测到的实体构建新的表示，然后将它们提供给下一个扁平NER层。这允许我们的模型以从内到外的方式，通过充分利用编码在其相应内部实体中的信息来提取外部实体。我们的模型动态地堆叠扁平NER层，直到没有外部实体被提取。广泛的评估表明，我们的动态模型在嵌套NER上的性能优于目前最先进的基于特征的系统，在GENIA和ACE2005数据集上F值分别达到了74.7%和72.2%。

1 Introduction

命名实体识别任务包括从文本中提取与语义类型相关的实体名称，例如人名(PER)、地点(LOC)和地缘政治实体(GPE)。命名实体识别任务作为许多自然语言处理应用的第一步受到了广泛的关注，包括实体链接(Gupta et al., 2017)、关系提取(Miwa and Bansal, 2016)、事件提取(Feng et al., 2016)和共指消解(Fragkou, 2017; Stone and Arora, 2017)。
由于自然语言的属性，许多命名实体包含嵌套的实体：嵌入的名称包含在其他实体中，如图1所示。这种现象在许多领域都很普遍(Alex et al., 2007; Byrne, 2007; Wang, 2009; Marquez et al., 2007)。然而，目前NER的大部分工作只处理非嵌套实体，也称为扁平实体，而忽略了嵌套实体。这将导致潜在重要信息的丢失，对后续任务产生负面影响。

图1 来自ACE2005(Walker et al., 2006)的一个句子，包含嵌套3层的4个嵌套实体。

传统的命名实体识别方法主要包括两类：监督学习(Ling and Weld, 2012; Marcinczuk, 2015; Leaman and Lu, 2016)和将监督学习与规则相结合的混合方法(Bhasuran et al., 2016; Rocktaschel et al., 2012; Leaman et al., 2015)。传统方法要么需要领域知识，要么需要大量的特征工程。神经网络的最新进展使NER能够自动学习文本的高级和抽象特征而不依赖外部知识资源(Lample et al., 2016; Ma and Hovy, 2016; Pahuja et al., 2017; Strubell et al., 2017)。
在本文中，我们为嵌套实体识别提出了一种新颖的动态神经网络模型，它不依赖任何外部知识资源或语言特征。我们的模型能够从下到上顺序堆叠扁平NER层，并以端到端的方式识别实体。堆叠的层数取决于实体嵌套的级别，并随着不同序列嵌套级别的变化而动态调整输入序列。
给定一个单词序列，我们的模型首先使用一个低维向量来表示每个单词，该向量由相应的词嵌入和字符嵌入连接组成。将单词表示的序列作为输入，扁平NER层允许通过长短期记忆(LSTM)层(Hochreiter and Schmidhuber, 1997)捕获上下文表示。上下文表示然后被提供给CRF层以进行标签预测。随后，来自LSTM层的上下文表示被合并以构建被检测到实体的表示，该表示用作下一个扁平NER层的输入。如果当前扁平NER层没有预测到实体，我们的模型就会停止检测实体。通过按顺序堆叠扁平NER层，我们能够从内到外提取实体，并在不同的LSTM层和CRF层之间共享参数。
在两个嵌套实体语料库上：GENIA(Kim et al., 2003)和ACE2005(Walker et al., 2006)，与最先进的基于特征的模型相比，我们模型的F值获得了3.9和9.1个百分点的提升，并且我们分析了内部实体对外部实体检测的贡献，得出了几个关键结论。
此外，我们还在扁平实体标注语料库JNLPBA(Kim et al., 2004)进行了实验。结果表明我们的模型也可以是一个完整的用于扁平实体的NER模型，条件是它是在不考虑嵌套实体的注释上进行训练的。最终模型获得了75.55%的F值，可以与最先进的性能相媲美。

2 Neural Layered Model

我们的嵌套NER模型是基于扁平NER层的顺序堆叠而设计的，该模型以端到端方式检测嵌套实体。图2提供了模型的概述。扁平NER层的灵感来自Lample et al. (2016)提出的最先进的模型。该层利用一个单一的双向LSTM层来表示单词序列，并通过在LSTM层上放置一个单一的CRF层来预测扁平实体。因此，我们将模型称为 $L a y e r e d - B i L S T M - C R F$ 模型。如果预测到任何实体，则引入一个新的扁平NER层，并将当前扁平NER层检测到的每个实体的单词序列表示合并为实体的表示，然后将其传递给新的扁平NER层作为其输入。否则模型终止堆叠，从而完成实体检测。

图2 堆叠模型的结构。 “interleukin-2”和“interleukin-2 receptor alpha gene”是嵌套实体。

在本节中，我们提供了对模型体系结构的简要描述：扁平NER层和它们的堆叠，嵌入层和它们的训练。

2.1 Flat NER layer

扁平NER层由LSTM层和CRF层组成。LSTM层捕获序列的双向上下文表示，然后将其馈送到CRF层以对标签序列进行全局解码。
LSTM是循环神经网络的一种变体，它结合了一个记忆单元来长时间记住历史信息。这使得模型可以捕获长距离依赖关系，从而减少存在于RNN中的梯度消失/爆炸问题。我们采用没有peephole connection的双向LSTM。请读者参考Hochreiter and Schmidhuber (1997)，以了解我们工作中使用的LSTM的更多细节。
CRF用于全局预测任何给定序列的标签序列。给定一个输入序列 $X=(x_1,x_2,...,x_n)$ ，它是LSTM层的输出，我们在训练过程中使用最大化对数似然函数。在解码时，我们将非法转换之间的转换代价(例如从O到I-PER的转换)设置为无穷大，以限制非法标签。根据解码时的最大分数预测所期望的标签序列 $Y=(y_1,y_2,...,y_n)$ 。

2.2 Stacking flat NER layers

我们在当前扁平NER层的顶部堆叠一个扁平NER层，目的是提取外部实体。具体来说，我们合并并平均由检测到的实体所组成的区域的上下文表示，如以下等式所述：

其中 $z_i$ 表示来自扁平NER层的第 $i$ 个单词的表示， $m_i$ 是实体的合并表示。区域从序列的 $s t a r t$ 位置开始，并在序列的 $e n d$ 位置结束。这种将被检测到的实体合并表示的做法允许我们将每个被检测到的实体视为单一Token，因此我们能够充分利用内部实体信息来辅助外部实体的识别。如果该区域被检测为非实体，我们将保留其表示而不进行任何处理。扁平NER层处理后的上下文表示用作下一个扁平NER层的输入。

2.3 Embedding layer

第一个NER 层的输入与其余的扁平NER层不同，因为第一层前边没有NER层。因此，我们通过连接字符序列嵌入和词嵌入来表示每个单词，作为第一个扁平NER层的输入。图3描述了生成单词表示的嵌入层的体系结构。

图3 'gene'的词表示。我们将LSTM中字符嵌入的输出和词嵌入的输出串接起来，得到最终的词表示。

继Ma and Hovy (2016)和Lample et al. (2016)在扁平NER任务中成功利用字符嵌入之后，我们也用其字符序列表示每个单词，以捕捉单词的正字法和形态特征。每个字符通过一个字符查找表映射为一个随机初始化的向量。我们将包含一个单词所有字符的字符向量输入双向LSTM层，并将前向和后向表示连接起来，从而得到单词级嵌入。
与字符序列嵌入不同，我们使用预先训练好的单词嵌入来初始化词嵌入。当评估或应用模型时，在预训练嵌入和训练数据集之外的单词被映射到一个未知的(UNK)嵌入，该未知嵌入在训练过程中随机初始化。为了训练未知嵌入，我们将训练数据集中频率为1的单词以0.5的概率替换为未知嵌入。

2.4 Training

我们基于传统的BIO(Beginning, Inside, Out of entities)标记方案来准备标签。
由于我们的模型从内到外检测实体，因此我们在为每个单词序列准备标签时需要保持相同的顺序。我们称之为检测顺序规则。同时，我们定义序列中的每个实体区域只能用相同的实体类型标记一次，称为非重复规则。比如在图2中，“interleukin-2”首先被标记，而“interleukin-2 receptor alpha gene”随后按照上述两个规则被标记。将标签O分配给非实体区域时，只遵循检测顺序规则。最终，两个标签序列 ${O, B-Protein, O, O, O, O\}$ 和 ${O, B-DNA, I-DNA, I-DNA, I-DNA, O\}$ 被分配给给定的单词序列“Mouse interleukin-2 receptor alpha gene expression”，如图2所示。有了这些规则，每个单词的标签数量就等于给定单词序列中实体的嵌套级别。
我们采用小批量训练，并使用利用Adam(Kingma and Ba, 2014)的时间反向传播(BPTT)算法(Werbos, 1990)更新模型参数。模型参数包括权重、偏置、转换代价和字符嵌入。我们禁用词嵌入更新。在训练过程中，使用了early stopping、L2-regularization和Dropout (Hinton et al., 2012)来防止过拟合。Dropout在每个扁平NER层的输入中被采用。包括批大小、LSTM中隐藏单元数、字符维数、Dropout Rate、Adam学习率、梯度剪裁和权值衰减(L2)等在内的超参数都是通过贝叶斯优化来调整的(Snoek et al., 2012)。

3 Evaluation Settings

我们使用三个数据集进行评估： GENIA(Kim et al., 2003)，ACE2005(Walker et al., 2006)和JNLPBA(Kim et al., 2004)。在本节中我们简要解释了数据和任务设置，然后介绍了模型和实验设置。

3.1 Data and Task Settings

我们在GENIA和ACE2005数据集上进行了嵌套实体抽取实验，同时在JNLPBA数据集上进行了扁平实体抽取实验。关于数据统计和预处理的细节，请参阅补充资料。
GENIA数据集包含来自2000篇MEDLINE摘要中的36个细粒度实体类别。按照与Finkel and Manning (2009)和Lu and Roth (2015)相同的任务设置，我们将所有DNA子类别都归为DNA。同样的设置也应用于RNA、蛋白质、细胞系和细胞类型四个类别。我们使用与 Finkel and Manning (2009)，Lu and Roth (2015)和Muis and Lu (2017)相同的测试部分以进行直接比较。
ACE2005数据集包含7个细粒度实体类别。我们做了Lu and Roth (2015)和Muis and Lu (2017)中描述的相同修改，即保留bn、bw、nw和wl文件，并将它们分别按照相同的比例（8:1:1）随机分解为训练、开发和测试数据集。
JNLPBA定义了训练和测试数据集。这两个数据集分别由2000篇和404篇MEDLINE摘要组成。JNLPBA数据集最初来源于GENIA语料库。然而，只有扁平的和最顶层的实体被JNLPBA保留，嵌套的和不连续的实体则被删除。与我们在GENIA语料库上的预处理一样，JNLPBA数据集的子类别也被折叠，最终只保留5个实体类型。我们随机选择了原始训练数据集中90%的句子作为训练数据集，其余的作为开发数据集。
准确率、召回率和F值被用于我们任务中的评价指标。我们有如下定义，如果实体和预测的数量都是零，那么评估指标都等于100%。

3.2 Model and Experimental Settings

模型在Chainer(Tokui et al., 2015)深度学习框架中实现。对于GENIA和JNLPBA数据集，我们使用在MEDLINE摘要上预训练的词嵌入(Chiu et al., 2016)来初始化词嵌入。对于ACE2005数据集，我们使用Miwa and Bansal (2016)训练的预训练嵌入来初始化每个单词。除词嵌入外，词嵌入的参数均采用正态分布进行初始化。对于LSTM，我们将隐藏态、细胞态和所有偏置项初始化为 0，忘记门偏置初始化为 1。对于其他超参数，我们通过贝叶斯优化选择最佳的超参数。我们建议读者阅读模型超参数设置和贝叶斯优化的补充材料。
在消融测试中，我们将 $l a y e r e d - B i L S T M - C R F$ 模型与两种以不同方式产生下一扁平NER层输入的模型进行了比较。第一个模型称为 $\ w/o \ layered \ out-of-entities$ ，它使用当前扁平NER层的输入来表示非实体词。第二个模型称为 $\ w/o \ layered \ LSTM$ ，因为它跳过了所有的中间LSTM层，只使用嵌入层的输出来构建下一个扁平NER层的输入。关于两个模型的介绍请参考补充材料。
为了研究我们的模型在不同嵌套实体级别上的有效性，我们在GENIA和ACE2005测试数据集上评估了模型在每个扁平NER层上的性能。在计算准确率和召回率时，我们从相应的扁平NER层中收集预测实体和真实实体（Gold Entities）。由于特定扁平NER层上的预测实体可能来自其他扁平NER层，我们定义了扩展准确率(extended precision, EP)、扩展召回率(extended recall, ER)和扩展F值(extended Fscore, EF)来衡量性能。我们通过将特定扁平NER层中的预测实体与所有真实实体进行比较，计算出EP，并通过将特定扁平NER层中的真实实体与所有预测实体进行比较，计算出ER。EF的计算方法与F相同。
除了在嵌套的GENIA和ACE2005数据集上进行实验外，我们还在JNLPBA数据集上进行了扁平实体识别。我们训练的扁平模型只保留第一个扁平NER层，而删除了堆叠层。我们遵循Lample et al. (2016)的超参数设置进行评估。

4 Results and Analysis

4.1 Nested NER

表1给出了我们的模型与相关工作的比较，包括Muis and Lu (2017)的最先进的基于特征的模型。在F值方面，我们的模型优于最先进的模型，分别达到了74.7%和72.2%，在嵌套NER任务中实现了最先进的技术。对于GENIA数据集，我们的模型在召回方面获得了更多的改进，可以在不降低精度的情况下提取更多嵌套实体。对于ACE2005数据集，我们将召回率提高了12.2个百分点，并获得了5.1%的相对误差降低。与GENIA相比，我们模型的F值在ACE2005数据集上得到了更多的改进。有以下两个可能的原因：第一，在测试数据集中，ACE2005（最大嵌套级别是5）包含比GENIA（最大嵌套级别是3）更多更深层次的嵌套实体。这允许我们的模型捕获嵌套实体之间潜在的嵌套关系；另一个原因是，与GENIA(21.56%)相比，ACE2005有更多的嵌套实体(37.45%)。

表1 我们的模型与最先进的嵌套NER模型的比较。

表2分别显示了模型在GENIA和ACE2005开发数据集上的结果。从这个表中可以看到，我们的只利用上下文表示为下一个扁平NER层准备输入的模型，比其他两个模型的性能更好。这表明引入当前扁平NER层的输入（比如跳过任何非实体或单词的表示）或者跳过所有的中间LSTM层都会影响性能。与 $l a y e r e d - B i L S T M - C R F$ 模型相比， $\ w/o \ layered \ out-of-entities$ 模型性能的下降反映了省略非实体词的表示将导致性能下降。这是因为当我们使用输入而不是输出来表示它们的时候，非实体词的表示没有包含当前的上下文表示。类似地， $\ w/o \ layered \ LSTM$ 模型跳过了实体词和非实体词的表示，从而导致了较差的性能。这是因为当跳过所有的中间LSTM层时，第一个扁平NER层的输入，即词嵌入，会传递给其余的扁平NER层。由于词嵌入不包含上下文表示，因此当我们使用词嵌入作为扁平NER层的输入时，我们无法合并上下文表示。因此在这种情况下，我们没有机会利用上下文表示，而是仅设法使用词嵌入作为扁平NER层的输入。

表2 开发数据集上消融试验的性能表现。

表3和表4分别描述了GENIA和ACE2005测试数据集上每种实体类型的性能。在GENIA中，我们的模型在识别RNA型实体方面表现最好。这是因为大多数与RNA有关的实体主要以mRNA或RNA结尾，这两个词是RNA实体的信息指示器。对于其余实体类型中的实体，其性能接近于整体性能。一个可能的原因是有很多实例可以对它们进行建模。这也解释了ACE2005数据集中PER、GPE等实体类型的高性能。ACE2005数据集中实体类型(如FAC)的实例数量较少，这是它们总体性能不佳的一个原因。关于统计数据的细节，我们请读者参阅补充材料。

表3 GENIA测试数据集中每种类型实体的识别结果。

表4 ACE2005测试数据集中每种类型实体的识别结果。

当在仅包含最外层实体的顶层评估我们的模型时，GENIA测试数据集的准确率、召回率和F值分别为78.19%、75.17%和76.65%。ACE2005测试数据集上对应的准确率、召回率和F值分别为68.37%、68.57%和68.47%。与表1中列出的整体表现相比，我们在GENIA上获得了更高的顶层表现，但在ACE2005上获得了更低的表现。我们将在下表中详细讨论这一现象。
表5显示了在GENIA测试数据集中每个扁平NER层的性能表现。在所有堆叠的扁平NER层中，我们的模型在第一个扁平NER层的标准评估指标方面取得了最佳性能，该层包含对真实最内层实体的预测。当模型进入较深的扁平NER层时，性能随着真实实体数量的减少而逐渐下降。然而就扩展评估指标而言，每个扁平NER层的预测性能是不同的。对于前两个扁平NER层，扩展评价的性能优于标准评价。这表明，与特定扁平NER层上的一些预测相对应的真实实体来自其他扁平NER层。这可能导致最后一个扁平NER层的性能为零。此外就扩展的F值而言，第二个扁平NER层的性能高于第一个扁平NER层。这表明我们的模型能够在顶层实体上获得比最内层实体更高的性能。

表5 GENIA测试数据集中每个扁平NER层的性能表现。

表6显示了在ACE2005测试数据集上每个扁平NER层的性能表现。与GENIA类似，第一个扁平NER层比其他扁平NER层取得了更好的性能。就模型体系结构而言，性能以自底向上的方式下降。这种现象与扩展评估性能相同，这反映了在特定的扁平NER层中的一些预测在其他扁平NER层中被检测到。与GENIA数据集中扩展F值的上升趋势(除最后一层)不同，ACE2005的表现呈下降趋势。这就解释了为什么顶层的F值要低于第一层扁平NER层。尽管扩展F值呈下降趋势，但第一个扁平NER层包含真实实体预测的最大比例，因此表1中显示的所有嵌套实体的总体性能仍然很高。与GENIA不同，我们的模型在ACE2005中在达到实体的最大嵌套级别之前就停止了。这表明我们的模型未能对适当的嵌套级别进行建模。这是导致最后一个扁平NER层的预测为零的原因之一。高嵌套级别上的稀疏实例可能是导致最后一个扁平NER层性能为零的另一个原因。

表6 ACE2005测试数据集上每个扁平NER层的性能表现。

4.2 Flat NER

与JNLPBA数据集上的最先进研究成果（F值达到了75.87%） (Gridach, 2017)相比，我们模型的F值达到了75.55%。由于Gridach(2017)的模型和我们的扁平模型都是基于Lample et al. (2016)的，所以这两个模型能够获得相当的性能是合理的。

4.3 Error analysis

我们展示了在GENIA和ACE2005测试数据集上所有嵌套实体和每个扁平NER层的错误类型及其统计数据。在ACE2005测试数据集上，在随机抽取的200个句子中，28%的预测是错误的。在这些错误中，39%是因为他们的文本范围被分配了其他实体类型。我们称这种类型的错误为类型错误。主要原因是它们多为代词和共指其他在句子中不存在的实体。以“whether that is true now, we can not say”为例，“we”被标注为ORG，而我们的模型将其标注为PER。缺少上下文信息(比如缺少共同引用实体)会导致我们的模型做出错误的决策。此外，30%的错误是由于预测错误导致的，只有真实实体的一部分被预测出来。我们称这种类型的错误为局部预测错误。这可能是因为这些真实实体倾向于从句或独立句子，因此可能包含许多修饰语。比如在句子“A man who has been to Baghdad many times and can tell us with great knowledge exactly what it’s going to be like to fight on those avenues in that sprawling city of Baghdad - Judy .”中，“A man who has been to Baghdad many times and can tell us with great knowledge exactly what it’s going to be like to fight on those avenues in that sprawling city of Baghdad”被标注为PER，而我们的模型只能够抽取“A man who has been to Baghdad many times”并将其标注为PER。
对于第一个扁平NER层上的错误，我们得到了41%的类型错误和11%的局部预测错误。除此之外，模型识别了来自其他扁平NER层的预测，导致了5%的错误。我们将这种错误类型定义为层错误。与第一个扁平NER层不同，26%的第二个扁平NER层的错误是由层错误引起的。此外，17%的错误属于类型错误。特别是，22%的错误是由于类型错误。对于最后一个扁平NER层，40%的错误是由局部预测错误引起的。其余的错误与前面提到的错误类型不同。一个可能的原因是，与之前的扁平NER层相比，训练最后一个扁平NER层的真实实体太少。另一个原因可能是误差传播。
同样，从GENIA测试数据集中随机抽取200个句子。在这个子集中，我们的预测有20%的错误。其中，类型错误和局部预测错误分别占17%和24%。此外，第一个扁平NER层上24%的预测是不正确的。其中，最大的错误类型为层错误、局部预测错误和类型错误，分别占21%、18%和13%。第二层扁平NER层的错误主要由类型错误和局部预测错误引起。

5 Related Work

神经网络的成功提高了扁平NER在不同领域(Lample et al., 2016; Ma and Hovy, 2016; Gridach, 2017; Strubell et al., 2017)的性能。这样的神经网络模型在没有任何手工定义的特征和外部知识资源的情况下达到了最先进的水平。
与扁平NER相反，强调嵌套实体识别的尝试少得多。嵌套NER的现有方法(Shen et al., 2003; Alex et al., 2007; Finkel and Manning, 2009; Lu and Roth, 2015; Xu and Jiang, 2016; Muis and Lu, 2017)主要依靠手工定义的特征。它们不能充分利用嵌套实体之间的依赖关系。我们的模型能够捕获依赖关系并自动学习文本的高级抽象特征。
关于嵌套NER的早期工作主要涉及将规则与监督学习算法相结合的混合系统。例如，Shen et al. (2003)，Zhou et al. (2004)和Zhang et al. (2004)在GENIA数据集中使用隐马尔可夫模型提取内部实体，然后使用基于规则的方法获取外部实体。此外，Gu (2006)基于支持向量机提取嵌套实体，支持向量机分别在内部实体和最外部实体上进行训练，而不考虑嵌套实体之间的隐藏关系。所有这些方法都未能捕获嵌套实体之间的依赖关系。一个尝试性工作是Alex et al. (2007)分别构建了一个由内向外和由外向内的层次CRF模型，它们能够使用当前的猜测作为下一层的输入。他们还通过使用历史CRF的输出作为当前CRF的特征，将每种实体类型的CRF串联起来，从而在他们的工作中获得了最佳性能。级联方法的一个主要缺点是它不能处理共享相同实体类型的嵌套实体，而这在自然语言中非常常见。
Finkel and Manning (2009)提出了一种选区树来表示每一个句子，其中根节点用于连接。所有的实体都被视为短语，并按照整个树结构表示为子树。与我们的语言特征独立模型不同，Finkel and Manning (2009)使用由实体级特征驱动的基于CRF的方法来检测嵌套实体。
后来，Lu and Roth (2015)构建了超图，它允许一条边连接多个节点，以表示嵌套实体及其引用(也称为Mentions)。他们方法的一个问题是超图的伪结构，因为它们枚举节点、类型和边界的组合来表示实体。此外，它们不能使用超图编码嵌套实体之间的依赖关系。相比之下，我们的模型通过合并组成一个实体的多个Tokens的表示来实现嵌套实体的表示，并将其视为较长的实体表示。这允许我们基于内部实体表示来表示外部实体，从而设法捕获内部和外部实体之间的关系，并克服虚假实体结构的问题。
作为克服Lu and Roth (2015)伪结构问题的一种改进，Muis and Lu (2017) 通过将Mention Separators和特征结合在一起产生了更好的识别效果。Lu and Roth (2015)和Muis and Lu (2017)都依靠手工制作的特征来提取嵌套实体，且没有考虑嵌套实体中包含的隐藏依赖关系。相比之下，我们充分利用模型中嵌套实体的依赖关系，通过自动学习序列中的高级和抽象特征来鼓励外部实体识别。
如SemEval-2007 Task 9和GermEval-2014等共享任务是为了推进嵌套命名实体识别问题的进一步发展。此外，作为KBP 2015和KBP 2016中的子任务，三语实体发现和链接跟踪(EDL)的目标之一是从英语、中文和西班牙语的文本文档中提取嵌套实体。在此基础上，Xu and Jiang (2016)首先开发了一种基于固定大小顺序遗忘编码(FOFE)方法的文本片段表示标注方案。在它们的上下文中所有的实体用这个新的标记方案表示。与LSTM-RNNs在序列标记任务中广泛使用的方法不同，该方法使用前馈神经网络对给定序列中的每个片段进行实体级标记预测。此外，Li et al. (2017)使用Lample et al. (2016)提出的模型来提取扁平实体和由嵌套和不连续实体组成的组件。另一个BiLSTM用于组合组件以获得嵌套和不连续的实体。然而，这些方法未能捕获和利用内部实体表示来促进外部实体检测。

6 Conclusion

本文提出了一种动态层次模型，该模型能够以端到端的方式充分利用内部实体信息，促进外部实体识别。模型基于由LSTM和CRF组成的扁平NER层，因此能够在扁平NER层捕获输入序列的上下文表示，并全局解码预测标签，而无需依赖特征工程。模型自动堆叠扁平NER层，并共享层中的LSTM和CRF参数。堆叠将持续进行，直到当前扁平NER层将预测实体之外的序列。每个扁平NER层基于来自前一个扁平NER层的预测实体，接收合并的上下文表示以作为外部实体识别的输入。有了这个动态的端到端模型，我们的模型能够超越现有的模型，在两个嵌套的NER任务上实现最优的表现。此外，该模型可以通过去除第一个NER层后的级联部件，灵活地简化为扁平NER模型。
广泛的评估表明，内部实体的使用显著促进了外部实体的检测，在GENIA和ACE2005上的F值分别提高了3.9和9.1个百分点。此外与使用多层上下文表示相比，仅使用当前上下文表示有助于提高性能。

《A Neural Layered Model for Nested Named Entity Recognition》相关推荐

《A Boundary-aware Neural Model for Nested Named Entity Recognition》
论文链接:A Boundary-aware Neural Model for Nested Named Entity Recognition 模型代码:Github Abstract 在自然语言处 ...
《Deep Exhaustive Model for Nested Named Entity Recognition》
论文链接:Deep Exhaustive Model for Nested Named Entity Recognition Abstract 我们提出了一种简单的深层神经网络模型用于嵌套命名实体 ...
[论文阅读笔记14]Nested named entity recognition revisited
一, 题目 Nested Named Entity Recognition Revisited 重访问的嵌套命名实体识别二, 作者 Arzoo Katiyar and Claire Cardie D ...
Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att
论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture wit ...
论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020
论文作者: 论文链接:https://arxiv.org/pdf/2005.00436.pdf 代码实现:https://github.com/cslydia/BiFlaG Abstract 作者为嵌 ...
【ACL 2021】Locate and Label A Two-stage Identifier for Nested Named Entity Recognition
一.Introduction 命名实体识别(NER)是自然语言处理中一项研究非常广泛的任务.传统的NER研究只处理平面实体,而忽略了嵌套实体.例如:北京大学,北京大学不仅是一个组织,同时北京也是一个地 ...
《Parallel Instance Query Network for Named Entity Recognition》论文阅读
来源:ACL 2022 论文认为存在的问题: 当前的NER任务被转换为MRC任务,但是存在以下问题: 每次一个问题只能抽取到一种类型的实体,效率不够高不同实体之间抽取是分割,没有考虑到实体之间的依赖 ...
MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition论文解析
<MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition>的论 ...
论文阅读笔记（三）【ACL 2021】Locate and Label: A Two-stage Identifier for Nested Named Entity
论文标题: Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition 论文链接: https://arx ...
PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition
Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录摘要结论 ...

《A Neural Layered Model for Nested Named Entity Recognition》