【AAAI 2020】Hierarchical Attention Network with Pairwise Loss for Chinese Zero Pronoun Resolution

论文地址：https://ojs.aaai.org//index.php/AAAI/article/view/6352

摘要

最近的神经网络方法在解决汉语零代词问题时，没有考虑零代词和候选先行词之间的双向注意，而是简单地将该任务作为一个分类任务，忽略了零代词不同候选者之间的关系。为了解决这些问题，我们提出了一个带有配对损失的层次注意力网络（HAN-PL），用于中文零代词的解析。在所提出的HAN-PL中，我们设计了一个两层的注意力模型，为零代词和候选先行词产生更强的表示。此外，我们还提出了一种新的成对损失，即引入正确的先行词相似性约束和成对边际损失，使学到的模型更具有辨别力。我们在OntoNotes 5.0数据集上进行了广泛的实验，我们的模型在中文零代词解析任务中取得了最先进的性能。

1 引言

零代词作为原生语言中的一种特殊语言现象，在汉语文献中普遍存在。零代词是句子中的一个缺口，指的是由于语言的连贯性而被省略的成分。如图 1 所示，如果零代词指代在相关文本中一次或多次提到，它可以是一个隐喻性零代词（AZP），这通常由一个共指链表示；如果没有这样被提到，则可以是一个非无喻的。在这个例子中，∗pro∗1是隐喻性的，与提及的"警察 "相关，而∗pro∗2是非隐喻性的。这些用于解释零代词的提法被称为先行词。如何正确解决 AZP 是语义理解中一个具有挑战性的话题，已经引起了人们的关注。

早期的方法采用了基于规则的方法来解决中文零代词的解析（Converse and Palmer 2006；Yeh and Chen 2007）。之后，一些传统的机器学习模型与手工制作的特征，包括有监督的方法和无监督的方法，被广泛采用来解决这个问题（Zhao and Ng 2007；Kong and Zhou 2010；Chen and Ng 2013；2014；2015）。(Zhao和Ng 2007）研究了一系列基于解析树的句法特征来定位和解决零隐喻。在（Zhao and Ng 2007）的基础上，（Chen and Ng 2013）进一步引入了词法特征和零代词之间的同指代推理联系。尽管特征工程很有效，但它是劳动密集型的，而且高度依赖注释过的语料库。
由于深度学习的强大能力，（Chen和Ng 2016）率先将深度神经网络应用于该任务。随后（Liu等人，2016）制作了伪数据集，并采用了预训练-再适应的方法；（Yin等人，2017）引入了一个基于记忆的网络，为特定的零代词选择正确的先行词。为了捕捉更多的信息，（Yin等人，2016）对先行词的局部信息和全局信息进行了编码；（Yin等人，2018a）通过利用深度强化学习模型整合了局部和全局决策。此外，还引入了自注意力机制对零代词进行编码，并应用基于注意力的递归神经网络对候选先行词按其内容进行编码（Yin等人，2018b）。然而，这些方法要么不考虑零代词和候选先行词之间的任何互动（Chen and Ng 2016; Yin et al. 2018a），要么只是采用了从零代词的表征到候选先行词的表征的单向注意（Liu et al. 2016; Yin et al. 2018b），削弱了所学特征的表示能力。此外，这些方法只是将解析任务表述为一个分类任务（例如，一个候选人是否是零号代词的前缀），这就忽略了零号代词的不同候选先行词之间的关系（例如，正确的候选先行词是相似的，他们的分数应该比错误候选先行词的分数大很多）。
为了解决这些问题，我们提出了一个新的框架，即带有配对损失的层次注意力网络（HANPL）。我们设计了一个两层的分层注意力网络，它不仅考虑了双向注意，首先解决了任务，产生了更强大的表征，而且还提出了一个配对损失，将更多的辨别力整合到所学模型中。层次注意网络（HAN）采用交互式注意和自注意来更好地建立零代词和候选先行词的模型，而配对损失（PL）将正确先行词相似性整合到配对损失中。在OntoNotes 5.0上的实验清楚地表明，所提出的HAN-PL优于所有的基线系统，并显著获得了最先进的性能。本文的主要贡献有三个方面。

用所提出的分层注意机制交互式地学习零代词和候选先行词的更强大的表征。
用一对边际损失指导模型的优化，这比以前的方法中使用的交叉熵损失更合理。
考虑到正确先行词相似性的约束，以利用连锁信息所提供的全局信息。

2 相关工作

在这一节中，我们首先对与我们的贡献相关的注意力机制和最大边际损失的早期工作进行了简要总结，然后简要回顾了中文零代词解析的流行方法。

2.1 自然语言处理的注意力机制

(Bahdanau, Cho, and Bengio 2014）是第一个将注意力机制应用于自然语言处理（NLP）的人。此后，注意力机制被广泛应用于许多NLP任务，如文档分类（Yang等人，2016）、机器阅读理解（Kadlec等人，2016）等。一些用于阅读理解的方法（Seo等人，2016；Wang，Yan和Wu，2018），提出了问题和段落之间的各种互动方式，确实给了我们很大启发。

2.2 最大边际损失

在一些任务中，最大边际损失比交叉熵损失更合理，比如图像相似性（Wang等人，2014）和人脸识别（Schroff, Kalenichenko, and Philbin 2015）。实际上，最大边际损失（Wiseman等人，2015年；Clark和Manning，2016年）也被采用于同指代推理解析，这是一个与本文任务类似的任务。然而，为同指代推理解决所设计的损失需要仔细调整，不适合用于模型优化。

2.3 中文零代词解析

以前的中文零代词解析方法用传统的机器学习方法或深度学习方法对任务进行建模，然后用交叉熵损失训练模型。
最近，一些深度学习模型被应用于中文零代词的解析（Chen and Ng 2016；Yin et al.2017）。(Yin等人2018b）分别引入了编码零代词的自注意机制和基于注意的递归神经网络，以其内容来编码候选先行词。此外，（Yin等人，2018b）将解析任务视为分类任务，用交叉熵损失指导优化。
lce=−δ(zp,np)∗log(g(zp,np))(1)\begin{aligned} l_{ce}=−\delta(zp,np)*log(g(zp,np)) \tag{1}\\ \end{aligned} lce=−δ(zp,np)∗log(g(zp,np))(1)其中，g(zp,np)∈[0,1]g(zp, np)∈[0, 1]g(zp,np)∈[0,1]，由(Yin et al. 2018b)计算，是给定的零代词 zpzpzp 和其候选先行词 npnpnp 的同指代推理概率。 δ(zp,np)\delta(zp, np)δ(zp,np) 表示 zpzpzp 和 npnpnp 之间的实际同指代推理结果：如果它们是同指代推理，δ(zp,np)=1\delta(zp, np)=1δ(zp,np)=1，否则，δ(zp,np)=0\delta(zp, np)=0δ(zp,np)=0。
但是，上述方法在对零代词进行编码时忽略了候选先行词的信息，从而削弱了零代词和候选先行词的学习特征的表示能力。此外，该方法中使用的交叉熵损失不能保证正确的候选先行词的解析分数比错误的候选先行词的解析分数有足够大的差距。

3 模型

为了更合理地实现中文零代词的解析任务，我们提出了一个带有配对损失的层次注意网络（HAN-PL）。在提出的 HAN-PL 中，我们设计了一个两层的注意力模型，为零代词和候选先行词生成更强大的表征。此外，我们还将正确的先行词之间的相似性约束整合到对偶边际损失中，以指导模型的训练。在这一节中，我们首先给出了解析任务的描述，然后详细描述了我们的主要贡献，即层次注意网络和配对损失。

3.1 任务描述

在中文零代词解析问题中，零代词的位置已经由前一步的零代词检测给出（Kong and Ng 2013）。给定一个隐喻的零代词 zpzpzp，通过捕捉与 zpzpzp 最多相隔两句的最大或修饰名词短语来提取候选先行词 Szp={np1,np2,...,npk}S_{zp}=\{np_1, np_2, ..., np_k\}Szp={np1,np2,...,npk}（Chen and Ng 2015），这可以回忆起大部分（约 98%）的先行词。此外，还考虑了先行词的上下文 {npc1,npc2,...,npck}\{npc_1, npc_2, ..., npc_k\}{npc1,npc2,...,npck}。为了确定 zpzpzp 的正确前因，我们设计了一个层次注意网络 f(zp,np)f(zp, np)f(zp,np)，并将在下面的小节中详细介绍。

3.2 分层注意力网络

以前的方法没有考虑到足够的信息，例如，它们没有考虑到零代词和候选先行词之间的足够的互动。先行词的语境可能对建模有帮助，但在以前的方法中通常被忽略。此外，先行词的信息也很少被考虑用来帮助建立零代词的模型。为了以更好的方式对 zpzpzp、npnpnp 和 npcnpcnpc 进行建模，我们设计了一个分层注意网络，如图2所示。

       零代词和候选先行词的语境建模。 由于零代词是没有文本的空隙，因此将把 zpzpzp 的上下文作为模型 zpzpzp 的输入（Yin et al. 2017; 2018a; 2018b）。此外，我们还利用了候选先行词 npcnpcnpc 的上下文信息，这在以前的方法中被忽略了，实际上应该考虑到。在这里，我们应用一个两层的注意网络，包括一个双向注意层和一个自我注意层，来交互学习 zpzpzp 和 npcnpcnpc 的表示。
       编码层。 编码 zpzpzp 和 npcnpcnpc 的方法是vanilla recurrent neural networks (RNNs)，这在以前的方法中被应用（Yin et al. 2018b）。我们首先使用一个从左到右的 RNN 来编码 zpzpzp 的左侧上下文，并使用一个从右到左的 RNN 来编码右侧上下文。编码之后，我们可以分别得到 zpzpzp 的前文和后文的隐藏状态。因此，我们可以通过简单地串联两个矩阵得到 zpzpzp 的最终隐藏状态 Hzp∈Rd×nH_{zp}∈R^{d×n}Hzp∈Rd×n，其中 ddd 是隐藏大小，nnn 是 zpzpzp 的上下文长度。此外，我们还用同样的方法来编码候选先行词 npcnpcnpc 的上下文。npcnpcnpc 的最终状态被表示为 Hnpc∈Rd×mH_{npc}∈R^{d×m}Hnpc∈Rd×m，其中 mmm 是先行词的上下文长度。
       双向注意力层。 以互动的方式学习ZP和NPC的表征。该层首先计算出一个注意力矩阵：
Att=ReLU(WlTHzp)T⋅ReLU(WlTHnpc)(2)\begin{aligned} Att=ReLU(W_l^TH_{zp})^T·ReLU(W_l^TH_{npc}) \tag{2}\\ \end{aligned} Att=ReLU(WlTHzp)T⋅ReLU(WlTHnpc)(2)其中，WlTW^T_lWlT 是线性变换的可训练矩阵，Att∈Rn×mAtt∈R^{n×m}Att∈Rn×m，Att(i,j)Att(i, j)Att(i,j) 代表 zpzpzp 的第 iii 个词和 npcnpcnpc 的第 jjj 个词之间的注意力得分。
       通过计算出的注意力矩阵 AttAttAtt，我们可以得到从 npcnpcnpc 到 zpzpzp 的归一化分数，表明 npcnpcnpc 的哪些词与 zpzpzp 的每个词最相关。

因此，从npc到zp的第i个字的对齐表示可以得出：

最后，我们通过简单的求和，将原始的情境表征和相应的注意力向量结合起来，即 zpzpzp：

类似于计算zp的最终表征，我们也可以得到npc的表征，即 Hnpc′H'_{npc}Hnpc′。
       自注意力层。 自注意力层最后分别应用于 zpzpzp 和 npcnpcnpc 的表征，得到最终的向量。我们可以按以下方式计算 zpzpzp 的注意分数：
Sco=softmax(W1tanh(W2Hzp′))(6)\begin{aligned} Sco=softmax(W_1tanh(W_2H'_{zp})) \tag{6}\\ \end{aligned} Sco=softmax(W1tanh(W2Hzp′))(6)其中 W1∈R1×dW_1∈R^{1×d}W1∈R1×d 和 W2∈Rd×dW_2∈R^{d×d}W2∈Rd×d 是权重矩阵。然后我们可以得到 zpzpzp 的最终向量：
vzp=Sco⋅(Hzp′)T(7)\begin{aligned} v_{zp}=Sco·(H'_{zp})^T \tag{7}\\ \end{aligned} vzp=Sco⋅(Hzp′)T(7)同样地，我们可以得到 npcnpcnpc 的最终表示，即 vnpcv_{npc}vnpc。
       候选先行词的内容建模。 毫无疑问，候选先行词的内容也应该被考虑。与上下文的编码类似，我们应用一个 RNNs ，其输入由候选先行词中的单词组成（Yin等人，2018b）。然后我们可以得到名词代词内容np的隐藏状态 Hnp={hnp1,...,hnpi,...,hnpp}H_{np}=\{h^1_{np},..., h^i_{np},..., h^p_{np}\}Hnp={hnp1,...,hnpi,...,hnpp}，其中 ppp 是 npnpnp 的长度。
       为了更好地捕捉候选先行词内容中信息量更大的部分，我们在此通过利用其上下文的信息将注意力层整合到我们的模型中：

其中 WattW_{att}Watt 和 battb_{att}batt 是权重矩阵和偏置，然后我们可以得到最终的表示 vnpv_{np}vnp：

获得决议结果。 在生成 zpzpzp、npnpnp 和 npcnpcnpc 的表征后，我们使用两层前馈神经网络来计算每个零代词候选先行词的解析分数。以 vzpv_{zp}vzp、vnpcv_{npc}vnpc 和 vnpv_{np}vnp 为输入，我们的模型通过两个 tanhtanhtanh 层来计算分辨率分数。

其中 WjW_jWj 和 bjb_jbj 是这个前馈神经网络的参数，r0=(vzp;vnp;vnpc;vfe)r_0=(v_{zp}; v_{np}; v_{npc}; v_{fe})r0=(vzp;vnp;vnpc;vfe)。手工制作的特征 vfev_{fe}vfe，在以前的工作中使用（Yin等人，2016；2017；2018a；2018b），旨在捕捉 zpzpzp 和 npnpnp 之间的句法、位置和其他关系（Chen和Ng，2013；2016）。然后我们就可以得到解析得分：

其中，si∈(−∞,∞)s_i∈(-\infty,\infty)si∈(−∞,∞) 是一个标量，表示第 iii 个候选先行词 npinp_inpi 被预测为前者的解析概率，r−1r_{-1}r−1 是第二个隐藏层的输出。之后，我们得到所有候选先行词 {s1,s2,...,sk}\{s_1, s_2, ..., s_k\}{s1,s2,...,sk} 的解析分数。得分最大的候选先行词被选为 zpzpzp 的先行词。

3.3 配对损失 Pairwise Loss

为了指导模型的优化，我们设计了一个合理的损失，名为Pairwise Loss，它是基于一个成对的边缘损失和一个相似性约束，而不是以前方法中使用的交叉熵损失。我们将我们的损失函数称为Pairwise Loss，主要有两个原因：

我们把候选先行词集中的每个正确的先行词和每个错误的先行词作为一对，然后计算它们之间的对等边际损失。
我们把正确的前因放在一起，然后设计一个相似性约束来更好地训练模型。

成对的边缘损失（Pairwise-Margin Loss）。 以前的方法将任务视为每个零代词和候选先行词对的同指代分类任务，即把例子分为同指代或非同指代两类，然后通过最小化交叉熵误差来训练他们的模型，这种方法不太合理。首先，交叉熵损失函数为所有的例子设定了一个固定的决策边界，这不够灵活。其次，在解决同指代词的任务中，非同指代词的例子要比同指代词的例子多得多，这将导致数据不平衡的问题，在分类任务中无法有效解决。
为了解决上述问题，我们设计了一个成对边际损失，这比较合理。在提取的零代词 Szp={np1,np2,...,npk}S_{zp}=\{np_1, np_2, ..., np_k\}Szp={np1,np2,...,npk} 的候选先行词集合中，我们可以简单地将其分为两个集合，正确的候选先行词集合 SzpT={np1,np2,...,npk1}S^T_{zp}=\{np_1, np_2, ..., np_{k1} \}SzpT={np1,np2,...,npk1} 和错误的候选先行词集合 SzpF={np1,np2,...,npk2}S^F_{zp}=\{np_1, np_2, ..., np_{k2} \}SzpF={np1,np2,...,npk2}。然后，我们可以设计不同情况下的原始损失函数（如公式（12）所示，并在图3中说明）如下：

情况1：如果候选集同时包含正确的先行词和错误的先行词（SzpT≠ØS^T_{zp} \not= ØSzpT=Ø ∧ SzpF≠ØS^F_{zp}\not=ØSzpF=Ø），我们设计一个成对边缘损失，其中 m 是正确先行词和错误先行词之间的边缘。
情况2：如果候选集只包含正确的先行词（SzpT≠ØS^T_{zp} \not= ØSzpT=Ø ∧ SzpF=ØS^F_{zp}=ØSzpF=Ø，命名为案例2a）或错误的先行词（SzpT=ØS^T_{zp} = ØSzpT=Ø ∧ SzpF≠ØS^F_{zp}\not=ØSzpF=Ø，命名为案例2b），将设置边界值，即前者的下限值 bvTbv_TbvT和后者的上限值 bvFbv_FbvF，以指导这些实例的训练。边界值是根据满足案例1¹的样本所产生的分辨率分数来设置的。
情况3：如果候选集是空的（SzpT=ØS^T_{zp} = ØSzpT=Ø ∧ SzpF=ØS^F_{zp}=ØSzpF=Ø），相应的 zpzpzp 将被忽略。

通过设计的pairwise-margin loss，我们上面提到的两个问题都可以得到很好的解决。对偶-边际损失并没有设定一个明确的决策边界，而是要求正确先行词的解析概率比错误先行词的解析概率高一些。此外，pairwise-margin loss 可以轻松解决不平衡数据的问题。对于第一种情况，即最常见的情况，在计算 pairwise-margin loss 时，使用的正确例子的数量与错误例子的数量相同。
正确的先行词相似性。 由于特定Zp的候选集合中的正确先行词必须具有相同或接近的含义，我们将正确先行词之间的相似性整合到上述的对偶边际损失函数中。我们计算出正确先行词之间的余弦相似度，然后定义约束条件。
其中sim(·)是计算 vx1v_{x_1}vx1 和 vx2v_{x_2}vx2 之间余弦相似性的函数，这是在节中描述的 npnpnp 的表示。

最终损失函数。 该模型是通过最小化成对边际损失、相似性约束和L2正则化项的组合来训练的。

其中 λcλ_cλc 和 λλλ 是 LcL_cLc 和 L2L_2L2 正则化项的权重。
在设计的 LLL 中，成对边际损失 LoL_oLo 的设计是为了使所有正确的先行词得到比错误的先行词更大的解析分数，相似性约束 LcL_cLc 使同一零代词的正确先行词具有相似的表示，∣∣θ∣∣22||θ||^2_2∣∣θ∣∣22 是 L2L_2L2 正则化项，用于避免过度拟合。有了所提出的损失 LLL ，可以用合理的方式解决解析任务。

4 实验

4.1 实验设置

数据集。我们在OntoNotes 5.0数据集的中文部分进行了实验。这个数据集中的文档来自6个来源：BN（广播新闻），NW（新闻网），BC（广播对话），WB（网络博客），TC（电话对话）和MZ（杂志）。数据集的统计数据见表 1。

衡量标准。遵循以往关于零代词解析的方法（Zhao and Ng 2007; Chen and Ng 2016; Yin et al. 2016; 2017; 2018a; 2018b），采用F-score（F）来评估我们的模型，其计算方法如下。

其中，P和R是模型的精度和召回率，NhitN_{hit}Nhit、Nazp∗N_{azp}∗Nazp∗ 和 NazpN_{azp}Nazp 分别表示正确解决的例子、具有非空候选集的例子和测试集中的 AZPs 的数量。除了总体结果之外，我们还报告了每个来源的 F-cores。
       基线。我们使用最近的中文零代词解析方法作为基线，即基于学习的模型（Zhao and Ng 2007）；无监督的方法（Chen and Ng 2015）；还有一些是基于深度学习的方法（Chen and Ng 2016；Yin et al. 2016；2017；Liu et al. 2016；Yin et al. 2018a; 2018b）。
       超参数。我们通过Adam（Kingma and Ba 2014）最小化损失函数，学习率为5e-5，L2L_2L2 权重为1e-4。输入嵌入向量的维度为100，隐藏层和表征的维度为256，配对损失的边际 mmm 为0.1，正确先行词和错误先行词的边界值为 0.3 和 0.4，相似性约束 λcλ_cλc 的权重为0.5。此外，我们在每一层的输出上添加概率为 50% 的 dropout（Hinton等人，2012）。
       与之前的方法相同（Yin et al. 2018a; 2018b），我们取零代词前后文的十个字来编码 zpzpzp，候选先行词的上下文也用同样的方法处理。此外，当候选先行词的内容超过八个字时，我们取其最后的八个字。

4.2 与基线的比较

我们在表2中报告了HAN-PL和基线的实验结果（F-score），包括完整测试数据集的总体结果和每个来源的结果。

如表2所示，我们的模型 HAN-PL 在总体 F 分数上达到了60.2%，大大超过了最佳基线（Yin等人2018b）的2.9%。此外，我们对不同来源的测试语料库进行了实验，如前六栏所示。我们可以观察到，我们的模型 HANPL 在数据集的 6 个来源中的 4 个中提高了性能。更具体地说，我们的模型在所有文档的F-score上都优于最佳基线（Yin等人，2018b）：2.4%（来源NW）、0.1%（来源MZ）、1.1%（来源WB）、5.6%（来源BN）、2.2%（来源BC）和1.5%（来源TC）。我们的模型在某些来源（NW、BN、BC）上获得了比其他来源（MZ、WB、TC）更好的性能，原因之一可能是后者的文本长度较短，这使得注意力机制难以捕捉到信息。此外，这些资料中一些常见的大量口头语，如 "Er "和 “Yo”，也给零代词和候选词的编码带来困难。

4.3 分层注意力的有效性

为了验证使用分层注意力的有效性，我们在OntoNotes 5.0数据集上进行了广泛的实验，并报告了实验结果，如表 3 所示。我们设计了三个消融的模型：

w/o自注意力的HAN-PL应用了双向注意层，并对双向注意层的最终输出，即 Hzp′H'_{zp}Hzp′ 和 Hnpc′H'_{npc}Hnpc′，使用平均集合。
w/o npc2zp注意力的HAN-PL不应用从 npcnpcnpc 到 zpzpzp 的注意机制，而自我注意层应用于 HzpH_{zp}Hzp 和 Hnpc′H'_{npc}Hnpc′。
w/o zp2npc注意力的HAN-PL与最后一个模型相似，自注意层应用于 Hzp′H'_{zp}Hzp′ 和 HnpcH_{npc}Hnpc 上。

从实验结果来看，我们可以看到双向注意层和自注意层都可以获得改进的性能。如果没有自注意机制，性能比原方法低1.6%。此外，将双向注意层改为单向注意层，即只应用 npc2zp 注意或 zp2npc 注意，也会使性能下降。实际上，应用从 zp 到 npc 的注意更有效，因为相应的消融模型的性能比原始方法的性能差很多。
为了更好地说明层次注意网络的有效性，我们给出一个案例，如图4所示。从图中我们可以看出，零代词和候选先行词之间的层次注意学习可以成功地捕捉到解释零代词 "pro"和候选先行词 "双方 "的有用信息。零代词的上下文 "继承权 "和候选先行词的上下文 "继承权 "含义相似，得到了更多的关注，而一些无意义的词，如 “从”、"是 "和一些标点符号则被层次注意网络所忽略。最后，该模型可以达到零代词和候选先行词是同指代的结果。

4.4 成对损失的有效性

To verify the impact of applying Pairwise Loss, we conduct extensive experiments on the OntoNotes 5.0 dataset and experimental results are shown in Table 4. There are two ablated models designed:

HAN-PL w/o pairwise-margin loss将最终输出层改为softmax层，并使用交叉熵损失来指导模型的训练，这在以前的方法中得到了应用（Yin et al 2018b; Chen and Ng 2016; Zhao and Ng 2007）。
不考虑相似性约束的 HAN-PL 不考虑 LcL_cLc，即 λcλ_cλc 被设置为0。

如结果所示，配对损失是指导模型优化的一个合理有效的方法。用交叉熵损失代替配对损失，性能急剧下降了3.7%，这证实了应用配对损失对于良好的性能至关重要。此外，根据实验结果，SzpTS^T_{zp}SzpT 的 npnpnp 表示之间的相似性约束，可以利用正确候选先行词之间的全局信息，也有助于提高性能。

4.5 候选先行词数量的影响

为了研究候选集的大小对HAN-PL模型的性能有何影响，我们进行了大量的实验，结果见图5。如图所示，候选先行词越多，就越难找到正确的先行词。然而，我们的模型与AttentionZP（Yin等人，2018b）相比，当候选集变大时，有更明显的改善，原因是我们设计的注意力网络可以产生更强大的特征，并且配对损失可以使模型更具有辨别力。

4.6 案例研究

表5显示了从HANPL和AttentionZP（Yin等人，2018b）中抽取的一些定性的案例。我们可以观察到，我们的模型HAN-PL对于那些比较复杂的例子可以表现得更好。以第三个例子为例，候选的 "中国 "和 "侦察卫星 "有相似的语境，所以很难区分哪一个是正确的先行词。然而，我们的模型可以通过交互注意和对偶边际损失来学习这两个候选先行词之间的区别。因此，案例显示了我们的模型在零代词解析任务上的有效性。

5 总结

在本文中，我们提出了一种有效的带有配对损失的层次注意网络模型来解决中文零代词问题。我们设计了一个两层的注意力模型，以更好地模拟零代词和候选先行词。为了更合理地指导模型的训练，我们还将正确先行词之间的相似性约束整合到成对损失中。在OntoNotes 5.0数据集上的实验清楚地表明，我们模型的性能是最先进的。

以上是自己对原文翻译的结果，可能有部分疏漏请谅解。

【论文分享】用于中文零代词解析的带有配对损失的分层注意力网络相关推荐

CVPR2020｜比CNN更强有力，港中文贾佳亚团队提出两类新型自注意力网络
关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等原文链接:比CNN更强有力,港中文贾佳亚团队提出两类新型自注意力网络 Exploring Self-a ...
论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...
笔记整理 | 谭亦鸣,东南大学博士生来源:COLING 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf 本文发现, ...
【论文分享】通过图神经网络明确捕捉实体提及的关系，用于特定领域的命名实体识别
[ACL 2021] Explicitly Capturing Relations between Entity Mentions via Graph Neural Networks for Doma ...
论文分享 | Yann LeCun 联合发布、工程师都在读的自监督学习论文
文章导读本期文章中,我们为大家带来了 3 篇自监督学习的相关论文,其中两篇是由卷积网络之父 Yann LeCun 参与发布. 对于大型机器视觉训练任务而言,自监督学习 (Self-supervise ...
论文研读-用于处理昂贵问题的广义多任务优化GMFEA
论文研读-用于处理昂贵问题的广义多任务优化GMFEA Generalized Multitasking for Evolutionary Optimization of Expensive Probl ...
2021-05-28 2021年ICSE中与Android相关的论文分享
2021年ICSE中与Android相关的论文分享关于2021 ICSE 文章1:Too Quiet in the Library: An Empirical Study of Security U ...
【论文分享】EMNLP 2020 自然语言理解
点击上方,选择星标,每天给你送干货! 来自:复旦DISC 引言自然语言理解(Natural Language Understanding,NLU)是希望机器像人一样,具备正常人的语言理解能力,是人机 ...
【icyle】组会论文分享编写：从Markdown到Latex
组会论文的编写:从Markdown到Latex Markdown:简单高效,有时候有点bug,但够用就行食用方法需要下载的软件需要安装的vscode插件 pandoc设置导出pdf文件 Lat ...
PX4飞控Avoidance功能包2018论文分享
PX4飞控Avoidance功能包2018论文分享 PX4官方Avoidance-2018论文引言(略) 摘要简介相关工作全局障碍规避局部障碍规避对本文启发方法 $3DVFH$算法建立 ...

【论文分享】用于中文零代词解析的带有配对损失的分层注意力网络

摘要