【论文阅读】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relat

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction
AAAI 2021

1. 实体构造

考虑以下两种结构

共现结构：两个词是否在同一个句子中
共指结构：两个提及是否指向同一个实体

这两种结构都可以TRUE FALSE来描述

对于共现结构，我们将文档分割成句子，并将它们作为显示提及交互的最小单元。我们分别表示它们是内部的和句子间的。

在共指结构中，“True”表示两种提及指的是同一个实体，因此需要一起进行研究和推理;“False”意味着在某些谓词下可能相互关联的一对不同的实体。
我们将它们分别表示为coref和relate。
综上所述，这两种结构是相互正交的，导致了四种不同的无向依赖关系，如表1所示。

除了提及之间的依赖关系之外，我们进一步考虑实体提及与其句子内非实体词之间的另一种依赖关系。我们称它为intraNE。
对于其他句子间的非实体词，我们假设不存在关键依赖关系，并将其归类为NA。
因此，整个结构被表述为一个以实体为中心的邻接矩阵，其所有元素来自一个有限依赖集：
{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA}

2. SSAN

SSAN继承了Transformer 编码器的架构，它是一堆相同的块，用前馈网络、残差网络和层归一化包裹起来。作为其核心组成部分，我们提出了带有两个可选的转换模块的结构化的自我注意机制。

给定输入token $x = (x_1,x_2,...,x_n)$
用 $S=\{s_{ij}\}$ 展示架构
$sij∈{intra+coref,inter+coref,intra+relate,inter+relate,intraNE,NA}s_{ij}\in\{intra+coref, inter+coref, intra+relate, inter+relate,intraNE, NA\}$
$s_{ij}$ 是一个离散变量，表示 $x_i$ 到 $x_j$ 之间的依赖关系
在这里，把依赖关系从提及级别扩展到token级别。
如果提及实例包含多个子词，相应为每个token分配依赖项。
在每次提及内，它的子词应当符合 $i n t r a + c o r e f$
对于每一层 $l$ ，输入向量 $xil∈Rdinx_i^l\in R^{d_{in}}$ 首先投影到Q K V向量。

基于这些输入和实体结构，我们计算非结构化注意分数和结构化注意偏向，然后将它们聚合在一起来指导最终的自我注意流。

非结构化注意分数是由Q-K在标准自注意力产生。

使用一个额外的模块，建模Q-K之间的结构性依赖。

额外提出的这个模块，调节了从 $x_i$ 到 $x_j$ 的注意力流。因此，模型受益于结构性依赖的指导。

经过第三步，获得的向量，应用softmax之后，v向量聚合起来。

$z_i^{l+1}$ 是更新的上下文表示。

3. Transformation Module

为了将离散结构 $s_{ij}$ 合并到一个端到端可训练的深度模型中，我们将每个 $s_{ij}$ 实例化为具有特定参数的神经层，以组合的方式训练和应用它们。

对于每个由 $s_{ij}$ 组成的输入结构S，我们有一个由相应的层参数组成的结构化模型。
提出两种方案

Biaffine Transformation
Decomposed Linear Transformation

3.1 Biaffine Transformation

Biaffine Transformation 的bias计算如下。

同时并有方向地，处理Q K向量。
对于 $b_{l,s_{ij}}$ 直接为每个依赖项建立先验偏差模型，而不依赖于其上下文。

3.2 Decomposed Linear Transformation

受Transformer如何分解word embedding和position embedding的启发，我们提出在Q向量和K向量上分别引入偏差，从而将偏差分解为：

公式中，这三项分别代表：

基于Q向量的偏差
基于K向量的偏差
早期偏差

结构化自注意力的整体计算公式为：

根据上下文，由于Transformation层自适应地对结构性依赖进行建模，我们不会在不同的层或不同的注意头之间共享它们。

早期，Transformer提出输入token对的相对位置信息模型。
他们首先将相对距离映射到embedding中，然后将它们与K向量相加，然后计算注意力得分。
从技术上讲，这种设计可以看作是我们所分解的线性变换的简化版本，只包含查询条件偏差。

4. SSAN for Relation Extraction

该模型以文档文本为输入，在整个编码阶段的实体结构指导下构建其上下文表示。

我们简单地使用它来进行关系抽取，并进行最小设计。
在编码阶段之后，我们通过平均池化为每个目标实体构造一个固定的维数表示，我们表示为 $e_i$
对于每个实体对，我们根据预先指定的关系模式计算关系r的概率为：

模型用交叉熵损失训练模型。

我们形式化实体结构的文档级关系提取。在此基础上，我们提出了SSAN来有效地整合这些结构先验，同时交互式地执行实体的上下文推理和结构推理。
在三个数据集上的性能验证了实体结构的有效性和SSAN模型的有效性。