论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument

文章目录

1 简介
- 1.1 创新
2 方法
3 实验

1 简介

论文题目：Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument Extraction
论文来源：EMNLP 2020
论文链接：https://arxiv.org/pdf/2010.13391.pdf

1.1 创新

同时使用句法和语义结构，以帮助在论元抽取中学习到高效的向量表示，使用Graph Transformer Networks(GTN)对这两种结构进行融合。
为了提高GTN的泛化性，防止过拟合，使用了Information Bottleneck，在loss函数中加入了互信息。

2 方法

模型的整体框架主要分为下面四个部分：

Sentence Encoding: 每个token被表示为bert编码向量和到论元、触发词的距离编码，然后经过BiLSTM进行得到H=h1,...,hNH=h_1,...,h_NH=h1,...,hN
Structure Generation: 此模块包括句法结构生成和语义结构生成。
句法结构生成：句法结构依赖树AdA^dAd对触发词和候选论元不可知，为了解决这个问题，根据触发词和候选论元到其他词的路径长度，提出两个特殊定制的句法结构。对于候选论元，首先计算候选论元到其余词的距离diad_i^adia,然后通过查表映射为d^ia=D[dia]\widehat{d}_i^a=D[d_i^a]dia=D[dia],然后生成一个论元句法结构Aa={si,ja}i,j=1..NA^a={\{s_{i,j}^a\}}_{i,j=1..N}Aa={si,ja}i,j=1..N其中si,jas_{i,j}^asi,ja的计算公式如下,同理可以得到触发词句法结构Ae={si,je}i,j=1..NA^e={\{s_{i,j}^e\}}_{i,j=1..N}Ae={si,je}i,j=1..N
si,ja=sigmoid(FF([d^ia,d^ja,d^ia⊙d^ja,∣d^ia−d^ja∣,∣d^ia+d^ja∣]))s_{i,j}^a=sigmoid(FF([\widehat{d}_i^a,\widehat{d}_j^a,\widehat{d}_i^a{\odot}\widehat{d}_j^a,|\widehat{d}_i^a-\widehat{d}_j^a|,|\widehat{d}_i^a+\widehat{d}_j^a|]))si,ja=sigmoid(FF([dia,dja,dia⊙dja,∣dia−dja∣,∣dia+dja∣]))
语义结构生成：语义结构利用句子中wiw_iwi和wjw_jwj的上下文语义来学习一对单词(wi;wj)(w_i;w_j)(wi;wj)的重要性得分。语义结构As={si,js}i,j=1..NA^s={\{s_{i,j}^s\}}_{i,j=1..N}As={si,js}i,j=1..N的计算公式如下(左式)，左式对触发词和候选论元不可知，因此使用右式加入候选论元和触发词的上下文语义信息。

Structure Combination：此模块对上述模块的不同结构A=[Ad,Aa,Ae,As]A=[A^d,A^a,A^e,A^s]A=[Ad,Aa,Ae,As]进行融合,首先添加一个identity矩阵，A=[Ad,Aa,Ae,As,I]=[A1,A2,A3,A4,A5]A=[A^d,A^a,A^e,A^s,I]=[A_1,A_2,A_3,A_4,A_5]A=[Ad,Aa,Ae,As,I]=[A1,A2,A3,A4,A5],Graph Transformer Networks(GTN)生成C个通道，每个通道M个中间结构Q1i,Q2i,...,QMiQ^i_1,Q^i_2,...,Q^i_MQ1i,Q2i,...,QMi，在GTNs中QjiQ^i_jQji的计算公式为Qji=∑v=1..5αj,viAvQ^i_j={\sum}_{v=1..5}{\alpha}^i_{j,v}A_vQji=∑v=1..5αj,viAv,为了在第i个通道中捕捉multi-hop路径，令Qi=Q1i×Q2i×...QMiQ^i=Q^i_1×Q^i_2×...Q^i_MQi=Q1i×Q2i×...QMi,然后使用每个结构进行GCN，公式如下，此时每个token的表示为hi′=[hi−1,G,hi−2,G,hi−3,G,...,hi−C,G]h'_i=[h_i^{-1,G},h_i^{-2,G},h_i^{-3,G},...,h_i^{-C,G}]hi′=[hi−1,G,hi−2,G,hi−3,G,...,hi−C,G],然后令R=[h’_a,h’_e,MaxPool(h’_1,h’_2,…,h’_N)],最后进行分类。

loss函数为：Lpred=−P(y∣W,a,t)\mathcal{L}_{pred}=-P(y|W,a,t)Lpred=−P(y∣W,a,t)
Model Regularization: GTN模型的高表示学习能力可能导致仅记住特定于训练数据的信息(即过拟合)。因此将GTN模型看作Information Bottleneck (IB)，最小化GTN产生的向量H′=h1′,h2′,...,hN′H'=h'_1,h'_2,...,h'_NH′=h1′,h2′,...,hN′和BiLSTM产生的句子编码H=h_1,h_2,…,h_N,为了便于计算互信息，首先利用max-pooling操作令h=MaxPool(h1,h2,...,hN)h=MaxPool(h_1,h_2,...,h_N)h=MaxPool(h1,h2,...,hN),h′=MaxPool(h1′,h2′,...,hN′)h'=MaxPool(h'_1,h'_2,...,h'_N)h′=MaxPool(h1′,h2′,...,hN′)。由于它们都是高维向量，计算量较大，因此使用mutual information neural estimation方法估计互信息，通过对抗学习可变鉴别器的损失函数估计互信息，互信息被定义为h和h’两个向量的联合和边缘分布的KL散度，取样[h,h’]作为正例，[h,h^)[h,\widehat{h})[h,h)(h^\widehat{h}h为其他句子的BiLSTM编码)为负例，然后经过两层全连接层D进行分类，D的损失函数作为互信息的估计，公式如下：

总loss为：L=Lprec+αdiscLdisc\mathcal{L}=\mathcal{L}_{prec}+{\alpha}_{disc}\mathcal{L}_{disc}L=Lprec+αdiscLdisc

3 实验

使用数据集为ACE 2005和TAC KBP 2016，实验结果如下图：

消融实验结果：

在不同长度句子中的实验结果：

论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument相关推荐

论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介论文题目:Edge-Enhanced Graph Convolution Networks for Even ...
论文笔记 EMNLP 2020|Resource-Enhanced Neural Model for Event Argument Extraction
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介论文题目:Resource-Enhanced Neural Model for Event Argument Extrac ...
【论文笔记】Factorizable Graph Convolutional Networks
文章目录 1. Abstract 2. Method 2.1 Disentangling Step 2.2 Aggregation Step 2.3 Merging Step 3. 总体架构 4. 超 ...
论文笔记 EMNLP 2020|Event Extraction by Answering (Almost) Natural Questions
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介论文题目:Event Extraction by Answering (Almost) Natural Questions ...
论文笔记之：Graph Attention Networks
Graph Attention Networks 2018-02-06 16:52:49 Abstract: 本文提出一种新颖的 graph attention networks (GATs), 可 ...
论文笔记 EMNLP 2021|Uncertain Local-to-Global Networks for Document-Level Event Factuality Identificatio
文章目录 1 简介 1.1 创新 2 方法 3.1 Local Uncertainty Estimation 3.2 Uncertain Information Aggregation 3.3 Rep ...
论文笔记：Federated Graph Neural Networks: Overview, Techniques and Challenges
论文地址:https://arxiv.org/pdf/2202.07256.pdf 目录一.摘要二.引言三.3层FedGNN分类方法 1.分类方法简述 2.客户端通过图拓扑进行关联 2.1.有中 ...
交通预测论文笔记：Spatio-Temporal Graph Convolutional Networks: A Deep Learning Frameworkfor Traffic Forecast
0 abstract 由于交通数据极强的非线性和复杂性,传统方法很难进行中长期的交通预测. 我们提出了STGCN结构来解决交通领域的预测问题.我们的模型建立在卷积之上,有更快的训练速度和更少的参数. ...
论文笔记--Spatial-Temporal Fusion Graph Neural Networks for Traffic Flow Forecasting
在交通预测问题上,现有的框架通常利用给定的空间邻接图和复杂的机制来建模空间和时间关联.作者认为使用给定的空间邻接图会限制模型的有效时空相关性学习,并且它们通常使用单独的模块来实现空间和时间相关性,或者 ...