论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument
文章目录
- 1 简介
- 1.1 创新
- 2 方法
- 3 实验
1 简介
论文题目:Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument Extraction
论文来源:EMNLP 2020
论文链接:https://arxiv.org/pdf/2010.13391.pdf
1.1 创新
- 同时使用句法和语义结构,以帮助在论元抽取中学习到高效的向量表示,使用Graph Transformer Networks(GTN)对这两种结构进行融合。
- 为了提高GTN的泛化性,防止过拟合,使用了Information Bottleneck,在loss函数中加入了互信息。
2 方法
模型的整体框架主要分为下面四个部分:
- Sentence Encoding: 每个token被表示为bert编码向量和到论元、触发词的距离编码,然后经过BiLSTM进行得到H=h1,...,hNH=h_1,...,h_NH=h1,...,hN
- Structure Generation: 此模块包括句法结构生成和语义结构生成。
句法结构生成:句法结构依赖树AdA^dAd对触发词和候选论元不可知,为了解决这个问题,根据触发词和候选论元到其他词的路径长度,提出两个特殊定制的句法结构。对于候选论元,首先计算候选论元到其余词的距离diad_i^adia,然后通过查表映射为d^ia=D[dia]\widehat{d}_i^a=D[d_i^a]dia=D[dia],然后生成一个论元句法结构Aa={si,ja}i,j=1..NA^a={\{s_{i,j}^a\}}_{i,j=1..N}Aa={si,ja}i,j=1..N其中si,jas_{i,j}^asi,ja的计算公式如下,同理可以得到触发词句法结构Ae={si,je}i,j=1..NA^e={\{s_{i,j}^e\}}_{i,j=1..N}Ae={si,je}i,j=1..N
si,ja=sigmoid(FF([d^ia,d^ja,d^ia⊙d^ja,∣d^ia−d^ja∣,∣d^ia+d^ja∣]))s_{i,j}^a=sigmoid(FF([\widehat{d}_i^a,\widehat{d}_j^a,\widehat{d}_i^a{\odot}\widehat{d}_j^a,|\widehat{d}_i^a-\widehat{d}_j^a|,|\widehat{d}_i^a+\widehat{d}_j^a|]))si,ja=sigmoid(FF([dia,dja,dia⊙dja,∣dia−dja∣,∣dia+dja∣]))
语义结构生成:语义结构利用句子中wiw_iwi和wjw_jwj的上下文语义来学习一对单词(wi;wj)(w_i;w_j)(wi;wj)的重要性得分。语义结构As={si,js}i,j=1..NA^s={\{s_{i,j}^s\}}_{i,j=1..N}As={si,js}i,j=1..N的计算公式如下(左式),左式对触发词和候选论元不可知,因此使用右式加入候选论元和触发词的上下文语义信息。
- Structure Combination:此模块对上述模块的不同结构A=[Ad,Aa,Ae,As]A=[A^d,A^a,A^e,A^s]A=[Ad,Aa,Ae,As]进行融合,首先添加一个identity矩阵,A=[Ad,Aa,Ae,As,I]=[A1,A2,A3,A4,A5]A=[A^d,A^a,A^e,A^s,I]=[A_1,A_2,A_3,A_4,A_5]A=[Ad,Aa,Ae,As,I]=[A1,A2,A3,A4,A5],Graph Transformer Networks(GTN)生成C个通道,每个通道M个中间结构Q1i,Q2i,...,QMiQ^i_1,Q^i_2,...,Q^i_MQ1i,Q2i,...,QMi,在GTNs中QjiQ^i_jQji的计算公式为Qji=∑v=1..5αj,viAvQ^i_j={\sum}_{v=1..5}{\alpha}^i_{j,v}A_vQji=∑v=1..5αj,viAv,为了在第i个通道中捕捉multi-hop路径,令Qi=Q1i×Q2i×...QMiQ^i=Q^i_1×Q^i_2×...Q^i_MQi=Q1i×Q2i×...QMi,然后使用每个结构进行GCN,公式如下,此时每个token的表示为hi′=[hi−1,G,hi−2,G,hi−3,G,...,hi−C,G]h'_i=[h_i^{-1,G},h_i^{-2,G},h_i^{-3,G},...,h_i^{-C,G}]hi′=[hi−1,G,hi−2,G,hi−3,G,...,hi−C,G],然后令R=[h’_a,h’_e,MaxPool(h’_1,h’_2,…,h’_N)],最后进行分类。
loss函数为:Lpred=−P(y∣W,a,t)\mathcal{L}_{pred}=-P(y|W,a,t)Lpred=−P(y∣W,a,t) - Model Regularization: GTN模型的高表示学习能力可能导致仅记住特定于训练数据的信息(即过拟合)。因此将GTN模型看作Information Bottleneck (IB),最小化GTN产生的向量H′=h1′,h2′,...,hN′H'=h'_1,h'_2,...,h'_NH′=h1′,h2′,...,hN′和BiLSTM产生的句子编码H=h_1,h_2,…,h_N,为了便于计算互信息,首先利用max-pooling操作令h=MaxPool(h1,h2,...,hN)h=MaxPool(h_1,h_2,...,h_N)h=MaxPool(h1,h2,...,hN),h′=MaxPool(h1′,h2′,...,hN′)h'=MaxPool(h'_1,h'_2,...,h'_N)h′=MaxPool(h1′,h2′,...,hN′)。由于它们都是高维向量,计算量较大,因此使用mutual information neural estimation方法估计互信息,通过对抗学习可变鉴别器的损失函数估计互信息,互信息被定义为h和h’两个向量的联合和边缘分布的KL散度,取样[h,h’]作为正例,[h,h^)[h,\widehat{h})[h,h)(h^\widehat{h}h为其他句子的BiLSTM编码)为负例,然后经过两层全连接层D进行分类,D的损失函数作为互信息的估计,公式如下:
总loss为:L=Lprec+αdiscLdisc\mathcal{L}=\mathcal{L}_{prec}+{\alpha}_{disc}\mathcal{L}_{disc}L=Lprec+αdiscLdisc
3 实验
使用数据集为ACE 2005和TAC KBP 2016,实验结果如下图:
消融实验结果:
在不同长度句子中的实验结果:
论文笔记 EMNLP 2020|Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument相关推荐
- 论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介 论文题目:Edge-Enhanced Graph Convolution Networks for Even ...
- 论文笔记 EMNLP 2020|Resource-Enhanced Neural Model for Event Argument Extraction
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介 论文题目:Resource-Enhanced Neural Model for Event Argument Extrac ...
- 【论文笔记】Factorizable Graph Convolutional Networks
文章目录 1. Abstract 2. Method 2.1 Disentangling Step 2.2 Aggregation Step 2.3 Merging Step 3. 总体架构 4. 超 ...
- 论文笔记 EMNLP 2020|Event Extraction by Answering (Almost) Natural Questions
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介 论文题目:Event Extraction by Answering (Almost) Natural Questions ...
- 论文笔记之:Graph Attention Networks
Graph Attention Networks 2018-02-06 16:52:49 Abstract: 本文提出一种新颖的 graph attention networks (GATs), 可 ...
- 论文笔记 EMNLP 2021|Uncertain Local-to-Global Networks for Document-Level Event Factuality Identificatio
文章目录 1 简介 1.1 创新 2 方法 3.1 Local Uncertainty Estimation 3.2 Uncertain Information Aggregation 3.3 Rep ...
- 论文笔记:Federated Graph Neural Networks: Overview, Techniques and Challenges
论文地址:https://arxiv.org/pdf/2202.07256.pdf 目录 一.摘要 二.引言 三.3层FedGNN分类方法 1.分类方法简述 2.客户端通过图拓扑进行关联 2.1.有中 ...
- 交通预测论文笔记:Spatio-Temporal Graph Convolutional Networks: A Deep Learning Frameworkfor Traffic Forecast
0 abstract 由于交通数据极强的非线性和复杂性,传统方法很难进行中长期的交通预测. 我们提出了STGCN结构来解决交通领域的预测问题.我们的模型建立在卷积之上,有更快的训练速度和更少的参数. ...
- 论文笔记--Spatial-Temporal Fusion Graph Neural Networks for Traffic Flow Forecasting
在交通预测问题上,现有的框架通常利用给定的空间邻接图和复杂的机制来建模空间和时间关联.作者认为使用给定的空间邻接图会限制模型的有效时空相关性学习,并且它们通常使用单独的模块来实现空间和时间相关性,或者 ...
最新文章
- Linux之文件权限命令
- linux的rt补丁安装,微软发布补丁封杀允许Surface RT安装Linux的“漏洞”
- ActiveMQ(07):ActiveMQ结合Spring开发--建议
- 诗歌rails之头像上传和调整
- MediaCodec 编码时间戳问题
- ios与android设备即时语音互通的录音格式预研说明
- des密钥java实现_java中以DES的方式实现对称加密并提供密钥的实例
- SQL数据库基础练习题及答案
- Avaya Aura™ 独家观察报告
- 国美易卡对IP层数据进行处理,国美易卡对TCP/IP的封装
- logstash grok mysql_logstash grok
- 实现HTML的简单压缩
- 一个高中生的编程自学经历
- 已解决:ERROR com.rabbitmq.client.impl.ForgivingExceptionHandler - An unexpected connection driver error
- python证件照_python实现证件照换底功能
- 量子计算机人类意识云,我们的大脑很可能就是一台高度发达的量子计算机
- 泉州dns服务器无响应,泉州联通dns服务器地址
- 免费的网页原型制作工具
- 向量组相关定理及其推论
- Trunk扩展集及单臂路由
热门文章
- Python实现SMMS图床
- Python入门自学进阶-Web框架——8、认识Ajax,与Django交互,基于jQuery
- 关于EPS attach和EPS combined attach with sms only、NBIOT等
- CanMV K210 AI开发板全网首发,项目代码完全开源,千套开发板限时优惠!
- 用C语言编辑一光年相当于多少米,一光年到底有多远?是光速跑了365天的距离,这样说你就少算了...
- 腾讯企业邮信任此计算机,腾讯企业邮箱:微信动态密码为邮箱账号增加安全保障...
- mac系统恢复服务器上的安装器损坏,Mac提示App已损坏你应该将它移到废纸篓的解决方案-mac无法安装软件解决教程 - 河东软件园...
- 基于opencv和pillow实现人脸识别系统(附详细源代码)
- Net-Speeder为OpenVZ加速
- 最长公共子序列的问题