【论文阅读】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relat
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction
AAAI 2021
1. 实体构造
考虑以下两种结构
- 共现结构: 两个词是否在同一个句子中
- 共指结构: 两个提及是否指向同一个实体
这两种结构都可以TRUE FALSE来描述
对于共现结构,我们将文档分割成句子,并将它们作为显示提及交互的最小单元。我们分别表示它们是内部的和句子间的。
在共指结构中,“True”表示两种提及指的是同一个实体,因此需要一起进行研究和推理;“False”意味着在某些谓词下可能相互关联的一对不同的实体。
我们将它们分别表示为coref和relate。
综上所述,这两种结构是相互正交的,导致了四种不同的无向依赖关系,如表1所示。
除了提及之间的依赖关系之外,我们进一步考虑实体提及与其句子内非实体词之间的另一种依赖关系。我们称它为intraNE。
对于其他句子间的非实体词,我们假设不存在关键依赖关系,并将其归类为NA。
因此,整个结构被表述为一个以实体为中心的邻接矩阵,其所有元素来自一个有限依赖集:
{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA}
2. SSAN
SSAN继承了Transformer 编码器的架构,它是一堆相同的块,用前馈网络、残差网络和层归一化包裹起来。作为其核心组成部分,我们提出了带有两个可选的转换模块的结构化的自我注意机制。
给定输入token x=(x1,x2,...,xn)x = (x_1,x_2,...,x_n)x=(x1,x2,...,xn)
用S={sij}S=\{s_{ij}\}S={sij}展示架构
sij∈{intra+coref,inter+coref,intra+relate,inter+relate,intraNE,NA}s_{ij}\in\{intra+coref, inter+coref, intra+relate, inter+relate,intraNE, NA\}sij∈{intra+coref,inter+coref,intra+relate,inter+relate,intraNE,NA}
sijs_{ij}sij是一个离散变量,表示xix_ixi到xjx_jxj之间的依赖关系
在这里,把依赖关系从提及级别扩展到token级别。
如果提及实例包含多个子词,相应为每个token分配依赖项。
在每次提及内,它的子词应当符合intra+corefintra+corefintra+coref
对于每一层lll,输入向量xil∈Rdinx_i^l\in R^{d_{in}}xil∈Rdin首先投影到Q K V向量。
基于这些输入和实体结构,我们计算非结构化注意分数和结构化注意偏向,然后将它们聚合在一起来指导最终的自我注意流。
非结构化注意分数是由Q-K在标准自注意力产生。
使用一个额外的模块,建模Q-K之间的结构性依赖。
额外提出的这个模块,调节了从xix_ixi到xjx_jxj的注意力流。因此,模型受益于结构性依赖的指导。
经过第三步,获得的向量,应用softmax之后,v向量聚合起来。
zil+1z_i^{l+1}zil+1是更新的上下文表示。
3. Transformation Module
为了将离散结构sijs_{ij}sij合并到一个端到端可训练的深度模型中,我们将每个sijs_{ij}sij实例化为具有特定参数的神经层,以组合的方式训练和应用它们。
对于每个由sijs_{ij}sij组成的输入结构S,我们有一个由相应的层参数组成的结构化模型。
提出两种方案
- Biaffine Transformation
- Decomposed Linear Transformation
3.1 Biaffine Transformation
Biaffine Transformation 的bias计算如下。
同时并有方向地,处理Q K向量。
对于bl,sijb_{l,s_{ij}}bl,sij直接为每个依赖项建立先验偏差模型,而不依赖于其上下文。
3.2 Decomposed Linear Transformation
受Transformer如何分解word embedding和position embedding的启发,我们提出在Q向量和K向量上分别引入偏差,从而将偏差分解为:
公式中,这三项分别代表:
- 基于Q向量的偏差
- 基于K向量的偏差
- 早期偏差
结构化自注意力的整体计算公式为:
根据上下文,由于Transformation层自适应地对结构性依赖进行建模,我们不会在不同的层或不同的注意头之间共享它们。
早期,Transformer提出输入token对的相对位置信息模型。
他们首先将相对距离映射到embedding中,然后将它们与K向量相加,然后计算注意力得分。
从技术上讲,这种设计可以看作是我们所分解的线性变换的简化版本,只包含查询条件偏差。
4. SSAN for Relation Extraction
该模型以文档文本为输入,在整个编码阶段的实体结构指导下构建其上下文表示。
我们简单地使用它来进行关系抽取,并进行最小设计。
在编码阶段之后,我们通过平均池化为每个目标实体构造一个固定的维数表示,我们表示为eie_iei
对于每个实体对,我们根据预先指定的关系模式计算关系r的概率为:
模型用交叉熵损失训练模型。
我们形式化实体结构的文档级关系提取。在此基础上,我们提出了SSAN来有效地整合这些结构先验,同时交互式地执行实体的上下文推理和结构推理。
在三个数据集上的性能验证了实体结构的有效性和SSAN模型的有效性。
【论文阅读】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relat相关推荐
- Entity Structure Within and Throughout: Modeling Mention Dependencies forDocument-Level RE笔记
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Ex ...
- [论文阅读] (07) RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 【论文阅读】Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances
目录 一.简介 1. 背景 2. 简介 二.方法 1. 任务 2. 模型架构 Input Embedding Transformer Block Flow Module Response Genera ...
- [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (27) AAAI20 Order Matters: 基于图神经网络的二进制代码相似性检测(腾讯科恩实验室)
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测(经典)
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
最新文章
- (推荐)叮当——中文语音对话机器人
- libcurl网络连接使用tcp/ip
- php正则表达式应用,PHP 正则表达式应用
- Android基础知识之智能指针:强指针和弱指针
- filter过滤后重新添加_Kibana基本使用---使用Flight Dashboard过滤数据
- 用VC++ 6.0实现视频捕捉
- 软件测试达内视频笔记(一)
- Qt开源作品40-图片及文字与base64编码互换
- 解决WPS2000非正常删除后的重安装问题(转)
- 【论文笔记】Imagenet-trained cnns are Biased towards Texture; Increasing Shape Bias Improves accuracy
- 阿里王坚:万物互联网=云计算+大数据
- PCB叠层排布原则以及AD中如何设计叠层
- vscode的code runner不生成临时文件
- 计算机word资料,怎样快速找到电脑中的Word文档
- H5移动端前置摄像头成像方向错误,横屏方向错误
- webpack基础配置
- 签名文字头像PSD模板源文件打包3D艺术字贴图创意网红头像-李廷学
- 学习OpCode前言
- RFID项目中常见问题分析
- Redhat更换yum源