论文信息

作者:

  • Xinsong Zhang Shanghai Jiao Tong University
  • Pengshuai Li Shanghai Jiao Tong University
  • Weijia Jia University of Macau & Shanghai Jiao Tong University
  • Hai Zhao Shanghai Jiao Tong University

论文来源:

AAAI-2019

论文引用:

Zhang X, Li P, Jia W, et al. Multi-labeled relation extraction with attentive capsule network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 7484-7491.

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/4739

摘要:

从一个句子中揭示重叠的多重关系仍然具有挑战性。目前大多数神经网络模型的工作都不方便地假设每个句子都显式地映射到一个关系标签上,不能正确地处理多个关系,因为这些关系的重叠特征要么被忽略,要么很难识别。针对这一问题,本文提出了一种新的基于胶囊网络的多标记关系提取方法,该方法在识别单个句子中高度重叠的关系方面,比现有的卷积或递归网络具有更好的性能。为了更好地进行特征聚类和关系提取,我们进一步设计了基于注意力机制的路由算法和一种sliding-margin损失函数,并将其嵌入到胶囊网络中。实验结果表明,该方法确实能够提取出高度重叠的特征,与现有的方法相比,关系提取的性能有了显著的提高。


1. 动机

之前的基于神经网络的RE模型,在句子有多个关系标签的情况下效果不佳。

由于以下两个缺点,在提取高度重叠和离散的关系特征时面临挑战。

  • 首先,一个实体对可以在一个句子中表达多个关系,这将严重混淆关系抽取器。之前的工作大多都是用CNN、RNN之类的神经网络来提取low-level的特征,然后用max-pooling、word attention之类的方法来将low-level的特征映射到high-level的特征。但是对于多分类问题来说,一个sentence里面会有很多overlap的relation特征,难以明确识别。一个高层次的关系向量还不足以准确表达多个关系。
  • 其次,现有的方法忽略了关系特征的离散化。例如,如图1所示,所有的句子都用离散分布在句子中的几个有意义的单词(图中标记为斜体)来表达它们之间的关系。而常用的神经网络方法处理结构固定的句子,很难收集到不同位置的关系特征。作者认为现存的方法,不足以聚集这些离散token的信息。


在本文中,为了提取重叠和离散的关系特征,我们提出了一种利用关注胶囊网络进行多标签关系提取的方法。如上图所示,所提出方法的关系提取器由三个主要层构成,即特征提取、特征聚类和关系预测。第一种提取低层次语义。第二层将低层次特征聚类成高层次关系表示,最后一层预测每个关系表示的关系类型。

胶囊网络(Capsule)是用来表达特征的一小组神经元。它的总长度表示特征的重要性,胶囊(向量)的方向表示特征的特定属性。

  • 首先通过聚类关系特征将胶囊网络应用于多标签关系抽取。
  • 我们提出了一种基于注意力的路由算法来精确提取关系特征,并提出了一种滑动边界损失函数来很好地学习多种关系。
  • 我们在两个基准上的实验表明,我们提出方法的性能达到了新的sota。

we propose a sliding-margin loss function to address the problem of “no relation” in multiple labels scenario. A sentence is classified as “no relation” only when the probabilities for all the other specific classes are below a boundary. The boundary is dynamically adjusted in the training process.

2. 模型与算法

2.1 模型总体结构

  • Feature Extracting Layer:用Bi-LSTM来抽取low-level的语义特征。
  • Feature Clustering Layer:这个模块的目的是为了在low-level的特征中选择出对关系有用的特征,聚合到high-level特征。其实就是为了解决overlapped and discrete relation feature。
  • Relation Predicting Layer:在这里对关系进行预测分类。

2.2 特征提取层(Feature Extracting Layer)

给定一个句子b∗b^*b和两个目标实体,使用双LSTM网络提取句子的低层特征。

模型的输入表示包括词嵌入(Word Embeddings )和位置嵌入(Position Embeddings)


词嵌入:

word2vec中的skip-gram,将每个词嵌入p维的实值向量。

位置嵌入:

位置嵌入被定义为从当前单词到实体的相对距离的组合。

例如“Arthur Lee was born in Memphis.”这个句子

“ born”与实体[Arthur Lee] 的距离为2,与实体[Memphis]的距离为-2

将这些相对距离嵌入到q维向量空间


词嵌入和位置嵌入作为网络输入向量连接在一起。

我们将一个句子中的所有单词表示为一个初始向量序列b∗={x1,...xi,...,xn}b^* = \{x_1,...x_i,...,x_n\}b={x1,...xi,...,xn}xix_ixi为p+q维向量,n是单词的数量。然后输入一个双向LSTM。

2.3 Feature Clustering Layer

这一层在基于注意力的路由算法的帮助下聚集特征。

低级胶囊包含局部的和琐碎的特征。当多个预测一致时,更高水平的胶囊被激活。

胶囊网络特征聚类

low-level capsules u∈Rduu\in R^{d_u}uRdu

high-level capsules r∈Rdrr\in R^{d_r}rRdr

每个word token由k个low-level capsules表示

g是squash函数

个人理解hth_tht是Bi-LSTM输出的隐藏状态,被分为k份,得到k个low-level capsulesi用来表示每个词的token。

where [x;y] denotes the vertical concatenation of x and y.


wijw_{ij}wij是由迭代动态路由过程确定的耦合系数,Wj∈Rdr×duW_j\in R^{d_r \times d_u}WjRdr×du

基于注意力的路由算法

和原论文中的算法基本一致

改动在于第7行,为低级别的胶囊计算了注意力权重α\alphaα,以最大化来自重要单词标记的胶囊的权重,并最小化无关胶囊的权重。然后在第8行,计算高层胶囊vjv_jvj的输入的时候,乘上了这个注意力权重。

2.4 Relation Predicting Layer

原论文中的分类损失函数,原本m+=0.9,m−=0.1m^+=0.9, m^-=0.1m+=0.9,m=0.1


这里把原来的margin loss也改动了一下。

γ\gammaγ是定义边距宽度的超参数,B是一个可学习变量,表示NA(not relation)的阈值,初始化为0.5。

当一个句子的这些关系的概率大于阈值B时,就会给这个句子分配关系标签,否则会被预测为NA。

3. 实验分析

实验用于回答下面三个问题:

1)我们的方法在关系抽取方面是否优于以前的工作?

2)注意力胶囊网络(attentive capsule network)对区分高度重叠关系有用吗?

3)提出的两个改进对关系抽取都有效吗?

数据集

基线

在NYT-10上的实验结果


在SemEval-2010 Task 8上的结果

在multi-labeld的句子(出自NYT-10)上的实验结果

做了两个变体模型,分别去掉attention-based routing algorithm和sliding-margin loss 。

可以发现,提出的这两个东西确实提升了胶囊网路提取关系的性能。

做了一个Case Study,对比可以发现本文提出的Att-CapNet识别重叠关系的能力较强。

4. 补充

18年这篇论文也是用胶囊网络做关系抽取任务

Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction(EMNLP-2018)
https://www.aclweb.org/anthology/D18-1120/

作者:

  • Ningyu Zhang
  • Shumin Deng
  • Zhanling Sun
  • Xi Chen
  • Wei Zhang
  • Huajun Chen

没有细读

这里的多实体关系抽取,指的是在一个sentence里面有多个实体对,但是每个实体对只有一个relation。

模型基本和论文2一致。

没有对动态路由算法和损失函数进行改进。

论文阅读笔记:Multi-Labeled Relation Extraction with Attentive Capsule Network(AAAI-2019)相关推荐

  1. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  2. 【论文阅读】Improving Document-level Relation Extraction via Contextualizing Mention Representations and W

    ICKG 2020 作者提供的源代码 Improving Document-level Relation Extraction via Contextualizing Mention Represen ...

  3. 【Few-Shot Segmentation论文阅读笔记】PANet: Few-Shot Image Semantic Segmentation with Prototype , ICCV, 2019

    Abstract Target Question: Few-shot Segmentation 本文主要工作: 基于metric-learning的思想,本文提出了PANet(Prototype Al ...

  4. 论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics(AAAI,2020)

    这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机  很多机器 ...

  5. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  6. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  7. [论文阅读笔记36]CASREL代码运行记录

    <[论文阅读笔记33]CASREL:基于标注与bert的实体与关系抽取>https://blog.csdn.net/ld326/article/details/116465089 总的来说 ...

  8. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  9. CVPR2019|Depth-Aware Video Frame Interpolation【论文阅读笔记】

    CVPR2019|Depth-Aware Video Frame Interpolation[论文阅读笔记] 作者 相关链接 1.前言 2.介绍 3.算法 4.实验 作者 Wenbo Bao, Wei ...

最新文章

  1. 脑机互动可提高行动能力
  2. 华为Mate20首支预告片爆出,30秒内包含太多黑科技
  3. C# 获取Excel版本
  4. 去掉(不显示)关闭QQ游戏后跳出的广告
  5. matlab集群搭建问题
  6. redhat6.4 安装oracle 10g error
  7. [BZOJ 2594] [Wc2006]水管局长数据加强版 【LCT】
  8. 一起学习C语言:结构体(一)
  9. python array函数_Python bytearray() 函数
  10. js模拟3D场景效果
  11. 集合的创建、集合的特性(成员操作符、for循环)
  12. 第0课第2节_刚接触开发板之烧写裸板程序
  13. codeforces每日5题(均1500)-第二十二天
  14. elementUi——table表格中字段内容超过2行后,省略号...展示,不超过两行不处理。超过两行再显示全部。
  15. HDFS RPC 调度策略 DecayRpcScheduler 与 BackOff
  16. java中的char_java中的char是什么意思?
  17. CVPR--2019 AI CITY CHALLENGE (track1成绩A榜第一,综合第二)
  18. 苹果公布 2022 Apple 设计大奖入围作品
  19. 8.2计算各商品销售金额
  20. 无刷电动车控制器设计要点

热门文章

  1. 修改bootstrap 中 CSS 样式表,以实现自己需要的部分样式。
  2. 百度网盘转存阿里云盘最好的机会(阿里云盘15天20TB超级会员兑换截至8月31日),附软件和教程
  3. 2007年,7月1日
  4. ZOJ - 3450 Doraemon's Railgun (dp)
  5. 2021.9.24;APP_Designer中高级教程09;和simulink的梦幻联动
  6. 基于金融大数据的特征提取与趋势预测系统(一)2021-06-30
  7. Google面试题 图论的问题
  8. 区块链和区块链联盟_您可能对区块链有误解。 让我来帮助您修复它们。
  9. ios 11 屏幕适配问题!
  10. 反向传播网络(BP-ANN)的python实现