论文浅尝 | 基于注意力图卷积神经网络的依存驱动关系抽取
笔记整理:王大壮
论文链接:https://aclanthology.org/2021.acl-long.344.pdf
动机
句法信息,特别是依存树,已经被广泛应用于关系提取,以更好地分析与给定实体相关联的上下文信息。然而大多数现有的研究都饱受依赖树噪声的影响,特别是当它们自动生成时。由于直接利用依存信息可能会引入混淆,所以需要对依存信息进行筛选。为此,本文通过注意力图卷积神经网络(A-GCN)来辨别不同词依存的重要性,同时考虑到不同依存关系类型对关系分类的作用,在模型中也引入了依存关系类型的信息。
论文方法
关系抽取旨在辨别给定文本中提及的实体之间的关系。
本文方法可以分为以下两步,模型整体框架如下:
1.考虑依存类别的注意力图神经网络
a)通过依存句法树构建邻接矩阵A(存储两次之间是否存在依存关系:两词之间有关系为1,没关系为0);
b)构建依存类别邻接矩阵T(存储两词之间依存关系类别,比如nsubj)
c)对于每层A-GCN网络,给定上一层第i个词(表示为 )和第j个词(表示为 ),可以从T中得到对应关系类型,经嵌入表示为 。
(1)首先使用下式求得第i个词的中间表示:
同理求得第j个词的中间表示:
(2)考虑到不同依存关系应该具有不同的权重。用下式计算当前依存关系的权重:
其中, 对应矩阵A(两词之间有关系为1,没关系为0)中的元素。
(3)下一层第i个词的表示经下式得到(加权求和):
其中,W、b代表一个线性层的参数, 代表相应权重, 是依存关系类型增强(考虑到依存关系类别对关系抽取的影响)的词表示,由下式计算:
2.使用A-GCN的关系分类
(1)将输入文本经过BERT得到隐层表示,第i个词表示为 ,将 传入A-GCN模型得到第L层的输出 。
(2)接着使用最大池化对属于实体描述范围的词的隐层表示进行处理:
(3)接着用整句文本( )的表示和两个实体( 、 )的表示进行拼接,然后使用一个可训练矩阵来得到输出空间的向量:
(4)最后应用一个softmax函数来预测两个实体之间的关系:
实验
1.实验首先设计了以下几个变量进行比较,实验结果如下:
a)采用BERT-base 或BERT-large
b)进行依存剪枝L+G 或不剪枝Full
c)使用一般的GCN 和GAT
d)对于GCN 和A-GCN使用了不同的层数进行比较
1)使用A-GCN的模型均比BERT-base和BERT-large要好。
2)在所有的数据集同样的设置下,A-GCN均比GAT和GCN的基线要好。
3)对于使用A-GCN的模型,进行依存剪枝L+G的效果均比Full好。
4)使用A-GCN的模型在两层时达到最佳性能。
2.使用上述实验得到的最佳模型设置和之前工作的比较:
可以看到提出的模型达到了最佳效果。
3.使用不同依存信息的比较:
4.消融实验(注意力机制+依存类型)
总结
该论文提出了一种基于注意力图卷积神经网络来利用依存信息用于关系抽取的方法,通过注意力机制来对依存关系及其类型进行加权,从而更好地区分重要的依存信息并加以利用,使得A-GCN可以动态地学习不同的依存关系并剪枝掉无用的依存信息。在两个英文基准数据集上的实验结果证明了提出方法的有效性。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
论文浅尝 | 基于注意力图卷积神经网络的依存驱动关系抽取相关推荐
- 论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:EMNLP 2018 链接:https://www.aclweb.org/anthology/D18-1034 问题背景与动 ...
- 论文浅尝 | 基于异质图交互模型进行篇章级事件抽取
笔记整理:娄东方,浙江大学 & 恒生电子股份有限公司博士后,研究方向为事件抽取 来源:ACL2021 链接:https://arxiv.org/abs/2105.14924 GitHub项目地 ...
- ###好好好#######论文浅尝 | 基于图注意力的常识对话生成
论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...
- 论文浅尝 | 基于知识库的自然语言理解 01#
本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...
- (论文阅读)基于融合深度卷积神经网络的人脸识别方法研究-褚玉晓
一.基于融合深度卷积神经网络人脸识别方法设计 1.PCA算法提取人脸特征 主要成分分析法(Principal Component Analysis,PCA) 第一步,计算人脸图像的平均值并执行归一化的 ...
- 论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)
本文转载自公众号:PaperWeekly.作者:王文博,哈尔滨工程大学硕士生,研究方向为知识图谱.表示学习. 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入 ...
- 论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习
本文转载自公众号:PaperWeekly. 作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...
- 论文浅尝 | 基于知识库的自然语言理解 04#
本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...
- 论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答
来源:ACL 2017 链接:http://aclweb.org/anthology/P17-2057 本文提出将 Universal schema 用于自然语言问答中,通过引入记忆网络,将知识库与文 ...
最新文章
- 信息工程大学806自主命题2020年回忆版真题2020年信息工程大学,初试806回忆版
- linux printk 源码,Printk原理简介
- 数学--数论--组合数(卢卡斯+扩展卢卡斯)模板
- 企业建设呼叫中心需要考虑哪些因素
- 深度学习(08)-- Residual Network (ResNet)
- php外卖系统源码单店,网上订餐系统 v3.1 单店版
- Erlang/OTP设计原则(文档翻译)
- 希尔排序不稳定例子_Python实现希尔排序(已编程实现)
- 关于Java中的对象的哈希值何时相等
- python实现简单购物商城_如何用python语言实现简单购物商城
- SQL数据库基础练习题及答案
- JSP程序设计课后习题答案
- 高分辨率扫描出来的图片有摩尔纹_文档扫描仪选购指南:扫描仪哪个牌子比较好?...
- 奔图P3305DN安装官网windows驱动 打印乱码解决方法
- 大数据挖掘步骤都包括哪些?
- Linux reboot全过程
- 携程后台开发笔试第二题
- java 中如何检测异常_如何检测Java中何时全局抛出了异常?
- Latex同时合并表格的多行多列
- 青鸟锦江学员车宏鑫正面回答面试官的十大面试问题
热门文章
- java 量化指标_量化投资学习笔记13——各种指标的绘图、计算及交易策略
- Java实现控制台版CS
- 【H5】两种加密解密方法:
- windbg分析C++ EH exception
- 最新县及县以上行政区划代码(截止2016年7月31日)
- everything用于移动硬盘资料管理(二):离线搜索全部移动硬盘
- c语言5个同学三门成绩,求助:c语言 求5个同学语数外三门功课的总分与均分。大家看我错在哪了...
- 网络与分布式计算复习
- C# 之多线程篇 Task(C#超级工具类)
- 观自在菩萨,行深般若波罗蜜多时,照见五蕴皆空,度一切苦厄。舍利子,色不异空,空不异色,色即是空,空即是色,受想行识,亦复如是。舍利子,是诸法空相,不生不灭,不垢不净,不增不减。是故空中无色,无受想行识