文档级关系抽取方法,EMNLP 2020 paper
向AI转型的程序员都关注了这个号????????????
人工智能大数据与深度学习 公众号:datayx
目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。
以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采样得到的),其中涉及这些关系事实的命名实体用蓝色着色,其它命名实体用下划线标出。为了识别关系事实(Riddarhuset,country,Sweden),必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实,然后从句子1确定Stockholm是Sweden的首都,以及Sweden是一个国家,最后从这些事实推断出Riddarhuset的主权国家是瑞典。
该过程需要对文档中的多个句子进行阅读和推理,这显然超出了句子级关系抽取方法的能力范围。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。
文档级关系抽取数据集DocRED
2019年的ACL上提出了一个关系抽取数据集DocRED,为文档级关系抽取的研究提供了一个非常好的标注数据集,今年的ACL上,就有论文使用DocRED作为语料,提出了文档级关系抽取的模型。
DocRED包含对超过5000篇Wikipedia文章的标注,包括96种关系类型、143,375个实体和56,354个关系事实。这在规模上超越了以往的同类精标注数据集。与传统的基于单句的关系抽取数据集相比,不同之处在于,DocRED中超过40%的关系事实只能从多个句子中联合抽取,因此需要模型具备较强的获取和综合文章中信息的能力,尤其是抽取跨句关系的能力。
图神经网络
相比较传统的CNN和RNN,图神经网络能够更好地在文档层面上建立实体之间的联系,从而实现文档级的关系推理。因此在解决文档级实体关系抽取任务中,图神经网络的主流的方法。
图网络结构的分类
在使用图神经网络时,图的构造是关键的一个环节,根据是否需要区分图中边的类型,可以将图分为异质图和同质图。
异质网络图
这种图定义了不同类型的边,边的表示方式因类型不同而有所区别,主要的代表工作是GCNN、EOG。
同质网络图 (latent structure)
把所有的边当作同质关系进行处理,利用attention或者其他的方式自动进行区分,主要的代表是LSR。
EMNLP 2020 paper:
Double Graph Based Reasoning for Document-level Relation Extraction
https://arxiv.org/abs/2009.13752
代码 获取方式:
分享本文到朋友圈
关注微信公众号 datayx 然后回复 抽取 即可获取。
AI项目体验地址 https://loveai.tech
单肩包/双肩包/斜挎包/手提包/胸包/旅行包/上课书包 /个性布袋等各式包饰挑选
https://shop585613237.taobao.com/
↓
本文提出了一种双图的图聚合推理网络(GAIN)。GAIN首先构造一个异构提及级别图(hMG)来建模文档中不同提及之间的复杂交互。在此基础上,我们提出了一种新的路径推理机制来推断实体之间的关系。在公共数据集DocRED上的实验表明,GAIN比以前的最新技术有了显著的性能改进(F1上为2.85)。
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码
文档级关系抽取方法,EMNLP 2020 paper相关推荐
- 论文小综 | 文档级关系抽取方法(上)
本文作者: 陈想,浙江大学在读博士,研究方向为自然语言处理 张宁豫,浙江大学助理研究员,研究方向为自然语言处理.知识表示与推理 1. 前言 关系抽取(Relation Extraction, RE)是 ...
- 论文小综 | 文档级关系抽取方法(下)
本文作者: 陈想,浙江大学在读博士,研究方向为自然语言处理 张宁豫,浙江大学助理研究员,研究方向为自然语言处理.知识表示与推理 这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文" ...
- 文档级关系抽取:QIUXP:DORE: Document Ordered Relation Extraction based on Generative Framework
DORE: Document Ordered Relation Extraction based on Generative Framework 文档级关系抽取是从整篇文档中抽取出三元组.更难,但也很 ...
- 达摩院文档级关系抽取新SOTA和零样本关系抽取新任务
©作者 | 邴立东.谭清宇.谢耀赓 单位 | Alibaba DAMO, NUS, SUTD 引言 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的关键技术.多年来受到研 ...
- 达摩院文档级关系抽取新数据集和五元组抽取新任务
©PaperWeekly 原创 · 作者 | 邴立东.谭清宇等 单位 | Alibaba DAMO, NUS, SUTD 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的 ...
- 文档级关系抽取:A Densely Connected Criss-Cross Attention Network for Document-level Relation Extraction
提示:文档级关系抽取相关论文 A Densely Connected Criss-Cross Attention Network for Document-level Relation Extract ...
- 入门文档级关系抽取_数据集DocRED、CDR、GDA
作为学习文档级关系抽取的短暂总结与记录.主要是相关数据集问题,如果能帮助到其他人,我也是很开心的. 文档级关系抽取论文 网上有很多文档级关系抽取的综述,他们会告诉你有哪些经典文献需要阅读,我就不再搬运 ...
- 谈谈我对NLP文档级关系抽取中Ign_F1指标的理解(Ign_F1与F1的关系)
因为Ign_F1这个参数网上所解释的内容都是一致的,并且不太好理解 于是我就特地请教了YX师兄 这里特地感谢1107实验室YX师兄 F1分数 F1为精确率和召回率的调和平均数(为下部分做准备) 对于查 ...
- nlp中的实体关系抽取方法总结
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要35分钟 跟随小博主,每天进步一丢丢 来自:知乎 地址:https://zhuanlan.zhihu.com/p/77868938 作者:Jay ...
最新文章
- 【BZOJ 2351】Matrix(Hash)
- OS_CORE.C(2)
- 怎么修改谷歌浏览器文件提交按钮样式_使用css自定义input file浏览按钮样式
- ASP.NET MVC 自定义模型绑定1 - 自动把以英文逗号分隔的 ID 字符串绑定成 Listint...
- 张泉灵:时代抛弃你时,连一声再见都不会说
- 天正暖通天圆地方在哪_2020位于太白山景区海拔3511米天圆地方景点就变成了很多人望而却步的地方_天圆地方-评论-去哪儿攻略...
- CV方向介绍 | 基于自然语言的跨模态行人ReID的SOTA方法简述(下)
- oracle 锁问题的解决
- python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
- java--小示例:-1:输入判断信息
- Pytorch安装步骤
- 符合c语言语法规定的表达式,若变量定义为int fahr;,则5(fahr-32)/9是符合C语言语法的表达式...
- ISIS协议的基础配置实验,原来做ISIS基础配置还可以这么有趣
- [教程][6月4日更新]VMware 8.02虚拟机安装MAC lion 10.7.3教程 附送原版提取镜像InstallESD.iso!...
- ps添加的阴影怎么去除_去除人物照片脸部阴影的PS技巧
- postman不跨域 本地开发跨域_为什么postman调接口不会跨域而浏览器会
- 智慧楼宇篇 6 —— 室内定位技术(五) - 室内定位技术总结
- 网页怎么显示emoji表情
- 论文解读(一)V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation
- HTML5基础知识(全面)
热门文章
- 索引法则--最佳左前缀法则
- Linux shell 编程(四):变量
- 8、周期性任务、find、break和continue 学习笔记
- 25个Linux相关的网站【转】
- 050医疗项目-模块五:权限设置-第三方系统的接入
- Python Web开发框架Django
- double write buffer
- k折交叉验证优缺点_R语言中K邻近算法的初学者指南:从菜鸟到大神(附代码&链接)...
- php解析torrent文件,PHP基于闭包思想实现的BT(torrent)文件解析工具实例详解
- ubuntu 14.04 nginx php mysql_Ubuntu 14.04安装Nginx+PHP+MySQL