论文笔记整理:郝凯龙,南京大学硕士


链接:https://www.aclweb.org/anthology/P19-1522.pdf

动机

传统的 ACE 事件抽取任务依赖于人工标注的数据,耗费大量的人力并且数据量有限,数据量不足给事件抽取带来了阻碍。传统的事件抽取不能解决 role overlap 角色重叠的问题。PLMEE 模型通过对不同的角色分别进行 augument prediction 论元预测解决了角色重叠问题。另外,论文提出了一种利用BERT生成训练数据的方法,并证明有效。在 ACE2005 数据集上,超过了 state-of-the-art 的结果,将触发词分类和论元分类的 F1 值分别提高到了 81.1 和 58.9。

亮点

PLMEE 的亮点主要包括:

(1)解决了一个论元扮演多个角色即角色重叠问题,通过对不同的角色构建多个分类器的方式。例如“The explosion killed thebomber and three shopers”在这句话中,bomber既是Attacker也是Victim。

(2)提出了利用BERT生成训练数据的方法,并证明方法有效。

概念及模型

  • 事件抽取

事件抽取分为触发词抽取、论元抽取、论元范围检测、损失函数重写

1.    触发词抽取

将触发词抽取建模为多分类问题,在BERT后添加MLP做分类,用cross-entropy作为损失函数。

2.    论元抽取

对于每一个token有多组二分类器,每个分类器决定改token是否为对应role的开头或结尾。通过这种方式,一个token/argument可以是多个role,可解决role overlap问题。

3.    论元范围检测

利用一个有限自动机,进行短语的检测,可以表示成下图:

尽可能的选择概率更高的token作为argument的开头和结尾。并且可以为一个role检测出多个argument。

4.    损失函数重写

按照TF-IDF的方式,计算不同role的重要程度,作为weight。

r表示role,即角色。v 代表某一事件类型,V代表所有事件类型集合。

对RF-IEF规范化,得到I(r, v)代表对于事件v角色r的重要程度。

Ls表示start,即论元开头的loss;Le表示end的损失。两者求和为最终的损失函数。

  • 事件生成

首先在数据集中进行论元收集,将角色相同并且上下文相似的token/phrase构成集合,如上图框中示例。

对于句子,对其中的argument论元,在构建的相似集合中随机选择进行替换。

对于触发词和论元以外的词,即附加词,利用bert进行[mask]遮掩,利用BERT预测的结果作为替换。

最后得到打分函数,用于筛选生成数据。

理论分析

实验

1.     实验结果

作者采用了相较于以往方法更严苛的评判标准。

但是实验的结果依然是极好的,对于Trigger Identification触发词检测和Trigger Classification触发词分类甚至提升了10%

1.     触发词只有类型和范围均检测正确,才认为结果正确

2.     论元只有范围正确,并且所有的role overlap重叠角色均被检测出来,才认为结果正确。

总结

本文利用预训练语言模型,对事件抽取证明有极大的提高,说明 BERT 得到的 embedding 蕴含的语义信息是非常有意义的。另外,采用 BERT 生成数据也是一种不错的思路。对于 role overlap 等问题,论文提出了一种基于多分类器的改进方式。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成相关推荐

  1. 论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

    作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱.自然语言处理 接收会议 | AAAI2021 论文链接 | https://arxiv.org/pdf/2009.06207.pdf 摘要 在 ...

  2. 论文浅尝 | PAKDD2020 - 利用支持集中匹配信息的 few shot 事件分类方法

    论文笔记整理:申时荣,东南大学博士生. 来源:PAKDD 2020 链接:https://arxiv.xilesou.top/pdf/2002.05295.pdf 1.介绍: 事件分类是一个重要的信息 ...

  3. 论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架

    论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱.自然语言处理. 链接:https://arxiv.org/pdf/1904.07535.pdf 背景 大多数现有的事件提取(EE)方法仅提取句 ...

  4. 论文浅尝 | 使用位置敏感的序列标注联合抽取实体和重叠关系

    论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言处理. 链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4591 动机 ...

  5. 论文浅尝 | 探索用于归纳型知识图谱补全的关系语义

    笔记整理:徐雅静,浙江大学在读硕士,研究方向为知识图谱的表示学习,零样本学习. KGC指的是在不完整的KG中推理出缺失的实体.以前的多数工作仅仅考虑到直推式场景(实体都存在KG中),不能有效地解决归纳 ...

  6. 论文浅尝 - TACL2020 | 改进低资源跨语言实体链接的候选生成问题

    论文笔记整理:谭亦鸣,东南大学博士. 来源:TACL 2020 链接: https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf 1.背景介绍 跨语 ...

  7. 论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

    本文转载自公众号:PaperWeekly. 作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...

  8. 论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...

    笔记整理 | 朱珈徵,天津大学硕士 链接:https://arxiv.org/pdf/2012.08492.pdf 动机 大型知识图通常会增长以存储时态事实,这些时间事实对实体沿时间线的动态关系或交互 ...

  9. 【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》

    [1] 参考论文信息   论文名称:<基于预训练语言模型的案件要素识别方法>   发布期刊:<中文信息学报>   期刊信息:CSCD   论文写作分析摘要:本文非常典型.首先网 ...

最新文章

  1. 用 XStream 序列化/反序列化 XML 为 Java 对象(实例)
  2. 无线路由器配置不佳 可耗净手机电量
  3. 寻找一个字符串中所有重复字符的索引
  4. FLASH脚本语言详解
  5. 中有冒号 文件路径_用Matlab脚本文件实现Excel文件的合并
  6. Eclipse设置Courier New字体
  7. 【codevs2485】七夕祭(贪心,环形纸牌均分)
  8. python unicode函数_python 中的unicode详解
  9. sel - performSelector - NSSelectorFromString()
  10. polymorphic-associations 多态关联实例 ruby on rails
  11. java jxl上传excel_JAVA实现上传,下载,jxl操作Excel和邮件发送
  12. 阿里达摩院(研究型实习生)
  13. python自动化测试面试题大全带答案_Python自动化测试笔试面试题精选
  14. Java的API(Scanner\Object\Date区\Math\Random\Arrays\String区\regex\包装类...)一般是parse(String)
  15. Unity 控制物体移动的一些方法
  16. 我和知乎零成本卖货百万的创业者聊了聊
  17. (转)QQ在线客服代码
  18. springboot概述、自动转配原理、yaml语法、多环境配置及文件位置
  19. 从零编写linux0.11 - 第三章 printk函数
  20. 浅谈自适应网站的设计

热门文章

  1. strcpy()源代码
  2. 毕业十年|我的嵌入式AI学习路线(笔记、代码)
  3. 90后中国程序员“黑吃黑”博彩网站,半年获利256万,判刑11年半
  4. Linux fork的写时复制
  5. 每日一题(2)—— -2与2的比较
  6. 基于深度学习模型的花卉图像分类代码_华为不止有鸿蒙!教你快速入门华为免编程深度学习神器ModelArts...
  7. 复习Java字节流_字符流使用及案例
  8. 【Pytorch神经网络实战案例】08 识别黑白图中的服装图案(Fashion-MNIST)
  9. 二十九、PHP框架Laravel学习笔记——Debugbar 调试器
  10. LeetCode 2206. 将数组划分成相等数对