文章目录

  • 1 简介
    • 1.1 动机
    • 1.2 创新
  • 2 背景知识
  • 3 方法
    • 3.1 编码
      • 3.1.1 句子编码
      • 3.1.2 RNN编码
    • 3.2 预测
      • 3.2.1 触发词预测
      • 3.2.2 论元角色预测
      • 3.2.3 记忆向量
      • 3.2.4 训练
    • 3.3 词表示
  • 4 实验
    • 4.1 记忆单元
    • 4.2 词编码评测
    • 4.3 实验结果
  • 5 总结

1 简介

论文题目:Joint Event Extraction via Recurrent Neural Networks
论文来源:NAACL 2016
论文链接:https://aclanthology.org/N16-1034.pdf

1.1 动机

  • 联合事件抽取方法缺乏对未见过的词和特征的概括,同时由于手工特征的分离表示,不能抽取潜在结构。
  • 分布抽取有固有的错误传播和不能抽取触发词和论元的内在依赖。

1.2 创新

  • 提出一个基于RNN的联合事件抽取方法,是第一个工作将神经网络用于联合事件抽取。
  • 使用记忆矩阵存储预测信息,以捕捉触发词和论元的内在依赖。

2 背景知识

ACE定义一个事件为发生或者导致一些状态的变化。有一下术语:

  • Event mention:一个事件出现的短语或者句子,包括一个触发词和任意数量的论元。
  • Event trigger:最能清楚得表达一个事件发生的词。
  • Event argument:一个实体提及,简短的表达或者值,在事件提及中充当一个带有具体角色的参与者或者参数。
    ACE注解8个类型、33个子类型的事件提及。全部事件子类型的角色总数量为36.

3 方法

模型图如下

3.1 编码

3.1.1 句子编码

token的向量表示有下面三部分组成:

  • 词向量编码,通过预训练的词编码表获得。
  • 实体类型的编码向量:通过实体类型的编码表获得(随机初始化)。
  • 二元向量,它的维度对于依赖树中单词的可能关系
    没有使用相对位置特征,因为该模型联合抽取触发词和论元,它们在句子中没有固定的位置。

3.1.2 RNN编码

使用双向的GRU对token向量进行编码,学习更加高效地表示。

3.2 预测

为了联合预测触发词和论元,对于触发词维护GitrgG^{trg}_ {i}Gitrg​记忆向量,对于论元维护GiargG^{arg}_ {i}Giarg​和Giarg/trgG^{arg/trg}_ {i}Giarg/trg​记忆向量。
给定双向GRU的向量表示h1,h2,…,hn和初始化记忆矩阵,联合预测过程循环n词,在每个事件步i,做如下操作:

  1. 预测触发词
  2. 对所有与当前token wi有关的实体提及e1,e2,…,ek预测论元。
  3. 根据上一步的Gi−1trgG^{trg}_ {i-1}Gi−1trg​ ,Gi−1argG^{arg}_ {i-1}Gi−1arg​,Gi−1arg/trgG^{arg/trg}_ {i-1}Gi−1arg/trg​计算GitrgG^{trg}_ {i}Gitrg​ ,GiargG^{arg}_ {i}Giarg​,Giarg/trgG^{arg/trg}_ {i}Giarg/trg​

3.2.1 触发词预测

对于token wi,使用下面三个向量计算特征表示向量RitrgR^{trg}_ {i}Ritrg​:

  1. hi: 用于描述输入句子上下文的隐藏向量。
  2. LitrgL^{trg}_ {i}Litrg​:wi的上下文向量,由wi上下文窗口d以内的向量拼接。LitrgL^{trg}_ {i}Litrg​ = [D[wi-d],…,D[wi],…,D[wi+d]]
  3. GitrgG^{trg}_ {i}Gitrg​:上一步的记忆向量。然后经过一个前馈神经网络和softmax层,预测wi的类型ti,公式如下。
    Pi;ttrgP^{trg}_ {i;t}Pi;ttrg​ = PitrgP^{trg}_ {i}Pitrg​(l = t) = FttrgF^{trg}_ {t}Fttrg​(RitrgR^{trg}_ {i}Ritrg​)
    ti = argmaxt(Pi;ttrgP^{trg}_ {i;t}Pi;ttrg​)

3.2.2 论元角色预测

在论元角色决策阶段,首先检查上一阶段预测的触发词子类型是否为Other。如果为Other,对于全部的j = 1到 k,设置aij为Other,立即进入下一阶段。否则,循环实体提及e1,e2,…,ek,预测与触发词wi有关的论元角色aij
对于ej,wi,使用下面四个向量计算特征表示向量RiargR^{arg}_ {i}Riarg​:

  1. hi和hij: 对于wi和ej的全局上下文的隐藏向量。
  2. LiargL^{arg}_ {i}Liarg​:wi和ej的上下文向量,由wi上下文窗口d以内的向量拼接。LitrgL^{trg}_ {i}Litrg​ = [D[wi-d],…,D[wi],…,D[wi+d],D[wij-d],…,D[wij],…,D[wij+d]]
  3. Bij:二进制向量Vij的隐藏向量。Vij基于token i和ij的局部论元特征。Bij = Fbinary(Vij)
  4. Gi−1argG^{arg}_ {i-1}Gi−1arg​[j]和Gi−1arg/trgG^{arg/trg}_ {i-1}Gi−1arg/trg​[j]: 上一步的记忆矩阵。然后经过一个前馈神经网络和softmax层,预测aij的类型,公式如下(a表示论元角色)。
    Pij;aargP^{arg}_ {ij;a}Pij;aarg​ = PijargP^{arg}_ {ij}Pijarg​(l = a) = FaargF^{arg}_ {a}Faarg​(RijargR^{arg}_ {ij}Rijarg​)
    aij = argmaxa(Pij;aargP^{arg}_ {ij;a}Pij;aarg​)

3.2.3 记忆向量

事件抽取一个重要的特点是相同句子中的触发词标签和论元角色存在依赖。将这种依赖分为下面三类:

  1. 触发词之间的依赖:由GitrgG^{trg}_ {i}Gitrg​表示(GitrgG^{trg}_ {i}Gitrg​∈{0,1}nT i=0,…n,nT为可能的触发词类型的数量),如果在t时刻输出ti,则
    Gitrg[t]={1,t=tiGi−1trg[t],otherwiseG^{trg}_ {i}[t]=\left\{ \begin{array}{rcl} 1, & & {t = t_{i}}\\ G^{trg}_ {i-1}[t], & & {otherwise} \end{array} \right. Gitrg​[t]={1,Gi−1trg​[t],​​t=ti​otherwise​
    动机是如果在一个句子中Die事件出现,那么后面可能Attack事件也可能出现。
  2. 论元角色之间的依赖:由GiargG^{arg}_ {i}Giarg​表示(GiargG^{arg}_ {i}Giarg​∈{0,1}k*nA i=0,…n,nA为可能的论元角色的数量)。GiargG^{arg}_ {i}Giarg​[j][a]=1表示ej在时刻i之前表示过角色a。
    Giarg[j][a]={1,t≠otheranda=aijGi−1arg[i][j],otherwiseG^{arg}_ {i}[j][a]=\left\{ \begin{array}{rcl} 1, & & {t \not= other\,and\,a = a_{ij}}\\ G^{arg}_ {i-1}[i][j], & & {otherwise} \end{array} \right. Giarg​[j][a]={1,Gi−1arg​[i][j],​​t​=otheranda=aij​otherwise​
  3. 触发词与论元角色之间的依赖:由Giarg/trgG^{arg/trg}_ {i}Giarg/trg​表示(Giarg/trgG^{arg/trg}_ {i}Giarg/trg​∈{0,1}k*nT i=0,…n)。Giarg/trgG^{arg/trg}_ {i}Giarg/trg​[j][t] = 1表示ej在时刻i之前被识别为事件类型为t的论元,对于全部的j从1到k,公式如下。
    Giarg/trg[j][t]={1,ti≠otherandt=tiGi−1arg/trg[j][t],otherwiseG^{arg/trg}_ {i}[j][t]=\left\{ \begin{array}{rcl} 1, & & {t_ {i} \not= other\,and\,t = t_i}\\ G^{arg/trg}_ {i-1}[j][t], & & {otherwise} \end{array} \right. Giarg/trg​[j][t]={1,Gi−1arg/trg​[j][t],​​ti​​=otherandt=ti​otherwise​

3.2.4 训练

损失函数如下图表示

3.3 词表示

CBOW模型基于上下文单词的平均值预测当前词,SKIP-GRAM根据当前词预测一个句子中的周围词。
在本文,除了CBOW和SKIP-GRAM模型,提出了一个CBOW模型的基于联合的变体(C-CBOW)训练词编码,C-CBOW的目标是使用周围单词的拼接预测当前词。

4 实验

使用ACE 2005数据集评测模型。

4.1 记忆单元

测试记忆单元的高效性,结果如下图所示,可以发现触发词之间的依赖和论元之间的依赖对模型没有帮助,而触发词和论元之间的依赖提升了模型的性能。

4.2 词编码评测

对比使用不同的词编码,模型的效率,结果如下图,可以发现C-CBOW词编码效果最好,拼接向量帮助对不同的上下文分配不同的权重,比CBOW模型更加灵活(对全部的上下文分配单个权重)。

4.3 实验结果


根据句子中事件的数量,将数据集分为单事件和多事件,评测模型的性能,结果如下图。

5 总结

  • 提出一个基于RNN的联合事件抽取模型。
  • 使用记忆向量表示论元角色和触发词类型之间的依赖。
  • 提出基于联合上下文的CBOW模型变体,提高该联合模型的性能。

论文笔记 NAACL 2016|Joint Event Extraction via Recurrent Neural Networks相关推荐

  1. 论文阅读05:基于循环神经网络的联合事件抽取-Joint Event Extraction via Recurrent Neural Networks

    公众号:数据挖掘与机器学习笔记 1.简介 事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘.自动问答.信息检索等领域有着广泛的应用.近些年来 ,事件抽取一直吸引着许多研究机构和 ...

  2. 论文笔记 COLING 2020|Joint Event Extraction with Hierarchical Policy Network

    文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 5 总结 1 简介 论文题目:Joint Event Extraction with Hierarchical Pol ...

  3. 论文笔记 NAACL 2021|Document-level Event Extraction with Efficient End-to-end Learning of Cross-event De

    文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 3.1 基础模型 3.2 跨事件依赖 4 实验 1 简介 论文题目:Document-level Event Extractio ...

  4. 图像隐写术分析论文笔记:Deep learning for steganalysis via convolutional neural networks

    好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...

  5. 论文笔记(一)《Intriguing properties of neural networks》

    对抗样本(一)<Intriguing properties of neural networks> 神经网络的有趣特性 两点: 性质1:单个的深层神经元与随机线性组合的多个深层神经元并没有 ...

  6. 1.3读论文笔记:M. Raissi a等人的Physics-informed neural networks:A deep learning framework for solving forw..

    Physics-informed neural networks: A deep learning framework for solving forward and inverse problems ...

  7. 论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

    一.译文: ABSTRACT 自然语言是分层结构的:较小的单元(例如短语)嵌套在较大的单元(例如子句)中.当较大的组件结束时,嵌套在其中的所有较小的组件也必须结束.虽然标准的LSTM体系结构允许不同的 ...

  8. A Critical Review of Recurrent Neural Networks for Sequence Learning-论文(综述)阅读笔记

    A Critical Review of Recurrent Neural Networks for Sequence Learning 阅读笔记 //2022.3.31 下午15:00开始 论文地址 ...

  9. <笔记>Long and Short -Term Recommendations with Recurrent Neural Networks

    <笔记>Long and Short -Term Recommendations with Recurrent Neural Networks 基于项目的序列神经网络推荐 总结: (1)证 ...

最新文章

  1. PaddleClas
  2. 数据存储四种常见方式
  3. Avenger v1.0.6.0
  4. Debian/Ubuntu下安装Apache的Mod_Rewrite模块的步骤分享
  5. MySQL高级知识(一)——基础
  6. 博客园修改页面显示样式
  7. 明年,移动应用开发将出现这八大趋势
  8. 驱动调试助手V2.9
  9. Raki的读paper小记:LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING
  10. Visual C++ 6.0 Processor Pack 编译xvidcore1.1.0
  11. vue封装了个日历组件(包含农历,节日)
  12. excel单元格内容拆分_Excel | 单元格内容换行的两种方法
  13. 国光师傅文件上传靶场练习
  14. 代号记忆之数字和英文总结
  15. 设计模式 -- 组合模式(Composite)
  16. selenium定位H5表单验证的提示语
  17. C语言使用getch()读取方向键
  18. matlab程序圆形牛栏,Matlab课本计算题.doc
  19. Hadoop是做什么的,hadoop集群搭建作用
  20. 做一个网站多少钱?建一个网站要多少钱?

热门文章

  1. 【新知实验室 陈林】
  2. Ngnix:防止恶意域名解析
  3. php 图片印章_PHP实现中文圆形印章特效
  4. 【javaWeb微服务架构项目——乐优商城day15】——会调用订单系统接口,实现订单结算功能,实现微信支付功能
  5. sqlserver中,sql语句,按照汉字拼音首字母排序
  6. 如何解决wup.exe文件占用cpu资源
  7. IDEA中配置Vue启动Configurations
  8. 数据告诉你,全世界到底有多少人在炒币
  9. 服务器更新操作系统补丁,windows 10通过第三方landesk补丁服务器对系统进行了更新操作...
  10. tmooccn达内登录_达内上线技术学习平台TMOOC.CN,由线下反攻线上,O2O是在线教育的出路?...