论文笔记 ACL 2017|Exploiting Argument Information to Improve Event Detection via Supervised Attention
文章目录
- 1 简介
- 1.1 动机
- 1.2 创新
- 2 方法
- 2.1 上下文表示学习
- 2.2 事件检测
- 3 实验
- 4 总结
1 简介
论文题目:Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms
论文来源:ACL 2017
论文链接:https://aclanthology.org/P17-1164.pdf
1.1 动机
- 论元可以提供重要的信息来识别和分类事件。
- 联合事件抽取模型仅高效地提高了论元抽取的性能,对事件检测任务是不高效,原因如下。
- 联合模型同时解决事件检测和论元抽取任务,通常结合两个任务的loss进行训练,然而训练集中注解的论元数目多于触发词数目,数据不平衡导致联合模型更加偏爱论元抽取任务。
- 联合模型通常预先预测一些候补触发词和论元,然后选择正确的触发词和论元。当预先预测候补触发词时,目前几乎全部的方法没有利用论元的信息。相反,在预先预测候补论元时通常利用了触发词的信息。
1.2 创新
- 在事件检测任务中使用论元信息。
- 提出一种监督注意力机制模型。
2 方法
整个模型框架如下,包括上下文表示学习和事件检测两个部分。
2.1 上下文表示学习
根据上面模型图,该阶段生成事件检测阶段的输入,分别为cw、ce、w(当前词)。
首先
首先将每个单词转换为一次隐藏表示,公式如下:
然后分别计算上下文注意力向量和上下文实体注意力向量,公式分别如下:
注意,没有使用当前候选token的实体类型去计算实体注意力向量,因为只有少部分事件触发词是实体。(在ACE 2005数据集中仅10%触发词是实体)。
然后结合上面两个注意力向量,为最后的注意力向量。α=αw+αe,根据该向量生成cw和ce,公式如下。
其中Cw为当前词的上下文单词(不包括当前词)[w-n/2,w-n/2+1,…,w-1,w1,…,wn/2-1,wn/2],Ce为周围实体类型[e-n/2,e-n/2+1,…,e-1,e1,…,en/2-1,en/2]。
2.2 事件检测
在该阶段,模型分为三层,输入层、隐藏层、softmax输出层,使用softmax计算条件概率,公式如下:
损失函数如下:
由于希望论元得到更多的关注超过其他单词,使用监督的方法训练注意力向量,共有两种方法构建真实注意力向量。
- 只关注论元单词(如下图所示)
- 关注论元和它周围的词.
首先使用1方式生成a向量,然后使用高斯分布塑造论元周围词的注意力分布,算法如下:(w为注意力机制的窗口)
最后标准版a’得到最终注意力向量a*,训练注意力向量的损失函数:
与事件检测的损失函数结合,最终的损失函数如下:
3 实验
实验使用ACE 2005数据集,首先验证论元信息对事件检测是重要的,结果如下图,
- ANN中λ为0,不使用额外的信息,使用无监督的方式计算注意力向量.
- ANN-ENT中λ为0,使用上下文中的实体平均计算注意力向量.
- ANN-Gold1以第一种方式使用真实注意力向量
- ANN-Gold2以第二种方式使用真实注意力向量
在ACE 2005数据集上的实验结果如下图:
使用FrameNet为额外的训练数据,增强模型的性能,结果如下图(FrameNet有更多的元素超过事件,因此仅使用6个核心元素)
4 总结
- 提出了一种监督的注意力机制进行事件检测任务,使用论元的信息增强模型的效果.
- 提出了两种策略,使用标注的论云信息构建真实的注意力向量.
论文笔记 ACL 2017|Exploiting Argument Information to Improve Event Detection via Supervised Attention相关推荐
- 论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介 论文题目:Edge-Enhanced Graph Convolution Networks for Even ...
- 论文笔记 ACL 2019|Exploring Pre-trained Language Models for Event Extraction and Generation
文章目录 1 简介 1.1 动机 1.2 创新 3 抽取模型 3.1 触发词抽取 3.2 论元抽取 3.3 确定论元区间 3.4 重新加权loss 4 训练数据生成 4.1 预处理 4.2 事件生成 ...
- 【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
[论文精读]COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection [论文原文]:KiPT: Knowledge- ...
- 论元笔记 ACL 2017|Automatically Labeled Data Generation for Large Scale Event Extraction
文章目录 1 简介 1.1 创新 2 背景知识 3 数据生成 4 事件抽取 5 实验 1 简介 论文题目:Automatically Labeled Data Generation for Large ...
- 论文笔记 -《Self-Attention Attribution: Interpreting Information Interactions Inside Transformer》
1.摘要 基于 transformer 的模型的巨大成功得益于强大的多头自我注意机制,该机制从输入中学习token依赖并编码语境信息.先前的工作主要致力于针对具有不同显著性度量的单个输入特性的贡献 ...
- 论文笔记 ACL 2021|Low-resource Event Detection with Ontology Embedding
文章目录 1 简介 1.2 创新 2 方法 2.1 Event Detection (Ontology Population) 2.2 Event Ontology Learning 2.3 Even ...
- 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...
- 论文笔记 ACL 2019|Rapid Customization for Event Extraction
文章目录 1 简介 1.1 创新 2 方法 2.1 新事件的触发词实例 2.2 模型 3 实验 3.1 触发词分类 3.2 论元分类 1 简介 论文题目:Rapid Customization for ...
- 【论文笔记】2017 NIPS会议论文整理
③Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis [主要内容]旨在从单张人脸(正面) ...
- 论文笔记 EMNLP 2021|Uncertain Local-to-Global Networks for Document-Level Event Factuality Identificatio
文章目录 1 简介 1.1 创新 2 方法 3.1 Local Uncertainty Estimation 3.2 Uncertain Information Aggregation 3.3 Rep ...
最新文章
- 不能混淆_生物易混淆知识点小汇总,是你不能混淆的知识哦丨高中
- Java 文件复制 Hutool IO使用
- boost::graph模块实现拉马努金图的周长和直径的测试程序
- OpenCV示例学习(七):离散傅里变换(DFT)算子:getOptimalDFTSize(),copyMakeBorder(),magnitude(),log(),normalize()
- python内核死亡的原因_Kernel Panic常见原因以及解决方法
- 947. 移除最多的同行或同列石头2021-01-23
- FPGA IP核分类
- java 纯真ip数据库_纯真IP数据库格式读取方法(JAVA/PHP/Python)
- 能源巨头BP称已经测试了“内部”代币
- web3.js查询方法的调用方式汇总
- element-ui中file-upload组件的提示,‘按delete键可删除’去掉
- fetion-robot是基于web飞信接口的飞信机器人
- 使用 className 修改样式属性
- 【测试专场沙龙报名】千万级日活App的质量保证
- tesseract的使用
- 解决只有IE浏览器可以上网,其他浏览器不能上网
- 利用计算机设计轴对称图案,“轴对称图形”信息技术应用设计与分析
- proe5.0管道管线设计教程
- 怎样把COFFEEscript 编译成JS
- 安全架构--9--企业安全开发体系建设总结