点击上方,选择星标置顶,每天给你送干货!


NewBeeNLP公众号原创出品

公众号专栏作者 @lucy 

北航博士在读 · 文本挖掘/事件抽取方向

本系列文章主要总结近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分:

  • 定义(Define)

  • 综述(Survey)

  • 模型(Models)

  • 数据集(Datasets)

  • 挑战与展望(Future Research Challenges)

Github地址: https://github.com/xiaoqian19940510/Event-Extraction

全文数万字,分几篇整理,后续会同之前的 文本分类综述 一样整理成PDF分享给大家,欢迎持续关注!

综述内涉及的所有事件抽取必读论文清单,我们已经提前为大家整理打包好啦,订阅号后台回复『事件抽取』即可获取喔~

任务定义

Closed-domain

Closed-domain事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件。事件模式包含多个事件类型及其相应的事件结构。D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:

  • 「事件提及」:描述事件的短语或句子,包括触发词和几个参数。

  • 「事件触发词」:最清楚地表达事件发生的主要词,一般指动词或名词。

  • 「事件论元」:一个实体,时间表达式,作为参与者的值和在事件中具有特定角色的属性。

  • 「论元角色」:论元与它所参与的事件之间的关系

Open domain

在没有预定义的事件模式的情况下,开放域事件抽取的目的是从文本中检测事件,在大多数情况下,还可以通过提取的事件关键词聚类相似的事件。事件关键词指的是那些主要描述事件的词/短语,有时关键词还进一步分为触发器和参数。

  • 「故事分割」:从新闻中检测故事的边界。

  • 「第一个故事检测」:检测新闻流中讨论新话题的故事。

  • 「话题检测」:根据讨论的主题将故事分组。

  • 「话题追踪」:检测讨论先前已知话题的故事。

  • 「故事链检测」:决定两个故事是否讨论同一个主题。

前两个任务主要关注事件检测;其余三个任务用于事件集群。虽然这五项任务之间的关系很明显,但每一项任务都需要一个不同的评价过程,并鼓励采用不同的方法来解决特定问题。

综述

元事件抽取研究综述, 2019[1]

事件抽取是信息抽取领域的一个重要研究方向,在情报收集、知识提取、文档摘要、知识问答等领域有着广泛应用。写了一篇对当前事件抽取领域研究得较多的元事件抽取任务的综述。

首先,简要介绍了元事件和元事件抽取的基本概念,以及元事件抽取的主要实现方法。然后,重点阐述了元事件抽取的主要任务,详细介绍了元事件检测过程,并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题,在此基础上展望了元事件抽取的发展趋势。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一个常见应用是事件抽取,它包括推导出与事件相关的特定知识,这些知识重新映射到文本中。事件抽取可处理各种类型的文本,如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任务定义、数据源和性能评估,还为其解决方案方法提供了分类。在每个解决方案组中,提供了最具代表性的方法的详细分析,特别是它们的起源、基础、优势和弱点。最后,对未来的研究方向进行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

过去的十年中,在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务。文本挖掘的一种常见应用是事件抽取,它被认为是一个复杂的任务,分为不同难度的多个子任务。

在本文中,对现有的主要文本挖掘技术进行了概述,这些技术可用于许多不同的事件抽取目标。首先,介绍基于统计模型将数据转换为知识的主要数据驱动方法。其次,介绍了基于专家知识的知识驱动方法,通常通过基于模式的方法来抽取知识。然后,介绍结合了数据驱动和知识驱动方法的主要现有混合方法。最后,比较社交网络事件抽取研究,概括了每种提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一种可以追溯到20世纪80年代的专门的信息抽取流程,由于大数据的出现以及文本挖掘和自然语言处理等相关领域的发展,事件抽取技术得到了极大的普及。然而,到目前为止,对这一特殊领域的概述仍然是难以捉摸的。

因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动和混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库中抽取事件的常见决策支持应用。最后,对事件抽取系统的评价进行了阐述,并指出了当前的研究问题。

数据集

英文数据集

ACE2005 English Corpus[6]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

Rich ERE[7]

Rich ERE扩展了实体、关系和事件本体,并扩展了什么是taggable的概念。Rich ERE还引入了事件跳跃的概念,以解决普遍存在的事件共引用的挑战,特别是关于在文档内和文档之间的事件提及和事件参数粒度变化,从而为创建(分层的或嵌套的)跨文档的事件表示铺平了道路。

TAC2015[8]

TAC KBP事件跟踪的目标是提取关于事件的信息,以便这些信息适合作为知识库的输入。轨迹包括用于检测和链接事件的事件块任务,以及用于提取属于同一事件的事件参数和链接参数的事件参数(EA)任务。2015年TAC KBP赛事轨迹分为5个子任务

KBP2017[9]

TAC知识库填充(KBP)的目标是开发和评估从非结构化文本中填充知识库的技术。KBP包括为KBP开发特定组件和功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过在技术成熟时集成选定的组件从头开始构建KB。与在冷启动KB任务中执行的功能相比,组件跟踪中所需的功能可以“更多”,也可以“更少”。组件轨道比冷启动“更多”,因为每个轨道可能探索未立即集成到冷启动任务中的试点任务; 他们是“少”,将组件集成到一个KB需要额外协调与和解各个组件之间的不匹配,这样KB符合知识库模式(例如,知识库不能断言一个实体是一个事件的“地方”如果它还断言,实体是一个“人”)。

其他的还有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文数据集

ACE2005 Chinese Corpus[10]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

未来展望与挑战

数据层面

  • 领域数据难构造,标注成本大

  • 生成标注数据 or 无标注式事件抽取论元

模型层面

  • pipeline方式存在错误信息的传递,如何减小错误信息传递

  • 论元之间的关联关系的有效利用

性能评估层面

  • 无标注数据的评价指标设计


2020年即将结束!快到元旦节了,特别赠送【NLPer学术与技术圈】(知识星球)优惠券!年底最大的半折优惠活动,仅剩30张,先抢先得!

本星球主要用于每天发布论文解读、NLP技巧、学术研究、NLP面试经验以及NLP入门等。

超全必读!事件抽取综述(上)相关推荐

  1. NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取.开放域事件抽取.事件数据生成.跨语言事件抽取.小样本 ...

  2. 复旦邱锡鹏超全NLP预训练模型综述论文:两张图带你梳理完整脉络

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 超全预训练语言模型概览,入门学习.搭建知识体系.找文献资料.找资源代码,这里有 N ...

  3. 乘风破浪的Seq2Seq模型:在事件抽取上的应用

    ©PaperWeekly 原创 · 作者 | 王增志 单位 | 南京理工大学硕士生 研究方向 | 情感分析与观点挖掘 引言 2020 年自然语言处理方向出现了很多令人印象深刻的工作, 其中就包括了这一 ...

  4. 【事件图谱】事件抽取与事件关系抽取

    事件抽取(Event Extraction, EE)是NLP领域中一种经典的信息抽取任务,在商业.军事等领域的情报工作中应用非常广泛.本文简单介绍了事件抽取任务和事件之间的几种关系.并根据现在的研究介 ...

  5. 论文导读 | 事件抽取技术发展现状

    1.   问题定义 事件抽取(Event Extraction)是一种面向非结构化文本或半结构化数据的信息抽取(Information Extraction)任务,与传统面向知识图谱的实体.关系.属性 ...

  6. 事件抽取文献整理(2020-2021)

    前言 之前研究事件抽取领域(NLP一个小领域信息抽取的子领域), 之前整理过一些文献. 事件抽取文献整理(2020-2021) + 事件抽取文献整理(2019) + 事件抽取文献整理(2018) + ...

  7. 综述 | 事件抽取及推理 (上)

    本文转载自公众号:知识工场. 事件概要 事件是一种重要的知识,近年来,越来越多的工作关注于从开放域或领域文本中抽取结构化事件知识.同时,除了本身就很困难的事件抽取任务之外,近年来,越来越多的研究者开始 ...

  8. 移动端IM开发者必读(二):史上最全移动弱网络优化方法总结

    1.前言 本文接上篇<移动端IM开发者必读(一):通俗易懂,理解移动网络的"弱"和"慢">,关于移动网络的主要特性,在上篇中已进行过详细地阐述,本文 ...

  9. 论文阅读:A Survey of Open Domain Event Extraction 综述:开放域事件抽取

    A Survey of Open Domain Event Extraction 综述:开放域事件抽取 目录 A Survey of Open Domain Event Extraction 综述:开 ...

  10. click事件在什么时候出发_超全的js事件机制amp;事件委托

    超全的js事件机制&事件委托,想要理解js事件只需认真看完此篇即可~ 目录结构: 什么是事件机制 事件冒泡事件捕获 DOM事件流事件委托 误区 在同一个对象上注册事件,并不一定按照注册顺序执行 ...

最新文章

  1. 过滤流的主要特点是什么_高效过滤器工艺流程是什么 高效过滤器特点介绍【详解】...
  2. C 语言编程 — 指令行参数
  3. 使用代码获得Social Media Channel绑定的service url
  4. python参数传递_python参数的传递
  5. 第二篇: Silverlight -- 下载与安装
  6. qkerntool使用说明
  7. php强制浏览器不缓存,php强制浏览器不缓存和设置浏览器缓存
  8. 实数系的完备性的含义
  9. 高性能中级维修电工及技能培训考核实训装置
  10. 错误排查:packet_write_wait: Connection to XXX XXX XXX XXX port 22: Broken pipe
  11. Lenovo system x3500 m5 安装显卡
  12. 修改linux xorg端口,Xorg服务开启tcp/ip监听,允许其它机器客户端连接
  13. 教你如何提取别人QQ头像的图片
  14. 基于移动端的快递物流信息管理系统Uniapp
  15. Markdown初体验
  16. mysql数据库BKA算法详解
  17. Retrofit请求 多条目加载
  18. 标签打印软件如何制作固定长度的流水号
  19. 华为MUX VLAN
  20. python中文分词统计_python 中文字数统计/分词

热门文章

  1. 【golang-GUI开发】struct tags系统(一)
  2. Java学习(8):贪吃蛇游戏
  3. 截取usb数据包,控制usb设备----Relay设备
  4. PHP Cookbook读书笔记 – 第17章图形
  5. 使用SharePoint Designer,将左侧的导航修改为Treeview
  6. Oracle版本区别[转载]
  7. 文章,记录按内容分页显示,根据文章内容按字数进行分页(转)
  8. SqlHelper 类
  9. java day37【web相关概念回顾 、web服务器软件:Tomcat 、Servlet入门学习】
  10. WEB前端开发规范文档+CSS命名规范