[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab:

ACL 2018 DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data
Author Hang Yang, Yubo Chen, Kang Liu, Yang Xiao and Jun Zhao 中科院自动化所
paper https://www.aclweb.org/anthology/P18-4009

本文提出了一个事件抽取框架来从文档级财经新闻中检测事件提及并提取事件。目前为止,基于有监督学习的方法在开放数据集上表现最好。这些方法依赖人工标注的数据。但是在金融、医疗等特定领域,由于数据标记过程的成本太高,目前没有足够的标记数据。而且现有的方法大多集中在从一个句子中抽取事件,但实际上,一个事件通常由文档中的多个句子来表达。为了解决这些问题,我们提出了一个文档级中文金融事件抽取系统(DCFEE),该系统可以自动生成大规模的标记数据并从整个文档中抽取事件。实验结果证明了该方法的有效性。

1 引言

金融事件能够帮助用户获得竞争对手的策略,预测股市,做出正确的投资决策。例如,股权冻结事件的发生将对公司产生不良影响,股东应迅速做出正确的决策,以避免损失。

金融事件抽取存在的问题:

  • 训练语料较少:有监督学习需要大量标注语料
  • 文档级事件抽取:当前的事件抽取方法大多都是抽取句子中的事件,但是大多数情况下,一个事件是由多个句子描述的。在金融领域,91%的事件论元是分布在多个句子中的。

Figure 1: Example of an Equity Freeze event triggered by “frozen” and containing five arguments.

为解决这两个问题,本文做了以下工作:

  • 提出了一个DCFEE模型,可以基于自动生成的标注数据从金融领域公告中完成文档级事件抽取
  • 介绍了一种用于事件抽取的数据自动标注方法,并给出了构建中文金融事件数据集的一系列有用的技巧。我们提出了一个基于神经网络序列标注模型、关键事件检测模型和参数填充策略的文档级EE系统。实验结果表明了该方法的有效性
  • DCFEE系统已成功构建为一个在线应用程序,可以快速从金融公告中抽取事件信息

2 方法

下图是DCFEE模型的结构图,主要分为两个部分:
1)数据生成:利用远程监督的方式对整个文档(文档级数据)中的事件提及,以及事件提及(句子级数据)的触发词和论元进行标注
2)事件抽取系统:包括基于句子级标注数据的句子级事件抽取(SEE)和基于文档级标注数据的文档级事件抽取(DEE)

Figure 2: Overview of the DCFEE framework

2.1 数据生成

Figure 3: The process of labeled data generation.

数据来源:

自动生成数据需要两种类型的数据资源:包含大量结构化数据信息的金融事件知识库和包含事件信息的非结构化文本数据。

  • 结构化数据来源于财务事件知识库,包含9种常见的财务事件类型,并以表格形式存储。这些包含关键事件论元的结构化数据是从金融专业人士的公告中总结出来的。以股权质押事件为例,如图3左侧所示,其中关键参数包括股东名称(名称)、质押机构(ORG)、质押股份数量(NUM)、质押开始日期(BEG)、质押结束日期(End)。
  • 非结构化文本数据来源于企业发布的官方公告,以非结构化形式存储在网络上,我们从搜狐证券网获得这些文本数据。

数据生成方法:

标注数据主要包括两部分:通过标注事件触发词事件论元生成的句子级数据;通过标注文档级公告中的事件提及生成的文档级数据
现在的问题在于如何找到事件触发词。与结构化事件知识库相对应的事件论元和事件提及是从大量的公告中总结出来的。远程监督的方法在关系抽取和事件抽取上均表现出来其在自动标注数据上的有效性。受远程监督的启发,我们假设一个句子包含最多的事件参数,并且在特定触发器的驱动下,很可能是公告中提到的事件。事件提及中的论元很有可能在事件中扮演相应的角色。对于每一类金融事件,我们构建了一个事件触发词典,如股权冻结事件中的冻结事件和股权质押事件中的质押事件。因此,可以通过查询预先定义的词典从公告中自动标记触发词。通过这些预处理,结构化数据可以映射到公告中的事件论元。因此,我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元,以生成句子级别的数据,如图3底部所示。然后,对于一个文档,作者定义其中的一个句子作为文档中的正例,即最能表达文档中事件的一句话,其他句子均为负例。自此,对一篇文档的标注就完成了。文档级数据和句子级数据一起构成了EE系统所需的训练数据。

技巧:

实际情况下,数据标注存在一些挑战:财务公告与事件知识库的对应性;事件论元的模糊性和缩写性。我们使用了一些技巧来解决这些问题,示例如图3所示。

  • 减少搜索空间:通过检索关键事件论元(如公告的发布日期和股票代码),可以减少候选公告的搜索空间
  • 正则表达式:通过正则表达式可以匹配到更多的事件论元,提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中,但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题,并将LONCIN标记为事件论元。
  • 规则:一些任务驱动的规则可用于自动标注数据。例如,我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.2 事件抽取

图4描述了本文提出的事件抽取系统的总体架构,主要包括以下两个组件:旨在从单个句子中抽取出事件论元事件触发词的句子级事件抽取;旨在基于关键事件检测模型和论元填充策略从整个文档中提取事件参数的文档级事件抽取。

Figure 4: The architecture of event extraction.

2.2.1 句子级事件抽取

我们将句子级事件抽取作为一个序列标注任务,并对基于句子级标注数据的训练数据进行了描述。句子使用BIO标注模式进行标注。如图4左侧所示,模型使用BiLSTM+CRF进行句子级事件抽取,抽取出句子中的候选论元及触发词

2.2.2 文档级事件抽取

文档级事件抽取包括两部分:旨在从文档中发现事件提及的关键事件检测模型;用于填充事件论元的论元补足策略。

关键事件检测:

如图4右侧所示,事件检测的输入由两部分组成:一部分是来自句子级事件抽取输出的事件论元和事件触发器的表示(蓝色),另一部分是当前句子的向量表示(红色)。将两部分串联起来作为CNN的输入特征。然后将当前句分为两类:关键事件与否,即是否为文档中的正例。

论元填充策略:

我们通过文档级事件抽取获得了包含大部分事件论元的关键事件,并通过句子级事件抽取获得了文档中每个句子的事件抽取结果。为了获得完整的时间信息,我们使用论元填充策略,该策略可以自动地从周围句子中填充缺失的事件论元。如图4所示,一个完整的质押事件包括事件提及Sn​中的事件论元,以及根据事件提及中填充的事件论元12months。Sn​中的事件论元,以及根据事件提及 中填充的事件论元 12 months。Sn​中的事件论元,以及根据事件提及中填充的事件论元12months。

3 评估

3.1 数据集

我们对四类金融事件进行了实验:股权冻结事件、股权质押事件、股权回购事件和股权增持事件。共有2976份公告通过自动生成数据进行了标记。我们将标记的数据分为三个子集:训练集(占公告总数的80%)、开发集(10%)和测试集(10%)。表1显示了数据集的统计信息。NO.ANN表示可以为每个事件类型自动标注的公告的数量。NO.POS表示正样本句子(事件提及)的数量,相反,NO.NEG表示负样本句子的数量。正负样本句子构成文档级数据,作为文档级事件抽取的训练数据。包含事件触发词和一系列事件论元的正样本句子,标记为SEE的句子级训练数据。

我们随机选取了200个样本(包含862个事件论元)来手动评估自动标注数据的准确率。平均精度见表2,这表明我们的自动标注数据具有较高的质量。

3.2 模型效果

我们使用准确率(P)、召回率(R)和(F1)来评估DCFEE系统。表3显示了基于模式的方法和DCFEE在提取股权冻结事件时的性能。实验结果表明,在大多数事件论元提取中,DCFEE的性能优于基于模式的方法。

表4显示了SEE和DEE在不同事件类型上的P、R、F1。值得注意的是,SEE阶段使用的黄金数据是自动生成的数据,DEE阶段使用的黄金数据来自金融事件知识库。实验结果表明,SEE和DEE的有效性,精度可以接受。

实验表明,基于远程监督的方法可以自动生成高质量的标注数据,避免了人工标注。同时验证了本文提出的DCFEE能够有效地从文档级角度中提取事件。

4 应用

DCFEE系统的应用:中文财经文本的在线电子商务服务。它可以帮助金融专业人士从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的截图。不同颜色的单词代表不同的事件参数类型,下划线句子代表文档中提到的事件。如图5所示,我们可以从非结构化文本(关于股权冻结的公告)中获得一个完整的股权冻结事件。

5 相关工作

目前的EE方法主要分为统计方法、基于模式的方法和混合方法。统计方法可以分为两类:基于特征提取工程的传统机器学习算法和基于自动特征提取的神经网络算法。基于模式的方法通常在工业上被使用,因为它可以获得更高的准确率,但同时具有较低的召回率。为了提高召回率,主要有两个研究方向:建立相对完整的模式库和采用半自动的方法建立触发器词典。混合事件提取方法将统计方法和基于模式的方法结合在一起。据我们所知,在中文金融领域,还没有一个系统能够自动生成标注数据,并从公告中自动提取文档级事件。

6 结论

本文提出了DCFEE框架,该框架能够基于自动标注的数据从中国财务公告中提取文档级事件。实验结果表明了系统的有效性。我们成功地将系统上线,用户可以通过该系统从财务公告中快速获取事件信息。

原文链接:https://blog.csdn.net/qq_34838643/article/details/107795253

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab相关推荐

  1. 中文事件抽取关键技术研究(谭红叶 博士毕业论文)

    中文事件抽取关键技术研究(谭红叶 博士毕业论文) 事件抽取的定义 ACE2005 将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型.事件论元角色 ...

  2. NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取.开放域事件抽取.事件数据生成.跨语言事件抽取.小样本 ...

  3. 论文笔记: Hierarchical Chinese Legal event extraction via Pedal Attention Mechanism

    作者:陈宇飞 单位:燕山大学 论文地址:https://www.aclweb.org/anthology/2020.coling-main.9/ 目录 一.摘要 二.引言 三.设计 四.实验结果 一. ...

  4. 事件抽取文献整理(2018)

    前言 之前研究事件抽取领域(NLP一个小领域信息抽取的子领域), 之前整理过一些文献. 本文是 事件抽取文献整理(2019) 的后续. 事件抽取文献整理(2020-2021) + 事件抽取文献整理(2 ...

  5. 篇章级的事件抽取——阅读笔记

    一.<DCFEE> <DCFEE: A Document-level Chinese Financial Event Extraction System based on Autom ...

  6. 【SCIR笔记】文档级事件抽取简述

    作者:哈工大SCIR 胡振宇 来自:哈工大SCIR 1. 简介 事件作为信息的一种表现形式,其定义为特定的人及物在特定的时间特定的地点相互作用的事实.事件的组成元素包含触发词.事件类型.论元以及论元角 ...

  7. ACL2020放榜!事件抽取、关系抽取、NER、Few-Shot相关论文整理~

    重磅! ACL2020 官方放榜啦!传送门: https://acl2020.org/program/accepted/ 小编在此整理出了一份事件抽取.关系抽取.命名实体识别.Few-Shot以及在模 ...

  8. 论文阅读:A Survey of Open Domain Event Extraction 综述:开放域事件抽取

    A Survey of Open Domain Event Extraction 综述:开放域事件抽取 目录 A Survey of Open Domain Event Extraction 综述:开 ...

  9. 综述 | 事件抽取及推理 (下)

    本文转载在公众号:知识工场 . 上篇事件抽取及推理的推文已经介绍了事件抽取的基本方法,本篇主要介绍事件推理的相关工作.就目前来看,事件方向相关的研究还是以事件抽取为主流任务,当前大多都是在模型的框架和 ...

最新文章

  1. Android开机启动流程初探
  2. 神经网络的分类准确率到底是一个什么物理量
  3. 案例代码:sprimngboot备份数据库
  4. 神经网络基础:七种网络单元,四种层连接方式
  5. App设计灵感之十二组精美的汽车远程管理App设计案例
  6. java模拟数据库压测_Jmeter压测工具使用总结
  7. python类2继承-抽象-多态
  8. Eclipse IDE for c/c++ 可以设置变量匹配高亮显示颜色
  9. [Java] Maven 建立 Spring MVC 工程
  10. Leetcode. 14. Longest Common Prefix
  11. 内网通 文件存服务器吗,内网通的服务器地址怎么看
  12. 概率机器人书 电子版
  13. 矩阵相加 / 矩阵相乘(详解版)
  14. CodeForces - 1169D : Neko Performs Cat Furrier Transform(思维)
  15. Webpack4 配置 Output
  16. R2S铝合金外壳散热测试
  17. Sketch Learning - SVG 是什么?
  18. sqlServer简单建数据库,建表操作
  19. Windows操作系统的日志分析
  20. Maven项目中,添加依赖项后仍然出现找不到该jar包的解决方法

热门文章

  1. [转载]WebBrowser知识
  2. Android中常见的MVC/MVP/MVVM模式
  3. 嵌入式工程师薪资调查
  4. ubuntu 14.04中文显示乱码问题
  5. Linux C高级编程——网络编程之包裹函数
  6. 在统计学中参数的含义是指_《统计学》名词解释及公式
  7. Netty之自定义RPC
  8. LeetCode 2068. 检查两个字符串是否几乎相等
  9. LeetCode 1826. 有缺陷的传感器(枚举)
  10. ACwing 4. 多重背包问题 I(DP)