科大讯飞2020完整事件抽取系统(bert+数据集)

事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任 务。

本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中,事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。

事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正 在发生的事件、将要发生的事件以及其他无法确定时态的事件。

本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为 了模拟真实场景,数据中包含了非实际发生的事件。

任务一:事件触发词及论元抽取

该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词 对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。

示例 1:

文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

任务二:事件属性抽取

该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否

定、可能;时态分为:过去、现在、将来、其他。

示例 1:

文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前

在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

抽取结果:

示例 4:

文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

抽取结果:

事件抽取系统,包含触发词(trigger),事件论元(role),事件属性(attribution)的抽取。基于 pytorch 的 pipeline 解决方案。

主要思路

将任务分割为触发词抽取,论元抽取,属性抽取。具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。因 time loc 并非每个句子中都存在,并且分布较为稀疏,因此将 time & loc 与 sub & obj 的抽取分开(role1 提取 sub & obj;role2 提取 time & loc)

模型先进行触发词提取,由于复赛数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取触发词;

然后根据触发词抽取模型抽取的触发词,分别输入到 role1 & role2 & attribution 模型中,进行后序的论元提取和属性分类;四种模型都是基于 Roberta-wwm 进行实验,加入了不同的特征。

最后将识别的结果进行整合,得到提交文件。

代码运行教程  获取:

关注微信公众号 datayx  然后回复  事件抽取  即可获取。

AI项目体验地址 https://loveai.tech


阅读过本文的人还看了以下文章:

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

科大讯飞2020完整事件抽取系统(bert+数据集)相关推荐

  1. 使用MRC(机器阅读理解)方式做事件抽取任务,基于2020百度事件抽取任务

    ​关注微信公众号:NLP分享汇.[喜欢的扫波关注,每天都在更新自己之前的积累] 文章链接:https://mp.weixin.qq.com/s/aKB6j42bC1MnWCFIEyjwQQ [前言] ...

  2. 论文导读 | 事件抽取技术发展现状

    1.   问题定义 事件抽取(Event Extraction)是一种面向非结构化文本或半结构化数据的信息抽取(Information Extraction)任务,与传统面向知识图谱的实体.关系.属性 ...

  3. 篇章级的事件抽取——阅读笔记

    一.<DCFEE> <DCFEE: A Document-level Chinese Financial Event Extraction System based on Autom ...

  4. [中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

    [中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab ...

  5. 【SCIR笔记】文档级事件抽取简述

    作者:哈工大SCIR 胡振宇 来自:哈工大SCIR 1. 简介 事件作为信息的一种表现形式,其定义为特定的人及物在特定的时间特定的地点相互作用的事实.事件的组成元素包含触发词.事件类型.论元以及论元角 ...

  6. 篇章级事件抽取任务拾遗

    本文介绍事件抽取,并引出篇章级事件抽取任务及一个较新的研究课题. 文章目录 一.任务定义 二.事件抽取任务的发展历史 1.基于规则的特征工程方法(~2015) 2.基于神经网络的深度学习方法(2015 ...

  7. 事件抽取与事件图谱构建

    公众号 系统之神与我同在 知识图谱是下一代人工智能的基础设施, 是实现可解释人工智能的重要手段. 事件图谱的意义:通用领域 丰富现有的知识图谱 支撑其它信息获取引擎 事件图谱构建的关键技术:事件抽取 ...

  8. 论文阅读05:基于循环神经网络的联合事件抽取-Joint Event Extraction via Recurrent Neural Networks

    公众号:数据挖掘与机器学习笔记 1.简介 事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘.自动问答.信息检索等领域有着广泛的应用.近些年来 ,事件抽取一直吸引着许多研究机构和 ...

  9. 基于百度2020语言与智能技术竞赛:事件抽取任务

    关注微信公众号:NLP分享汇.[喜欢的扫波关注,每天都在更新自己之前的积累] 文章链接:https://mp.weixin.qq.com/s/4oGMn1eZehGCBrmKJSf1_A ​[前言] ...

最新文章

  1. (52 90) 简答 什么叫计算机网络,计算机网络期末复习试卷.doc
  2. 关于“minSdkdeviceSdk”解决办法
  3. vsftpd.conf配置范例
  4. css怎么把横向菜单变纵向_CSS 布局模式 + 居中布局
  5. where is application controller bound to application main view
  6. 拿下京东榜单第五首战告捷,看联想手机如何上演王者归来
  7. 怎么利用计算机计算潮流计算,电力系统潮流计算的目的是什么
  8. 给电子类大学生一点求职建议
  9. 利用win7系统自身修复还原功能
  10. postgresql授权和撤销
  11. 《Linux内核分析》第一周学习报告
  12. zint.dll 二维码、条形码库的获取及简单使用
  13. 怎么查看linux系统硬盘,查看Linux磁盘空间的八大方法
  14. oracle ORA-02292: 违反完整约束条件
  15. #自动化测试框架的4种有效分类与使用选择
  16. 因为文件目录存在空格导致kafka运行错误:提示找不到或者无法加载主类错误
  17. 知网文献使用EndNote X9在word插入参考文献
  18. 07夯实基础之JavaEE基础
  19. GPU百科全书(1)方程与几何
  20. 树莓派3B+、opencv3+PyQt5实现人脸识别门禁系统

热门文章

  1. Redis pub/sub机制在实际运用场景的理解(转载)
  2. C++中使用try{}catch()的优/缺点
  3. “元宇宙” 是什么东西?
  4. 整理一篇Linux drm显示系统的文章
  5. VMware 安装kali——linux
  6. 加入 Git 版本管理(git的基本使用)
  7. LeetCode 1838. 最高频元素的频数(二分查找)
  8. LeetCode MySQL 1211. 查询结果的质量和占比
  9. LeetCode 1244. 力扣排行榜(map+multiset)
  10. LeetCode 1487. 保证文件名唯一(哈希map)