事件抽取是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。

一些信息抽取领域的国际评测会议针对事件抽取提出了一系列的理论,并推出了一些实用的系统框架:

事件,作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。

组成事件的各元素包括:

例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

根据上述定义,事件抽取任务可以分成两个子任务,分别是:

事件触发词及类型的识别(基于单词的多分类任务)

事件元素的识别(基于词对的多分类任务,是一种角色关系识别)

例如,对文本“Intel在中国成立了研究中心”进行事件抽取:

第一步应该将“成立”识别成触发词,其触发了一个“成立机构”类型的事件;

第二步应该将“Intel”、“中国”和“研究中心”识别成事件元素,其角色分别为“设立方”、“地点”和“被成立机构”

表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。

包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。

当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

模式匹配

模式匹配在特定领域内能取得较高的性能,但移植性较差。

机器学习

无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。

机器学习已成为元事件抽取的主流研究方法。

将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。

2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:

实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。

Context-word feature(CWF):将一个句子中的所有词作为上下文,CWF是一个所有字标记都被转换为词嵌入向量。#

Position feature(PF): PF被定义为当前词语与预测trigger以及候选argument之间的相对距离。相对距离有两个,一个是对于trigger,一个对于候选argument。

Event-type feature(EF):当前trigger的事件类型对于argument classification也是具有价值的。所以对在trigger classification过程中预测的事件类型进行编码,也做为DMCNN的一个重要线索,编码方式与PF相同。

识别出事件中的触发词和要素后,相当于识别出了事件语义图中孤立的节点和边,需要按照事件的约束进行组合形成事件。

识别出的节点和要素边可能有不合法的,在组合时需要去掉这些无效的节点和边。

事件后处理方法主要包括基于规则的后处理方法和基于统计机器学习的方法。

近来,针对事件抽取的工作大都集中在预测事件的 triggers 和 arguments roles,而把实体识别当作是已经由专家标注好了的,然而实际情况是实体识别通常是由现有工具包预测出来的,而这将会导致实体类型预测产生的错误传播到后续任务中而无法被纠正。

因而,本文提出一种基于共享的 feature representation,从而预测实体类型,triggers,argumentsroles 的联合模型。实验表明我们的方法做到了 state-of-the-art。

该模型由三个核心部分组成,分别是实体类型预测(Entity MentionDetection - EMD)、事件类型预测(Event Detection - ED)和语义角色类型预测(Argument RolePrediction - ARP)

事理图谱,顾名思义,是以事件为节点,事件间的关系为边的图谱网络。

与知识图谱中实体及关系大多是稳定的不同,事理图谱中关系大多是不确定的,以一定的概率进行转移。

人类的命题记忆是以“事件”为存储单位的,以事件作为知识的基本单元更能反映客观世界的知识。

从认知心理学的角度来看,事件更符合人类的理解与思维习惯,事件关系到多方面的概念,是比概念粒度更大的知识单元。

传统本体(知识图谱)所使用的概念模型难以反映事件这一更高层次和更复杂的语义信息,模型缺少了更高层次的结构。

从知识图谱的本质上来说,是以传统本体概念为基础进行知识组织的,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述。

知识图谱只能回答什么是什么的问题,从根本上来说也没有跳出“静态”这一属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏力。

知识图谱的技术及应用相对已经开始成熟,但只是基于实体知识库,并不足以描述事件之间的演化规律,而事理逻辑对现实世界的行为推演尤其重要。

人工智能从感知到认知的发展,需要一个能思考、推理、联想的大脑!

知识图谱与事理图谱两者之间存在着诸多异同之处,体现在描述知识、研究对象、构建目标、知识形式等方面:

事件抽取与事理图谱(一)相关推荐

  1. 事件抽取与事理图谱的N个问题

    1.事件是分为两个层次的,底层是抽象层,上层是实例层.底层是对一类事件的抽象归类和形式化表征,这种抽象和形式化表征将时间和空间两个维度的信息进行剔除:实例层是对抽象事件的一种信息的补充和肉体化,其中的 ...

  2. 事件、事件抽取与事理图谱

    事件.事件抽取与事理图谱 人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以"事件"为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系,以 ...

  3. 事件抽取与事理图谱(二)

    事理图谱,顾名思义,是以事件为节点,事件间的关系为边的图谱网络. 与知识图谱中实体及关系大多是稳定的不同,事理图谱中关系大多是不确定的,以一定的概率进行转移. 人类的命题记忆是以"事件&qu ...

  4. 万字长文:近年来学界、业界视角下的“事理图谱”发展总结与思考

    一.引言      大部分技术都会经历从提出,到验证,再到修正,再到落地的这样一个过程.事理图谱这个概念从国内学者自2017年提出到现在,已经经历了近4年的时间,那么在这四年的时间里,事理图谱目前处于 ...

  5. 论文浅尝 | 基于事理图谱的脚本事件预测

    论文笔记整理:邱圣广,南京大学硕士,研究方向为自然语言处理. 链接:https://www.ijcai.org/proceedings/2018/0584.pdf 绪论 1.  脚本事件预测 脚本事件 ...

  6. 运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成

    目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息.从学术的角度上来说,事理图谱与事件抽取.事件关系抽取.脚本学习.事件链生成.篇章 ...

  7. 事理图谱:事件演化的规律和模式

    2016年7月,哈工大社会计算与信息检索研究中心(HIT-SCIR)开始启动事理图谱的研究工作.2017年10月,研究中心主任刘挺教授在中国计算机大会(CNCC)上正式提出事理图谱的概念.2018年9 ...

  8. 哈工大赛尔 | 事理图谱:事件演化的规律和模式

    引言 事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的.事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识.然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件.为 ...

  9. 从知识图谱到事理图谱 | CNCC 2017

    雷锋网AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办的 2017 中国计算机大会(CNCC 2017)于 10.26-10.28 日在福州 ...

最新文章

  1. XE5 Android 开发实现手机打电话和发短信 [转]
  2. hive 导入mysql数据库_求助 Hive 导入MYsql 数据库 报错啊
  3. 大数据学习(10)--流计算
  4. 非线性回归 - 案例按步骤详解 -(SPSS建模)
  5. 开发CISCO交换机管理软件
  6. 我的世界启动器java_我的世界最新启动器 无需安装JAVA
  7. 跨网段和同网段的通信
  8. 在Hisi3531环境中为wm8978芯片添加音量调节功能及测试
  9. Git ssh key的生成,由于SSH配置文件的不匹配,导致的Permission denied (publickey)及其解决方法
  10. 怎么用wps做区域分布图_WPS表格如何进行多区域单元格的选择? 详情介绍
  11. Farmer John 木瓜地 C++
  12. 习题:一圆型游泳池如图所示,现在需在其周围建一圆型过道,并在其四周围上栅栏。栅栏价格为35元/米,过道造价为20元/平方米。过道宽度为3米,游泳池半径由键盘输入。要求编程计算并输出过道和栅栏的造价。
  13. 计算机组装硬件要求,组装电脑必懂的硬件知识,全是干货,教你选购硬件不求人...
  14. Linux 存储 Stack详解
  15. 如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据
  16. 非全研究生计算机网络-k8s网络插件(CNI)性能分析
  17. jdk8stream+mybatis动态sql代替mybatis foreach in 查询
  18. 软件工程——软件危机
  19. [week2]每周总结与工作计划
  20. Postman搭建mock server接口

热门文章

  1. 光伏组件机器视觉新突破!维视智造上线汇流带引线焊接检测新方案 “误检率”低至0.01%
  2. 【Proteus仿真】【51单片机】比赛计时计分系统设计
  3. 面试阿里必知的SQL面试题 100讲
  4. 技术分享 | mimikatz的常见使用方法
  5. 火车头采集器百度知道聚合采集插件说明文档!
  6. 获取wxapkg文件_微信小程序编译包的获取与解压——在手机中获取小程序编译包wxapkg...
  7. GSM系统框架结构与组成讲解
  8. 你无法让一个瞎子理解颜色的多彩
  9. 【英语笔记】 20-4-4
  10. android 64位系统中,需要引用32位库,导致挂掉的问题