引言

事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。为了揭示事件的演化规律和发展逻辑,本文提出了事理图谱的概念,作为对人类行为活动的直接刻画。在图结构上,与马尔科夫逻辑网络(无向图)、贝叶斯网络(有向无环图)不同,事理图谱是一个有向有环图。现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。为了展示和验证事理图谱的研究价值和应用价值,我们从互联网非结构化数据中抽取、构建了一个出行领域事理图谱。初步结果表明,事理图谱可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。

事理图谱的定义

首先,给出事件、事件间顺承和因果关系的定义。事理图谱中的事件用抽象、泛化、语义完备的谓词短语来表示,其中含有事件触发词,以及其他必需的成分来保持该事件的语义完备性。抽象和泛化指不关注事件的具体发生时间、地点和具体施事者,语义完备指人类能够理解该短语传达出的意义,不至于过度抽象而让人产生困惑。例如,“吃火锅”,“看电影”,“去机场”,是合理的事件表达;而“去地方”,“做事情”,“吃“,是不合理或不完整的事件表达。后面三个事件因为过度抽象而让人不知其具体含义是什么。事件间顺承关系指两个事件在时间上先后发生的偏序关系;在英语体系研究中一般就叫做时序关系(Temporal Relation),本文认为两者是等价的。例如,“小明吃过午饭后,付完账离开了餐馆。”吃饭、付账、离开餐馆,这三个事件构成了一个顺承关系链条。事件间因果关系指在满足顺承关系时序约束的基础上,两个事件间有很强的因果性,强调前因后果。例如,“日本核泄漏引起了严重的海洋污染”。“日本核泄漏”和“海洋污染”两个事件间就是因果关系,“日本核泄漏”是因,“海洋污染”是果,并且满足因在前,果在后的时序约束关系。事件顺承关系是比因果关系更广泛的存在。

图1:“结婚”场景下的树状事件演化图

图2:“看电影”场景下的链状事件演化图

图3:“打架”场景下的环状事件演化图

事理图谱(Event Evolutionary Graph)一个描述事件之间顺承、因果关系的事理演化逻辑有向图。图中节点表示抽象、泛化的事件,有向边表示事件之间顺承、因果关系。边上还标注有事件间转移概率信息。图1,图2,图3分别展示了事理图谱中3个不同场景下,不同图结构的局部事件演化模式图。这种常识性事件演化规律往往隐藏在人们的日常行为模式中,或者用户生成的文本数据中,而没有显式地以知识库的形式存储起来。事理图谱旨在揭示事件间的逻辑演化规律与模式,作为对人类行为活动的直接刻画。

表1. 事理图谱与知识图谱的对比

  事理图谱 知识图谱
研究对象 事件及其关系 实体及其关系
组织形式 有向图 有向图
主要知识形式 事件间顺承、因果关系,以及转移概率信息 实体属性和关系,实体上下位信息等
知识客观性 事件间演化规律的可能性度量 追求客观真实性

事理图谱与传统知识图谱有本质上的不同。如表1所示,事理图谱以事件为核心研究对象,有向边只表示两种事理关系,即顺承和因果;边上标注有概率信息说明事理图谱是一种事件间相继发生可能性的刻画,不是确定性关系。而知识图谱以实体为核心研究对象,实体属性以及实体间关系种类往往成千上万。知识图谱以客观真实性为目标,某一条属性或关系要么成立,要么不成立。

图4:出行领域事理图谱Demo

基于上文相关定义,我们从互联网无结构化数据构建了一个中文出行领域事理图谱。采用的语料是知乎“旅行”话题下的32万篇用户问答对。构建过程包括事件抽取、事件间顺承和因果关系识别、事件转移概率计算等步骤。图4是该事理图谱的Demo展示。以“跑步”作为输入事件,我们采用广度优先搜索向外扩展,形成了图4中以“跑步“为核心事件所扩展出来的局部事理关系图。从该图中,我们至少可以发现3个有趣的事件演化链条。“跑步、看医生、拍片子”的分支属于“运动受伤”场景下的事件演化模式,“跑步、洗澡、睡觉”分支属于“运动休闲”场景下的事件演化模式,“跑步、(买)跑鞋、去网站”分支属于“运动消费”场景下的事件演化模式。这个例子揭示了事理图谱对事件演化规律刻画的准确性与多样性。图中边上还标有事件转移概率等信息。

事理图谱的理论基础与应用

理论上,事理图谱是一种概率有向图。它与概率图模型中的贝叶斯网络、马尔科夫逻辑网络既有不同又有联系。贝叶斯网络采用有向无环图来表达变量节点之间的条件依赖与独立性关系,马尔可夫随机场则采用无向图来表达变量间的相互作用关系。从这个层面上讲,事理图谱用有向有环图表达常量(事件)之间的演化关系。贝叶斯网络和马尔科夫逻辑网络的本质是研究多个随机变量的联合概率分布。而事理图谱是研究事件的链式依赖和表征事件发展方向的可能性。因此与贝叶斯网络和马尔科夫逻辑网络相比,事理图谱既有其结构特殊性,研究对象也有所不同。我们可以借鉴贝叶斯网络和马尔科夫逻辑网络中的研究成果,但研究对象的不同又对我们的理论和工具提出了新的要求。具体来说有环特性增加了事理图谱图结构的复杂性,因此传统概率图模型上的信念传播算法就面临了挑战。事理图谱这种复杂网络中的事件链条和链式依赖的挖掘与确定性评价也是一个全新的课题。

本质上,事理图谱提供了这样一种功能:给出一个抽象事件(“看电影”),它能告诉你围绕该抽象事件在时间演化顺序上先后可能发生什么样的事情(“订票”,“选座位”,“打车”,“取票”,“买饮料”,“排队入场”等)。据此,事理图谱将至少可以在以下两方面起到重要作用。

  1. 智能对话系统。如果在对话中出现了A事件,可以在回复中提及A的前提事件或后继事件,构造语义上更加智能与合理的回复。

  2. 消费意图识别与推荐系统。在事理图谱中,某些事件会成为消费意图显著事件(“去旅行”,“逛街”,“爬泰山”等),能够触发一系列后续消费事件。我们把这类事件节点找出来,有助于隐式消费意图的识别,进而做出合理的商品推荐。

事理图谱的应用不仅限于此。在人工智能应用中,常识推理是一种十分重要且必需的能力。作为一种常识性事件演化逻辑知识库,事理图谱的应用潜力十分巨大。

相关工作

在调研过程中,我们发现跟事理图谱密切相关的两个研究方向是统计脚本学习和事件间时序因果关系识别。前者关注事件链条的抽取,事件预测以及事件间转移概率的建模。给定文本中两个事件,后者关注如何识别它们之间的时序、因果关系以及关系方向。借鉴这两个领域的研究成果,有助于事理图谱构建。

图5:饭店用餐脚本

脚本学习研究可以追溯到上世纪70年代。如图5所示,Schank & Abelson[1]提出用脚本(Script)来建模特定场景的事件常识知识。那时的脚本通常是学者手工编码、人工构造的。Chambers& Jurafsky[2]采用简化的事件表示形式(Verb+dependency),从新闻数据中自动抽取统计脚本,并提出用“挖词填空“方法来评估脚本事件预测模型。该工作成为近年来脚本学习研究的开创性工作。此后,陆续有多篇研究工作跟随Chambers & Jurafsky的研究框架,从事件表示、脚本事件预测模型等方面提出了很多改进方案。Pichotta & Mooney[3]首次提出用循环神经网络的方法直接对句子级事件进行操作,生成下一个句子级事件。2016年在ACL、EMNLP、AAAI、Coling、LREC等会议上有多篇脚本学习的研究工作出现,并且发布了多个公开数据集,表明这项研究逐渐成为NLP领域一个新的研究热点。

事理图谱跟脚本学习研究虽然概念上有相似之处,但两种研究的出发点是不同的。脚本学习研究往往不关注事件的具体表示形式,经常以一个十分抽象的动词或者依存关系表示一个事件,人类一般无法理解这些事件具体含义是什么。脚本学习重点关注事件预测,给出一些已经发生的事件,预测接下来会发生什么事件。脚本学习研究目标不是构造事理知识库,并不显式地将抽取出的事件组织成有向图结构,而以链状的事件链条为事件组织形式,而且一般以事件在文中出现的顺序作为事件先后发生的顺序。事理图谱的研究目标是将事件演化规律和模式组织成一个大型事理常识知识库,这个知识库是人类行为活动的真实刻画。

事件间时序关系识别是一个评测驱动的研究领域。该研究的标准数据集是基于TimeML标准标注的TimeBank语料。SemEval2007,SemEval2010,SemEval2013相继开展了该任务的评测。参加者需给出文本中指定事件对之间的时序关系属于哪一种。历届评测以英文语料为主,后来又加入了西班牙语、意大利语、法语的评测。SemEval2010发布了一个小规模中文数据集。

在NLP领域,已有大量工作对事件间因果关系抽取与识别进行了深入研究。这里仅列举部分有代表性的工作。Zhao等人[5]通过提取多种类型的特征,对单个句子中的两个事件进行因果关系识别,发现因果关联词类别特征可以有效降低过拟合。Radinsky等人[6]通过因果模板匹配的方法从新闻标题中自动抽取因果对,并将这种因果知识用于新闻事件预测。Zhao[7]采用了与[6]中类似的方法来进行因果对的抽取,并利用WordNet和VerbNet对事件进行泛化,构建了一个抽象因果网络。在此抽象因果网络上,他们进一步将事件进行Embedding表示,以便用于事件预测、股票预测等任务。Mirza等人[8]通过采用多分类器级联的方法,在小规模标注语料上同时进行事件时序关系识别与因果关系识别,取得了不错的实验结果。

前人在事件间时序和因果关系识别上的研究已有大量技术积累,在构建事理图谱过程中,这些技术可以为我们所借鉴。

结束语

人们每天的活动在不知不觉间进行。实际上,每个人的头脑里都有一个隐形的事理图谱,人们据此展开每天的行为活动。本文提出了事理图谱的概念并给出了详细定义。事理图谱是事件演化规律和模式的知识库,是人类行为活动的真实刻画。我们尝试从大规模无结构化数据中构建事理图谱,并且搭建了一个Demo,让人们可以看到事理图谱的雏形。事理图谱的构建涉及多项自然语言处理核心技术,未来我们将精心打磨各个技术点,旨在构建准确、全面的常识事理知识库。这是一个非常有潜力的研究方向,也一定会吸引更多的学者投入到这个研究领域中来。

相关历史文章: 赛尔原创 | 抽象因果事理图谱的构建和应用

参考文献

[1] SchankR C, Abelson R P. Scripts, plans, and knowledge[M]. New Haven, CT: YaleUniversity, 1975.

[2] ChambersN, Jurafsky D. Unsupervised Learning of Narrative Event Chains[C]//ACL, 2008,94305: 789-797.

[3] PichottaK, Mooney R J. Using sentence-level LSTM language models for scriptinference[J]. ACL, 2016.

[4] LiP, Zhu Q, Zhou G, et al. Global Inference to Chinese Temporal RelationExtraction[J]//Coling, 2016.

[5] ZhaoS, Liu T, Zhao S, et al. Event causality extraction based on connectives analysis[J]. Neuro computing, 2016, 173: 1943-1950.

[6] RadinskyK, Davidovich S, Markovitch S. Learning causality for news eventsprediction[C]//Proceedings of the 21st international conference on World Wide Web. ACM, 2012: 909-918.

[7] ZhaoS, Wang Q, Massung S, et al. Constructing and embedding abstract event causality networks from text snippets[C]//WSDM. ACM, 2017: 335-344.

[8] MirzaP, Tonelli S. CATENA: CAusal and TEmporal relation extraction from NAtural language texts[C]//Coling. 2016: 64-75.

本期责任编辑: 赵森栋

本期编辑: 施晓明


  • “哈工大SCIR”公众号

  • 主编:车万翔

  • 副主编: 张伟男,丁效

  • 责任编辑: 张伟男,丁效,郭江,赵森栋

  • 编辑: 李家琦,施晓明,张文博,赵得志

哈工大赛尔 | 事理图谱:事件演化的规律和模式相关推荐

  1. 事理图谱:事件演化的规律和模式

    2016年7月,哈工大社会计算与信息检索研究中心(HIT-SCIR)开始启动事理图谱的研究工作.2017年10月,研究中心主任刘挺教授在中国计算机大会(CNCC)上正式提出事理图谱的概念.2018年9 ...

  2. 技术动态 | 事理图谱,下一代知识图谱

    本文转载自公众号:DataHorizon. 人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工 ...

  3. 事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?

    过去几个月,深陷所谓"事理图谱"当中,苦恼不已.从2018年4月份开始做所谓的"事理图谱"以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了 ...

  4. 我们的实践:事理图谱,下一代知识图谱

    原文链接:https://mp.weixin.qq.com/s/iLfXeVeWE5CCs_sM_NAOSw 一.人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示, ...

  5. 事理图谱-下一代知识图谱

    一.人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走 ...

  6. 从知识图谱到事理图谱 | CNCC 2017

    雷锋网AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办的 2017 中国计算机大会(CNCC 2017)于 10.26-10.28 日在福州 ...

  7. 刘挺 | 从知识图谱到事理图谱

    本文转载自 AI科技评论. 在"知识图谱预见社交媒体"的技术分论坛上,哈尔滨工业大学刘挺教授做了题为"从知识图谱到事理图谱"的精彩报告.会后AI科技评论征得刘挺 ...

  8. CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

    一.背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph ...

  9. 事件抽取与事理图谱(一)

    事件抽取是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来. 一些信息抽取领域的 ...

最新文章

  1. SpringBoot第十一篇:springboot集成swagger2,构建优雅的Restful API
  2. 第二课.PyTorch入门
  3. mysql使用参数指定用户_mysql-用户账号及权限管理
  4. boost::log::core用法的测试程序
  5. DCMTK:演示状态查看器-网络发送组件(存储SCU)
  6. FileSystemObject (FSO)对象方法总结及应用
  7. 计算机管理ap,如何设置AC功能管理无线AP
  8. Cortex-M3异常中断及向量表定义
  9. 类的定义与抽取 java 1615134563
  10. linux之SVN安装
  11. Swiper、vue-awesome-swiper中文文档
  12. 浅谈周大福的积分运营
  13. 2018年我的开发管理总结
  14. c++中getline()函数用法与坑
  15. golangci-lint timeout
  16. input/output is not in graph tf.layers.conv2d在name命名时会自动在其后添加Conv2D
  17. Python地学分析 — GDAL将多个遥感图像叠加保存为tif文件
  18. Windows 组策略 应用
  19. 学计算机难吗d,我想学计算机,五笔打字很难吗
  20. 关于互联网公司,说几句个人感触

热门文章

  1. 富文本编辑vue插件vue-quill-editor
  2. NR 物理层 卷积 狄拉克函数八讲1-狄拉克函数定义Delta Function
  3. Python基础——计算机组成原理、操作系统概述、编程语言的由来、编程语言分类、python介绍、 安装Cpython解释器、 第一个python程序
  4. map写入文件及从文件读出
  5. mongoDB地理位置检索
  6. HTML浏览器解析位置错误,各浏览器对CSS错误解析规则的差异及CSS hack.pdf
  7. MySQL创建用户,并赋予表权限
  8. element中下拉框select在长页面滚动时,下拉弹框没有跟随下拉框跑路
  9. Java反射与类加载过程会擦出什么样的火花
  10. 用于android的音乐可视化工具,Android音乐播放可视化