过去几个月,深陷所谓“事理图谱”当中,苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了多种做法,也不乏写了几篇关于事理图谱的文章(实际有未想明白之处)。现在写个阶段性的总结,以对过去在“事理图谱”中的工作进行一种反思,工程中的事理图谱要比学术报告PPT中的情况复杂的多,展示的图要乱的多,性能的数字少得多。。。。。

一、事理图谱是怎么来的?

“事理图谱”这个词是国内哈工大刘挺老师首次提出,与此同时较该团队之前有类似的工作,如中科院软件所、数据地平线公司的工作,也叫事理图谱。目前见学术文章的以刘挺老师的团队为例。英文版本,出现过EEG(Event Eventionary Graph),或后面的(Abstract Event Graph),或后面的ELG(Event Logical Graph),定义上而言,为“事件演化的规律和模式”。

二、抽象事理图谱VS知识图谱?

上面所说的事理图谱,实际上是“抽象事理图谱”,构成要素是抽象事件以及事件之间的关系,实际上并不是什么新事物。之前自己整理过一个关于事理图谱与知识图谱的对比图,现在看着,这种对比实际是有问题的:
1、 可比性。
事理图谱本身并没有跳出知识图谱的范畴,两者不是平级关系,没有可比性,真的要比,那么应该是实体知识图谱和抽象事理图谱。
2、静态与动态。
之前的说法是,知识图谱中存储的是实体,是静态知识,事理图谱中存储的是动态知识。这种说法是有问题的,静态和动态如何去区分?名词性实体就是静态的,动作性事件就是动态的?还是其中一个事件与另外一种事件之间存在着一种演化关系,这种演化性就动态了?
3、新一代的问题。
我在2018年12月份写的一篇文章中,介绍性地说,知事理图谱是下一代知识图谱,这种说法到现在我实在是比较难以认同(软文需要),因为我到目前为止还找不到这个“下一代”的证据。事理图谱并没有解决知识图谱的任何问题,存储方式,提取方法等等,没有发生根本性的改变。所以,不存在什么下一代的问题,事理图谱只是一种知识图谱变体罢了,旧瓶换新水,本质上并没有改变。

三、抽象事理图谱是纯学术需求?

对于事理是不是纯学术需求,这个论断困扰我很久,我越来越倾向于说YES。主要原因如下:
1、 抽象事件界定模糊。
什么是事件?什么是抽象事件?怎样才算抽象?抽象事件怎么去显示它?这一系列问题到目前并没有论述清楚。此外,抽象的层级又如何去界定?这些问题都没有解释清楚。
2、无法管理、建模能力差。
正是由于对这种抽象性的界定不清楚,所以无法对整个现实社会的事件类型进行建模,这里所说的建模能力,是指具有可枚举的层级体系的事件认知,但这个显然没有,没有体系的概念,即便可以引入上下位,那也是相当噪声的上下位,局部有效的上下位。没有明确的事件体系和事件类型,整个事理图谱中的数据犹如一盘散沙、形式混乱,这严重导致了事理图谱在管理、可用上的障碍。
3、事件的识别模糊。
抽象的事件,怎么去识别边界?整个事件的抽象问题都没有定义好,这使得抽取的过程沦为了一种思路,怎么抽都行。例如,“我吃了饭,然后去了学校”,识别的事件是“吃了饭”还是“我吃了饭”,“去了学校”,还是“去学校”。这种识别出来的抽象事件其实只是一个事件片段而已,就算抽取出来了,后续的一些再抽象等之类的算法,也只会造成误差传播,没法用。
4、事理图谱单事件对概率的无效性。
这里的无效性,指的是事理图谱在实际的应用过程中,这种概率的无效性,对于一个Ai会出来很多个Bj,针对每一个AiBj都会有条边出来。虽然可以利用统计手段,对事件的条件概率进行估计,或者放到图网络中随机游走给出一个实际的数值,但究其根本,取决于曝光度,那就是编辑们的曝光量,而一旦曝光少,但很有可能,这种统计方式是统计不到的。另外,每个AiBj发生的变量绝非单变量,相反多变量多的我们难以想象,曝光量仅仅只是其中之一。
5、事理图谱单事件链条的无效性。
另外一个方面是多度的误导性。一旦从Ai出来,不断往后延伸,会得到一系列的Bj,Ck,Dm…等等,越往后,整个链条的错误率其实越大,原因是:1)抽象事件本身的问题,事件的抽象问题把握不好,A到B还说的是猪肉问题,B到C已经说到感冒问题,这类问题其实特别常见,本质问题是这种事件的上下文信息即语境信息太少,传递下来,语境变化太差,整个传到逻辑就是错的。2)错误的传播。每条因果关系边都是失真的,让他不断地往后走,失真的会越来越厉害。3)整个传播逻辑的取舍难度大。假设前2个问题都已经解决,从一个起始事件到一个终止事件,可以有很多种路径,但哪条路径的可能性最大,在实现上是很大的问题。
6、对高质量海量语料的高度依赖
对语料的高度依赖性是所谓抽象事理图谱构建的最大问题之一。这种依赖性体现在“质”和“量”两个方面上,这里的“质”是对语料的质量来看,尤其体现在对事理逻辑的表达,因为有的事理不会很直白的表现出来,如政治领域中的文本,越偏向于对公正纯事实的报道就越不可能有事理逻辑的存在,抽象事理是对逻辑的总结,偏向于一种观点。“量”的表达,是另一个决定因素,如果数据量很少,那么即便“质”保证了,整个数量很少,也缺乏了实际意义。

四、事理图谱能用的先决条件

1、 完善的事件体系作为支撑与灵活可用的事件管理机制
以因果事理图谱构建的方式来看,属于一种围绕因果触发词出发的一种因果关联挖掘,而一直没有解决事件的这种抽象性问题,所以后续有事件融合(也称事件共指关系识别)、事件层次抽象的任务。这个任务的最终目标应该是建成一个可用的全局的事件类型体系,采用的是一种自下而上的方式加以构建,难度非常之大。即提出了一个现实问题:是否能够基于现有的大规模的基础数据,自动聚类和搭建起整个事件类型体系。
没有事件体系的事理图谱是一团散沙,有事件体系但缺乏事件管理机制的事理图谱则无法应用。这种管理机制,体现在对事理知识库的动态更新、多类型数据的管理上。
2、 高精准且模块化的事理组件
事理图谱中的事件体系问题是应该是决定事理图谱可用性的根本条件,首先提供高精准的事件类型体系构建方法是相当重要的,如何借助外部知识库辅助体系的构建,如何对冗余的事件体系进行剪枝,如何解决融合和共指问题,是决定体系的必要手段。此外,务必需要确定事理图谱中的事件定义问题,即3.1的问题。此外,语义外部知识库,这里的语义外部知识库包括各种,如同义词词林、hownet, conceptnet等。
3、 必要的领域专家接入
通用的事理图谱只能是死路一条。抽象事理图谱对事件的表示打破了领域与领域之间的墙,使得事理逻辑在不同的领域中随意穿行。领域专家接入,事件的领域分类、事件关系的领域分类都需要花费大量的力气去做。

五、总结

事理图谱,是一种纯学术需求、无法落地、漏洞百出的新技术或新概念?目前的经验告诉我,如果不解决以上几个问题,刻意回避事理图谱的一些本质问题,一味地扯概念,写技术展望帖、刷模型帖,不考虑实际应用需求,那么只能是纸上谈兵。毕竟,现在这样的氛围,太浓了。回到开始,事件体系+事件管理机制+领域事理+人机协同,真正把这个踏踏实实地做好,才能真正应用下去,我们团队,将致力于这方面的工作。

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、懂预言者得天下,得语言者分天下,得知识逻辑者,游得天下。

事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?相关推荐

  1. 万字长文:近年来学界、业界视角下的“事理图谱”发展总结与思考

    一.引言      大部分技术都会经历从提出,到验证,再到修正,再到落地的这样一个过程.事理图谱这个概念从国内学者自2017年提出到现在,已经经历了近4年的时间,那么在这四年的时间里,事理图谱目前处于 ...

  2. 让静态知识动起来:从知识图谱到事理图谱

    2021-03-12 18:42 导语:从是什么到为什么. 作者 | AI科技评论 在社交网络中,有这样一条著名的"六度分隔理论": "最多通过五个人,你就能够认识世界上 ...

  3. 从知识图谱到事理图谱 | CNCC 2017

    雷锋网AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办的 2017 中国计算机大会(CNCC 2017)于 10.26-10.28 日在福州 ...

  4. 浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式

    事理图谱,不是简单的事件识别和事件关系识别以及事件三元组存储,是一个需要健全事件体系牵引.具有领域收敛特性.在构建上需要人机协同,在应用上拥有多种辅助范式形成的系统体系工程.–刘焕勇,于中科院软件所, ...

  5. 运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成

    目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息.从学术的角度上来说,事理图谱与事件抽取.事件关系抽取.脚本学习.事件链生成.篇章 ...

  6. 技术动态 | 事理图谱,下一代知识图谱

    本文转载自公众号:DataHorizon. 人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工 ...

  7. 刘挺 | 从知识图谱到事理图谱

    本文转载自 AI科技评论. 在"知识图谱预见社交媒体"的技术分论坛上,哈尔滨工业大学刘挺教授做了题为"从知识图谱到事理图谱"的精彩报告.会后AI科技评论征得刘挺 ...

  8. 没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!

    2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据.事件.逻辑的语义toolbox为 ...

  9. 事理图谱概念辨析及其与风险标签分类结合的应用探讨

    以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质.事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题.我 ...

最新文章

  1. 第三周 数据分析之概要 Pandas库数据特征分析
  2. oracle迁移到mysql工具_oracle数据库想迁移到mysql上 有什么方法或者工具吗
  3. 【渝粤教育】国家开放大学2018年春季 8622-22T社会调查研究与方法 参考试题
  4. 利用MySQL语句批量替换指定wordpress文章中的图片路径
  5. 黑马程序员--ADO.Net中的知识点和难点
  6. IoC(控制反转)的主要组件和注入的两种方式
  7. 【ELK】ELK安装与配置
  8. 2018-2019 ACM-ICPC, Asia Nanjing Regional Contest题解
  9. Linux 系统故障排查思路简析
  10. 关于动作捕捉动画一些记录
  11. 后疫情时代|如何才能让居家办公变得更高效?
  12. QT Libvlc视频画面上覆盖透明控件
  13. 经典蓝牙inquiry与inquiry scan
  14. setdbprefs matlab,matlab数据导入与导出
  15. 2021年12月西电大二Python期末小总结
  16. 上海高二物理公式整理
  17. 苹果4如何添加时间插件_Pr快速批量制作和添加字幕,节省时间还不用插件的做法...
  18. 《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)
  19. 数据库设计2021-09-15
  20. 数据分析六个步骤,一款BI工具即可全部完成

热门文章

  1. 排序算法之选择法排序(C/C++)
  2. 写代码获取全国疫情地图
  3. 一道90%都会做错的指针题
  4. STM32——ADC
  5. 计算机网络阅读报告,计算机网络实验二报告
  6. Python自动化办公——xlrd、xlwt读写Excel
  7. LeetCode 1713. 得到子序列的最少操作次数(最长上升子序DP nlogn)
  8. LeetCode 1152. 用户网站访问行为分析
  9. LeetCode 1338. 数组大小减半
  10. LeetCode 1017. 负二进制转换(负数进制转换)