1,知识图谱理想上双层结构,实际单层
知识图谱是个双层结构。模式层和实例层,模式层,又称为本体层,模式层分成两个部分,一个是概念的上下层级,另一个是概念之间的关系层或者概念的自身属性信息层。前者规定了概念类之间的类关系,赋予了概念之间可以继承的特性,后者定义了不同类自身的属性和关系变体。严格意义上来说,知识图谱中的模式层对数据项的取值是有严格定义的,例如数据库中的各种数据类型(字符串型、float型、list型),但这种做法在工业界往往用不到,因为充分适应这种数据类型的规定是非常需要费时费力的。在很多人的认知里,知识图谱就是知识三元组,仅保留实例层,这是现实中的大现实,因为这来的快,拿来就用。表面上看起来很舒服,搞上面这一层太费脑筋,而且有太多业务知识,很多人办不到,尤其是焦虑的工业界。
2,知识图谱是可解释性,也是个灾难。
知识图谱=可解释性,这种论断被炒的很火,不能说对,也不能说错,标杆在于对可解释的定义。大体认为知识图谱是可解释的是沿袭了“眼见为实”的思维,即,我看到的实实在在的东西,可以形式化的显示性地表达出来时,我才认为我可以把一个问题解释给对此毫无背景的人听。也就是看重的是一种过程性的符号佐证,一种缺乏思考能力和基础知识却想掌握某一现象的人来说的。而深度学习中学习到的系数或值缺少实际的物理意义,从而被认为是不了解释的,因为缺乏形式化。如果我们认可了这样一种标杆,那么也自然成立,但这种成立性带来了巨大的灾难,即可解释性的数据荒灾难,为了支持一个既定的事实,背后需要大量的知识作为支撑,但现在的规模是远远不够的,几千亿,几万亿估计都不够。退回来说,这个知识的来源,人工编辑收集的方式很局限,不可面面俱到。基于抽取的方法可以海量的挖掘,撇开技术性能不说,海量挖掘的目的在于知识的曝光度,曝光才是抽取的前提,但有太多长尾的知识是压根不被报道或写出来的,换句话说,目前可以拿到的数据资源可能只是所有重要知识的百分之几,甚至千分之几,万分之几。所以,认定了知识图谱是通向可解释智能的路,那么这条路注定是个big problem.
3,认知需要层级性的动作性和实体性知识基础
知识图谱是认知智能的语义基石,基于知识图谱中所存储的知识,机器可以像人一样去进行知识应用,知识推理笔记看过很多博文的人都会有这种的认同感,这没有什么问题。认知,是人类相较于其他动物最大的区别,在我看来,认知能力主要包括概括能力和类推能力两种,概括能力是能够基于大量既定事实总结经验规律模式,并形成具有一定层级的模式思维能力。类推能力,更像是概括能力的反向用力以及应用,即常说的思考或举一反三。因此,既然认定知识图谱是认知的基础,那势必需要满足这两种基础,即概括基础和类推基础。
概括基础形式化体现出来,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知识库作为输出。说到这个,又要说到人的认知体系问题,人类的认知体系是以名词性实体为核心还是以动词性事件为核心的,不同的核心决定了不同的概括需求。事实上,作为一个由社会活动驱动的人类,是动词性事件为核心的,动词性事件支配名词性实体,因此概括性能力应该包括名词性能力和动词性能力。但即便是如此,人类在显式的表达自己的知识时,还是以选择名词性实体进行表达,是因为名词性实体比事件更为细粒度,也更为稳定,也是好习得,好操作,即先知道what is what再知道do what 。
名词性能力这方面代表性的工作有大词林、wordnet,这两个是我认为真正意义上做到这点的工作,一个是抽象,二是分层,没有进行分层的概念性是零散的(一堆高度稀疏的isa),这方面的工作包括cnprobase,以及conceptgraph。但是,对于这种概括性知识图谱而言,还是基本上集中在名词性实体上,究其原因,一是因为好建模(可以利用实体链接,背后有百科类实体作为支撑,好操作),二是因为数据的可获得性,有大量认为预定好的层级(目录树,网页导航,黄页)等。当然,在这个方面,各大电商,医疗,工业,领域等积累了大量的材料,如阿里商品等,基于商品的挖掘,可以快速搭建一个面向商品消费的层级性实体概括性知识库。
动作性的概括性图谱目前还相对空白。与名词概括性图谱不一样,名词性的概括性可以用is-a表达,而动词性概括图谱更多的是一种part-of关系,事件具有组成性的特征。相关的工作更多的是集中在事件的逻辑性的挖掘上(因果逻辑,条件逻辑,上下位逻辑)。有必要说明的是,其中的上下位(包括基于名词性实体的上下位以及基于动词性实体的上下位)是这种概括性图谱中的一部分。比如结婚这个动作,包括领证、办喜酒、发请帖等几个组成性事件。前者所描述的是一种诸如货币贬值下的美元贬值、人民币贬值、日元贬值。一种在形式上有交集,可以找到规则,另一种没有形式规则可言。所以,前者的挖掘难度要比后者简单地多,而意义上后者则要强得多。
4,事件类图谱的殊途同归:向上概括与向下泛化
漫步的抽象事理图谱。同一个事件知识,如果只关注单个事件集合之间的关系(上下位,组成、因果、时序),那么就会走向具有三层结构的事件类知识库(抽象事理图谱),这类图谱的特点是只考虑事件名以及事件名个体经过加工、抽象、模式规约后形成的体系关系,而不考虑具体的事件富信息。其中的三层结构,第一层是事件顶层,也可称为事件类型,用最顶层的事件类型名称对下沿事件进行统筹。第二层,是事件抽象模式层,也叫事件类簇代表,统筹基于该事件模式下存在不同表述的事件个体。第三层,是事件事例层,属于具体的事件名称(如巴西发生大火)。
周全的领域事件图谱。与漫步的抽象事理图谱不同,它考虑的更为周全,且体现在领域性上。周全,即在满足事件名的基础上,能够以事件槽的方式挖掘事件的不同侧面信息,例如杀人事件中的时间、被害人、犯罪嫌疑人、地点等。领域性,即该事件领域的刻画,领域的事件具有领域的属性特征,具有领域的槽位侧面,用于描述领域性的事件信息。当然,这种领域性包括通用领域和垂直领域(金融、社会治理等),领域的槽位数量和角度都各不相同。领域事件图谱借助这种信息的复杂性,能够支持更多方位的信息检索、分析和追踪服务。但往往会因为包袱过重,无法大规模施展开来。这种包袱体现在槽位的定义,事件的定义上,通用的槽位数量太少(如SEM设计的事件本体)不足以体现领域特性和功效,领域的槽位(如ACE实在有限,framenet略多实则有限)需要精心设计,不具有扩展性,工程周期长。
漫步与包袱互助,事件快跑。抽象事理图谱甩掉了包袱,在抽象概括性知识上深耕,事件类图谱在实例事件上小步慢行。两者分别从向上和向向下两个角度在做(脑补亚里斯多德与阿基米德的画面)。两者融合是一个大方向(或许早已有之,但没有大规模工程化,技术手段需要深思考)能够树立起整个事件知识基石。抽象事理图谱的技术难点和核心在于“抽象”二字,把握抽象粒度,动态变通事件体系,在此基础上再进行平级逻辑挖掘,终极目标在于抽象能力的自主习得和体系的自我构建、更新与完善。领域事件类图谱核心和难点在于“领域”两个字,自动梳理和划分领域事件类别,自我习得既定类别的具体槽位,突破人工手动,解放业务专家。两类图谱,以事件名或者事件实例作为中间键进行连接。
5,实体性知识图谱与事件类图谱的融合
事件类图谱以事件为核心,事件中包括各类实体,在类型划分上,实体可以是领域性实体,也可以是开放域实体,一般来说,实体类型和实体信息越丰富,事件类图谱与实体类知识图谱的联通度和稠密度就越高。以金融领域来说,可以链接公司、商品、货币、医药、水果、人物、高管等实体,开放域的话,可以通过概念性实体的类型进行识别。识别的过程,包括实体识别和实体链接两个部分(对于具有歧义的实体尤其有必要,在实际操作中根据实际情况进行考虑)。

【再认识】认知智能下需要的实体知识与事件知识相关推荐

  1. 认知智能的突围:NLP、知识图谱是AI下一个“掘金地”?

    作者 | 邵浩,上海瓦歌智能科技有限公司总经理,狗尾草科技人工智能研究院院长 责编 | 许爱艳 出品 | AI科技大本营(ID:rgznai100) 一.引言 最近,很多人邀请我回答下面的这些问题: ...

  2. 透过认知智能剖析商业本质(iPIN CEO杨洋)丨硬创公开课

    透过认知智能剖析商业本质(iPIN CEO杨洋)丨硬创公开课 本文作者:亚峰 2017-06-13 22:29 专题:硬创公开课 导语:雷锋网硬创公开课邀请了iPIN创始人兼CEO杨洋博士,为大家深入 ...

  3. 研讨会 | 知识图谱引领认知智能+

    本文转载自公众号:中国计算机学会. 本论坛将于 CNCC2019 中国计算机大会第一天(10月17日)在苏州金鸡湖国际会议中心 A102 会议室举行,共邀微软.阿里巴巴.华为.小米.浙江大学.苏州大学 ...

  4. 人工智能已经沦为刷榜,刷论文的时代了? 新一代人工智能,认知智能已经来临。道翰天琼。

    人工智能和深度学习技术风靡全球,盲目追风之下我们需要一场深刻的反思,到底什么是人工智能?深度学习能为我们带来什么? AI 领域专家Filip Piekniewski 非常尖锐地指出了当下 AI 发展的 ...

  5. 重磅!道翰天琼解密认知智能核心秘密三大核心技术,机器人大脑API平台。

    认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解.存储.应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口 ...

  6. 重磅!道翰天琼破解认知智能核心秘密三大核心技术,机器人大脑API平台。

    认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解.存储.应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口 ...

  7. 揭秘认知智能,小i机器人的“高级知识分析师”高级在哪里?

    认知智能有一个非常重要的部分,就是知识. 算法是发动机,知识是燃料,机器人的认知能力就是输出的能量. 作为认知智能领头企业,小i机器人拥有专业.庞大的知识分析团队,这个团队是幕后的主干力量.此次,来自 ...

  8. 亿欧 | 认知智能时代,如何发现商业落地的千里马?

    亿欧导读 从感知智能到认知智能,从算法比拼到落地应用,AI行业正在发生改变,寻找新AI时代黑马的标准也在发生变化. 人工智能行业正在悄然发生转变. 在技术上,驱动此轮AI浪潮的深度学习技术已经越来越接 ...

  9. 新基建之人工智能认知智能发展新阶段

    前言 城市新型基础设施建设是城市化发展的载体,也是城市化发展的需求.当前我国城 镇化进程的发展规模和速度令人瞩目,2019 年我国城镇化率达到 60.6%.然而,与美.日等 发达经济体 82%到 91 ...

最新文章

  1. 高效模式编写者的7个习惯
  2. 对互联网用户分类的思考
  3. android控件---自定义带文本的ImageButton
  4. Ubuntu/linux 系统彻底杀死一个进程的方法
  5. 一文详解深度学习在命名实体识别(NER)中的应用
  6. linux代理过载命令_我们基于Linux的机器人的未来,数据过载和管理以及更多新闻
  7. PyCharm将制表符转换为空格并显示的配置方法
  8. 戴明理论、朱兰理论、克鲁斯比理论和田口玄一理论
  9. Protel 99 SE 应用技术问答
  10. 灵越7590BIOS升级到1.6版本无法回退
  11. 主成分分析和因子分析的理论与速成应用丨R语言和SPSS比较案例
  12. 【解锁】Pandoc——Pandoc安装、使用、快速上手
  13. line 1: syntax error: unexpected (
  14. Prometheus技术系列文章——prometheus调研总结
  15. 《Unity游戏优化》笔记(4)[21/02/05_周五][P29_46]
  16. 《如何获得真正的财富》精髓:选择比努力更重要,对于个人来说,选择了对的城市和对的行业,人生就成功了大半,对于企业来说,用最少的广告投入获得品牌知名度是获得财富的关键。
  17. 业务运营指标体系(转载)
  18. 【MATLAB】matlab中clc,close,close all,clear,clear all作用区别
  19. sping boot 笔记 哎呦不错哦
  20. 国密SM2的证书制作及验证

热门文章

  1. c/c++整理--c++面向对象(4)
  2. 学习vim的正确姿势!
  3. 震惊,用了这么多年的 CPU 利用率,其实是错的
  4. 中ridge_10种线性代数在数据科学中的强大应用(内附多种资源)
  5. Chapter7-10_Deep Learning for Question Answering (1/2)
  6. LeetCode 2151. 基于陈述统计最多好人数(状态压缩)
  7. LeetCode 773. 滑动谜题(BFS 地图状态转换的最短距离)
  8. python画饼图_百度飞桨PaddlePaddle之[Python小白逆袭大神]7天训练营
  9. 映射表map(平衡二叉树实现)_手动实现Java集合容器之TreeMap(上)
  10. postek二次开发_20190626_二次开发BarTender打印机_C#代码_一边读取TID_一边打印_打印机POSTEK...