1.引言

在前一篇博文《Neo4j构建目标知识图谱》中提到知识图谱的构建中实体及关系的定义是个难点,在本篇中试图总结经验。

2.知识图谱是什么

知识图谱本质上是一种语义网络,用图的形式描述客观事物,这里的图指的是数据结构中的图,也就是由节点和边组成的,这也是知识图谱(Knowledge Graph)的真实含义。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。很多时候,人们简化了对知识图谱的描述,将实体和概念统称为实体,将关系和属性统称为关系,这样就可以说知识图谱就是描述实体以及实体之间的关系。实体可以是人,地方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关系,人与组织之间的关系,概念与某个物体之间的关系等等,以下是一个例子。

例如上图展示的是毛选中的基本信息知识图谱,节点的信息分别为:作者、书名、主要问题(三大问题)、每本书中的主要内容观点抽象化。边的信息主要为:依据、属性特点等。

3.知识图谱是怎么组织数据的

知识图谱是由实体和实体的关系组成,通过图的形式表现出来,那么实体和实体关系的这些数据在知识图谱中怎么组织呢,这就涉及到三元组的概念,在知识图谱中,节点-边-节点可以看作一条记录,第一个节点看作主语,边看作谓语,第二个节点看作宾语,主谓宾构成一条记录。比如曹操的儿子是曹丕,曹操是主语,儿子是谓语,曹丕是宾语。再比如,曹操的小名是阿瞒,主语是曹操,谓语是小名,宾语是阿瞒。知识图谱就是由这样的一条条三元组构成,围绕着一个主语,可以有很多的关系呈现,随着知识的不断积累,最终会形成一个庞大的知识图谱,知识图谱建设完成后,会包含海量的数据,内涵丰富的知识。以上基础知识来源于[知识图谱基础知识之一——人人都能理解的知识图谱]。

4.知识图谱构建的基本模式

知识图谱中实体和关系的定义通常是基于需求导向的,例如,我们想构建一个体现导师、学生人物关系的知识图谱时,那么我们可以定义(导师->指导->学生)这样的三元组;再者,当我们想构建体现学校、导师、学生关系时,我们可以定义为(导师->属于->学校;导师->指导->学生)。

在学术上,知识图谱模式层的定义往往需要领域专家的参与,而且模式层实体和关系的定义是需要迭代进行的。例如,当我们想构建一个生物医疗知识图谱时往往很难,因为这里涉及大量的医学名词,非医学专业的对这些名词的理解很困难,更别谈充分理解融会贯通后定义了。但是领域知识图谱的定义往往更加重要,也是科研中的主要研究方向。

通常,知识图谱的构建分为两个关键步骤:1、模式层定义:实体定义、实体关系定义;2、实体及关系抽取。

而模式层定义中的两步:实体定义、实体关系定义也有一些基本的思路。

实体定义:
实体定义中有两种思路,一种是自顶向下,一种是自底向上。所谓的自顶向下即先确定目标需求,再制定实体的关键概念。例如,我们想探索一下基因和蛋白质的关系,那么我们就制定实体基因和蛋白质,并且可以制定关系"促进"、“抑制”;再如想了解基因和疾病的关系,那么我们指定实体为"基因"、“疾病”,关系为"正向作用"、“负向作用”。总归而言,在这个模式中我们是有目标导向的,我们根据目标需求来制定相应的实体关系。例如我们想了解公司股票、人物的结构关系,那么我们可以制定如下的模式层:

在自顶向下的模式中通常基于领域专家的判断,制定较为专业的模式。

另一种模式是自底向上,这个策略是一种无奈之举,毕竟自顶向下往往借助领域专家的经验,这个过程限制条件太多,模式的定义周期太长很耗时间。那么这个时候就得从底层,也就是数据层找思路,我们的可用数据是什么。例如当我们想制定一个金融知识图谱时,我们能拿到的公开数据是新闻媒体财经频道的文本,这时候我们对文本的数据进行总结,发现有些词汇还是比较集中的,例如公司、股票、指数、基金。关系有:上涨、下跌、跌停等。又如我们只有军事报道文本时,我们可以发现这类文本中的核心词汇为:中国、美国等国别地区;武器装备(又可分海陆空三军装备);军事头衔等。

这个模式也是一种迭代的过程,在实践中需要不断地调整,通常的做法是先抽样一批数据来标注,然后调整模式定义,之后再确定一个较为合理的模式进行后续图谱构建。

整体而言,不管是自顶向下还是自底向下,我们都很难一次做到很完美,比较好的思路是上述抽样定义再修改的过程。如果能有现成的或者目标明确的定义那就最好,如果没有的话可以先定义简单的实体关系,然后一步一步扩展实体并修改,反复几次之后就能制定一个较为合理的模式。

知识图谱中的实体定义相关推荐

  1. 实体对齐 算法_知识图谱中的实体对齐方法及装置与流程

    本发明涉及计算机领域,具体而言,涉及一种知识图谱中的实体对齐方法及装置. 背景技术: 在构建大规模知识库的任务中,需要处理大量来自多源知识库的实体数据.在构建知识库之初,首先需建立一个知识描述体系,然 ...

  2. 论文浅尝 | WWW2020 - 知识图谱中的实体摘要:算法、评价和应用 (PPT)

    本文转载自公众号:专知. 知识图谱封装了实体和关系.知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能.然而,在一个知识图谱中,描述一个实体的几十个或几百个事实 ...

  3. 论文小综 | 知识图谱中的复杂查询问答

    作者 | 张文,浙江大学博士,研究兴趣为知识图谱表示与推理 陈名杨,浙江大学在读博士生,研究兴趣为知识图谱表示与推理 本文将介绍近两年4篇关于知识图谱中的复杂查询问答(Complex Query An ...

  4. 论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

    论文笔记整理:张良,东南大学博士生,研究方向为知识图谱,自然语言处理. 链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber= ...

  5. 知识图谱中的关系方向与强度研究

    知识图谱中的关系方向与强度研究 臧根林1,2, 王亚强1,2, 吴庆蓉1,2, 占春丽1,2, 谢新扬1,2 1 拓尔思知识图谱研究院,广东 广州 510665 2 广州拓尔思大数据有限公司,广东 广 ...

  6. 知识图谱学习笔记之知识图谱中的知识分类

    知识图谱中的知识分类 事实知识 事实知识是关于某个特定实体的基本事实,如(山东富士苹果,产地,山东).事实知识是知识图谱中非常常见的知识类型.大部分的事实知识都是在描述实体的特定属性或关系,如&quo ...

  7. 知识图谱中的关系推理,究竟是个什么玩意儿?

    关系推理是我全新接触的东西,虽然大一暑假的时候,留校做比赛有了解过神经网络的相关算法, 看过十多篇国内的论文,但这一次跟着刘老师的团队进行的这份工作,才让我真正的感受到了科研的魅力. 说起来,机器学习 ...

  8. bgb邻居关系建立模型_学习开发知识图谱中的长期关系依赖

    知识图谱结构化地存储着大量现实世界中的事实.其中,每个事实都以三元组 (s, r, o) 的方式进行描述,其中 s, o 分别表示头实体和尾实体,r 表示它们之间的关系.例如,三元组 (Tim Ber ...

  9. 论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

    本文转载自公众号:南大Websoft. 论文:https://arxiv.org/abs/1905.04914 代码:https://github.com/nju-websoft/RSN 背景 知识图 ...

最新文章

  1. 7分钟了解科大讯飞开发者节:AI红利期来临,全新1024计划发布(未完待续)
  2. ROM微型计算机是什么,在微型计算机中,ROM是().
  3. 牛客-仓鼠的石子游戏【博弈论】
  4. HDU 2841 Visible Trees(容斥)题解
  5. 阿里云李克:边缘云技术发展与实践
  6. (三)、dubbo环境的搭建
  7. [delphi]极域学生端解除键盘鼠标锁定退出全屏广播-强制窗口化-源代码
  8. ANDROID STUDIO系列教程二--基本设置与运行
  9. Unicode 和 UTF-8 之间的关系
  10. 2021 年百度之星·程序设计大赛 - 初赛二
  11. 乐优商城(04)--商品规格
  12. i510300h和i78750h参数对比哪个好
  13. Intelligent reflecting surface (IRS) aided ISAC
  14. 为什么说12306比淘宝双十一的技术挑战更大?
  15. 上海2016年房价己见
  16. SX1308电压调节,踩坑
  17. 学习笔记:云计算第二天
  18. ISP许可证办理攻略全了解
  19. 中职 网络搭建与应用 DCN无线常用配置
  20. FutureTask

热门文章

  1. 可视化开发平台的内容介绍
  2. 刘彬20000词汇03
  3. 刘彬20000词汇06
  4. 交友结婚的原则[转贴]
  5. python游戏背景音乐循环播放_9.2 播放背景音乐_师傅带徒弟学:Python视频课程之游戏开发引擎Cocos2d-Python_Python视频-51CTO学院...
  6. Git使用简介一(入门级)
  7. SpaceShooter打飞机教程笔记(二)
  8. Linux下 QT中 log4cplus 最基本配置及使用
  9. 由浅入深玩转华为WLAN—25 高可用性系列(1)双击热备概述
  10. 如何改编一首吉他曲的和弦?