链接:https://arxiv.org/pdf/1811.04588.pdf

知识图谱的表示学习最近几年被广泛研究,表示学习的结果对知识图谱补全和信息抽取都有很大帮助。本文提出了一种新的区分概念和实例的知识图谱表示学习方法,将上下位关系与普通的关系做了区分,可以很好的解决上下位关系的传递性问题,并且能够表示概念在空间中的层次与包含关系。本文的主要贡献有三点:(1)第一次提出并形式化了知识图谱嵌入过程中概念与实例区分的问题。(2)提出了一个新的嵌入模型TransC模型,该模型区分了概念与实例,并能处理isA关系的传递性。(3)基于YAGO新建了一个用于评估的数据集。

Background

传统的表示学习方法没能区分概念(concept)和实例(instance)之间的区别,而是多数统一看作实体(entity),而概念显然和实例不是同一个层次的,统一的表示是有欠缺的。更重要的是,之前的方法多数无法解决上下位关系传递性的问题,这是不区分概念和实例表示的弊端。本文创造性的将概念表示为空间中的一个球体,实例为空间中的点,通过点和球体的空间包含关系和球体间的包含关系来表示上下位关系,这种表示可以很自然地解决上下位关系传递性的问题。下图是一个区分了概念,实例的层次关系图。

Model

通常在人们的脑海里,概念都是通过层级的方式组织起来的,而实例也应归属于与它们各自对应的概念,受此启发,本文提出了 TransC 模型来处理概念和实例区分的问题。在 TransC 模型里,每一个概念都被表示成一个球体,而每一个实例都被表示到与对应概念相同的语义空间中。概念与实例以及概念与概念之间的相对位置分别通过 instanceOf 关系与 subClassOf 关系来刻画。InstanceOf 关系用来表示某个实例是否在概念所表示的球体中,subClassOf 关系用来表示两个概念之间的相对位置,文中提出了四种可能的相对位置:

1

如图1所示,(a)、(b)、(c)、(d)分别表示两个概念所表示球体的相对位置,其中m为球体半径,d 为两个球体中心的距离,Si Sj 分别表示概念i与概念j所表示成的球体。对于 instanceOf 关系与 subClassOf 关系,文中有比较巧妙的设计以便保留 isA 关系的传递性,即 instanceOf-subClassOf 的传递性通过来体现,而 subClassOf-subClassOf 的传递性通过来体现,其中 (i, r_e, c) 表示InstanceOf三元组,(c_i, r_c, c_j) 表示SubClassOf三元组。

文中设计了不同的损失函数去度量embedding空间中的相对位置,然后用基于翻译的模型将概念,实例以及关系联合起来进行学习。在文中主要有三类triple,所以分别定义了不同的损失函数。

InstanceOf Triple表示:对于一个给定的 instanceOf triple,如果它是正确的,那么i就应该被包含在概念c所表示的球体s里。而实际上,除了被包含以外,很显然还有一种相对位置就是实例i在球体sP,m)之外,损失函数设计为:

SubClassOf Triple表示:对于一个给定的 subClassOf triple (c_i, r_c, c_j) ,首先定义两个球中心之间的距离:按照图1所示的四种关系,还有另外三种损失函数需要定义。(1)按照图1中(b)表示的相对位置,两个球是分开的,损失函数表示为:2)两个球相交,如图1中(c)所示,损失函数表示为,与(1)类似。(3)完全包含关系,如图1中(d)所示,损失函数表示为:(减小mj,增大mi

Relational Triple 表示:对于一个relational triple (h, r, t)TransC利用TransE模型的训练方式来得到实体和关系的向量,所以损失函数定义为:

对于模型的训练,分别用来表示正确和错误的三元组,根据以上几类损失函数,可以对应得到以下几类损失:

对于instanceOf triples,损失表示为,对于subClassOf triples,损失表示为,对于 relational triples,损失表示为,最后,模型的最终损失函数为以上几类损失的线性组合,即

Experiment

以往的大多数模型都用FB15KWN18来作为评估的数据集,但这两个数据集并不很适合文中的模型,而YAGO数据集不仅含了许多概念而且还有不少实例,所以作者构建了一个YAGO数据集的子集YAGO39K来用作试验评估。

实验分别在链接预测,三元组分类以及instanceOfsubClassOf关系的三元组分类这几项任务上进行,实验结果如下:

链接预测与三元组分类结果:

instanceOf triple分类结果:

subClassOf triple分类结果:

实验结果表明,TransC模型在相关任务上与其它模型相比有较为显著的提升。

Conclusion

本文从Ontology层面对知识表示学习进行了较为深入的研究,提出了新的知识图谱嵌入模型TransC模型,该模型将实例、概念以及关系嵌入到同一个空间中以便用来处理isA关系的传递性。在实验部分,作者还创建了一个用来评估模型的新数据集YAGO39K。实验结果表明TransC模型在大多数任务上要优于传统的翻译模型。对于文中将概念表示成球体的想法似乎还可以继续探讨,作者将会继续寻找适合表示概念的方式。另外,每个概念在不同的三元组里可能会有不同的表示,如何进一步地将概念的多意性表达出来也是一个值得探究的方向。在传统的知识工程领域,知识是通过schema组织起来的,有较强的逻辑性,但在语义计算层面相比向量来说没有优势,最近有不少将二者相结合的工作(给语义的向量计算披上逻辑的外衣)值得关注一下。

论文笔记整理:张良,东南大学博士,研究方向为知识图谱,自然语言处理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 区分概念和实例的知识图谱嵌入方法相关推荐

  1. 论文浅尝 | 基于超平面的时间感知知识图谱嵌入

    链接:http://talukdar.net/papers/emnlp2018_HyTE.pdf 本文主要关注 KG embedding 中三元组成立的时间有效性问题,比如三元组(Cristiano ...

  2. 论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

    本文转载自公众号:DI数据智能.   知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务.Data Intelligence执行主编.东南大学计算机科学 ...

  3. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  4. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  5. 论文浅尝 | 可建模语义分层的知识图谱补全方法

    本文转载自公众号:PaperWeekly. 论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了 ...

  6. 论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架

    笔记整理:李爽,天津大学 链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401174 动机 交互式推荐系统(IRS)以其灵活的推荐策略和考虑最佳的长期用 ...

  7. 论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

    笔记整理 | 崔凌云,天津大学硕士 链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8362657 动机 基于知识图的广泛应用和在教育领 ...

  8. 论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

    笔记整理 | 谭亦鸣,东南大学博士 来源:  ACL 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf 资源:http ...

  9. 论文浅尝 - CIKM2020 | 用于推荐系统的多模态知识图谱

    论文笔记整理:王琰,东南大学硕士. 来源:CIKM 2020 链接:https://doi.org/10.1145/3340531.3411947 研究背景与任务描述 为了解决推荐系统中的数据稀疏和冷 ...

最新文章

  1. 快速理解 session/token/cookie 认证方式
  2. 1.什么是数据化运营——《数据挖掘与数据化运营实战》
  3. linux文件系统挂载不上,nfs文件系统在linux下挂载不上的解决办法
  4. C# LINQ to XML
  5. 7-19 树种统计 (10 分)
  6. 可以学习的国外课件链接地址(自己收集)
  7. TensorFlow tf.keras.losses.SparseCategoricalCrossentropy
  8. 线程通信:生产者消费者问题
  9. Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
  10. chrome浏览器版本简单介绍
  11. 使用Python写一个定时锁屏软件
  12. win10计算器_好用的Win10系统计算器,终于可以在移动端设备上面来用了
  13. js 实现浏览器下载视频
  14. snapchat中国使用_如何在不共享位置的情况下使用Snapchat
  15. 猜字游戏计算机,《C猜字游戏.doc
  16. 多端异构数据集成方案
  17. 天天预约|新功能工具「美团优惠券」上线啦!
  18. 《Activiti/Flowable 深入BPM工作流》-如何分配任务负责人?
  19. Perl 旁站查询(站长工具提取)
  20. OpenGL坐标系转换

热门文章

  1. PHP输出Excel实例代码
  2. stdout字符串过滤输出
  3. 华为不做黑寡妇,开源编译器,与友商共建安卓性能
  4. Android init.rc 服务启动不成功
  5. 智慧交通day03-车道线检测实现05:透视变换+代码实现
  6. 二进制包如何知道go 版本_gops 是怎么和 Go 的运行时进行交互的?
  7. skywalking 安装_SkyWalking全链路追踪利器
  8. 数据解析学习笔记(正则解析、bs4解析、xpath解析)
  9. LeetCode 923. 三数之和的多种可能(双指针)
  10. LeetCode 1247. 交换字符使得字符串相同