知识图谱表示学习 TransE: Translating Embeddings for Modeling Multi-relational Data

表示学习是深度学习的基础,将数据用更有效的方式表达出来,才能让深度学习发挥出更强大的作用。表示学习避免了手动提取数据特征的繁琐,允许计算机学习特征的同时,也学习如何提取特征。尽管举例基于翻译(translation)的知识图谱表示学习已经过去了五六年的时间,但是仍不可忽略其重要意义。本文聚焦于TransE模型。

1. 引言

多元关系数据(Multi-relational data)对应一个有向图,常用(head,label,tail)(head, label, tail)(head,label,tail)的三元组来表示,有时也记作(head,relation,tail)(head, relation, tail)(head,relation,tail)。head表示头结点,tail表示尾结点,在图中对应一个实体,故也称作头实体和尾实体。本文的工作集中于对知识图谱中的多元关系数据进行建模,在不引入额外知识的情况下,可以高效自动获取新的知识。

多元关系数据建模:通常来讲,建模的过程最终落于提取实体之间局部或者全局的连接模式,通过这些连接模式来预测一个特定实体和其他实体之间的关系。难点在于关系数据中包含的实体或者关系可能属于不同的类型,所以对多元关系数据进行建模需要选择合适的方法考虑到不同关系的异质性。

关系作为嵌入空间的转换关系:本文中,我们提出TransE,其中关系作为向量空间转变的桥梁。若存在(h,l,t)(h, l ,t)(h,l,t)的三元组,则实体ttt的嵌入表示应该等于头实体hhh的向量+关系向量lll

2. 相关工作

(1) 结构化嵌入表示 Structured Embeddings(SE):将实体嵌入进RKR^KRK,将关系嵌入进两个变换矩阵L1∈RK×K,L2∈RK×KL_1 \in R^{K \times K}, L_2 \in R^{K \times K}L1RK×KL2RK×K, 使得d(L1h,L2t)d(L_1h, L_2t)d(L1h,L2t)对于一些不存在的关系,距离更大。目标函数为mind(L1h,L2t)min \ d(L_1h, L_2t)mind(L1h,L2t)

(2) 神经张量网络 Neural Tensor Model(NTM):此处使用的是NTM的特殊形式,对于一个三元组(h,l,t)(h, l, t)(h,l,t),得分为
s(h,l,t)=hTLt+l1Th+l2Tts(h,l,t)=h^TLt+l_1^Th+l_2^Tt s(h,l,t)=hTLt+l1Th+l2Tt
其中,L∈Rk×kL\in R^{k \times k}LRk×kL1∈RkL_1 \in R^kL1Rk, L2∈RkL^2 \in R^kL2Rk。与原文略有出入。

3. 基于翻译的模型 TransE

TransE将实体和关系嵌入进kkk维的空间向量中,kkk为超参数。对于一个知识图谱中的三元组(h,l,t)(h, l, t)(h,l,t),其应该满足向量加法,即h+l=th+l=th+l=t,所以设定能量函数d(h+l,t)d(h+l, t)d(h+l,t),对于所有知识图谱中的三元组,最小化ddd,具体而言,损失函数LLL为:
L=∑(h,l,t)∈S∑(h′,l,t′)∈S′[γ+d(h+l,t)−d(h′+l,t′)]+L = \sum_{(h,l,t)\in S}\sum_{(h',l,t')\in S'} [\gamma + d(h+l, t) - d(h' + l, t')]_{+} L=(h,l,t)S(h,l,t)S[γ+d(h+l,t)d(h+l,t)]+
注意到,训练的损失分为正样本和负样本(负采样)两个部分,通过最小化正样本的损失,最大化负样本的距离,达到优化嵌入表示的目的。负样本S′S'S通过选取一个三元组(h,l,t)(h, l, t)(h,l,t),替换其的一个头实体为其他的头实体h′h'h,替换其的一个尾实体为其他的尾实体t′t't,最终得到(h′,l,t)(h', l, t)(h,l,t)(h,l,t′)(h, l, t')(h,l,t)来构造负样本。文中同时强调,要约束实体嵌入表示的L2范数为1,防止模型仅增大实体嵌入表示的模长来优化损失函数。

4. 实验

(1) 实验数据:选取Wordnet和Freebase,具体数据如图

(2) 评价任务和评价指标:使用链接预测(Link prediction)作为评价任务。对于测试集中的每一个三元组(h,l,t)(h,l,t)(h,l,t),使用h,lh,lh,l计算出h+lh+lh+l,并计算和其他所有实体的距离d(h+l,t)d(h+l, t)d(h+l,t),按照距离升序排序。使用meanrankmean \ rankmeanrankhit@10hit@10hit@10作为评价指标。其中meanrankmean \ rankmeanrank指的是,对于所有待预测实体ttt,计算排序位置的均值;而hit@10hit@10hit@10指的是排序出现在前十的实体数目占总测试集实体数目的百分比。

在测试中,可能会出现某些实体排序比测试集实体(gtround truth)靠前的情况,但是这些实体又是真实出现在训练集或者验证集中的(因为知识图谱的链接数量巨大)。为了避免这种情况的出现对评价指标带来的影响,将把去除掉训练集、验证集和测试集中造成影响的三元组得到的结果记为filteredfilteredfiltered,没有去除过的称为rawrawraw

(3) 实验结果

此外,文章还针对一对一、多对一、一对多、多对多的关系单独进行了测试并给出结果。

最后,文章给出了再少样本情况下,随着样本数目的增多,各个模型在两个评价指标上的表现。

5. 结论

相较于先前其他模型,TransE模型可以使用最小的参数量得到知识图谱的实体和关系向量表示。尽管无法确定是否所有类型的关系均使用这种方法进行建模,但通过对不同关系类型的进行评估(一对一、一对多等),可以看出和其他模型相比,表现也较为不错。

知识图谱表示学习 TransE: Translating Embeddings for Modeling Multi-relational Data相关推荐

  1. 知识图谱表示学习Transe TransD TransR等的评价指标 hit@10、mean rank的理解

    最近学习了知识图谱数值表示方式的学习算法,包括TransE.TransD.TransR等,看到提到的评价指标有hit@10.mean rank等,一开始对于这些指标并不清楚.在看了一篇Transe的实 ...

  2. 论文翻译解读:Translating Embeddings for Modeling Multi-relational Data【TransE】

    文章目录 为建模多关系数据转换嵌入 简要信息 重要内容概括 摘要 1 介绍 2 基于翻译的模型 3 相关工作 4 实验 4.1 数据集 4.2 实验设置 4.3 链接预测 4.4 学会用很少的例子来预 ...

  3. Translating Embeddings for Modeling Multi-relational Data 笔记(基于Translation提出了TransE)

    更多图神经网络和深度学习内容请移步: 论文:Translating Embeddings for Modeling Multi-relational Data 论文链接:https://proceed ...

  4. 如何将知识图谱特征学习应用到推荐系统?

    来源 | 微软研究院AI头条 将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年有很多研究人员在做相关的工作.目前,将知识图谱特征学习应用到推荐系统中主要 ...

  5. 领域应用 | 如何将知识图谱特征学习应用到推荐系统?

    本文转载自公众号:微软研究院AI头条. 编者按:在上周发表的"推荐算法不够精准?让知识图谱来解决"一文中,我们为大家介绍了日常生活中几乎每天都会用到的推荐系统,以及用来提高推荐系统 ...

  6. TransE全文中文翻译(Translating Embeddings for Modeling Multi-relational Data)

    最近接触自然语言处理,英文论文看不懂,不才结合google translate将其翻译了一遍,还是看不懂-- 欢迎路过的网友指出翻译中的错误~ Translating Embeddings for M ...

  7. 【自然语言处理】【知识图谱】知识图谱表示学习(三):SE、SME、LFM、RESCAL、HOLE

    知识图谱表示学习(三) SE.SME.LFM.RESCAL.HOLE [自然语言处理][知识图谱]知识图谱表示学习(一):TransE.TransH.TransR.CTransR.TransD [自然 ...

  8. 直播 | CIKM 2021论文解读:基于广群的知识图谱表示学习统一模型框架

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  9. AAAI 2018论文解读 | 基于置信度的知识图谱表示学习框架

    作者丨谢若冰 单位丨腾讯微信搜索应用部 研究方向丨知识表示学习 知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, tra ...

最新文章

  1. 一个类可以实现多个接口但是只能实现一个类
  2. 谈谈JQuery的Deferred对象
  3. 《书都不会读,你还想成功》
  4. 一个网友问的该不该加入公司Share Matching Plan
  5. 前端学习(3191):react中案例
  6. 6.0动态加载权限用PermissionGen
  7. Tensor的填充与复制
  8. Laravel Event模块分析
  9. mysql 执行顺序_MySQL 基础知识掌握
  10. java与数据库连接odbc_详解java数据库连接之JDBC-ODBC桥连方式
  11. pantum打印机驱动安装m6506_奔图PantumM6506驱动程序官方版
  12. Visual Studio 2022 启用CodeLens - 程序抬头显示(查看字段、方法、类的引用)
  13. mysql中single是什么意思_single是什么意思
  14. R 回归 虚拟变量na_R语言实战之R语言基础语法精讲(三)
  15. nios自学笔记四:将sof和elf合并为JIC文件
  16. [2023年的每一天]1. 15 看了一天的 B站
  17. 【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks
  18. 2021年【大学生Python学习】社区小博主【孤寒者】的年度总结
  19. container_of 和 offsetof 解析
  20. 师生使用计算机不得,师生文明上网行为规范

热门文章

  1. 第13章 管理身份和身份验证
  2. MAC 编译提示autom4te: need GNU m4 1.4 or later: /usr/bin/m4
  3. NEXTCLOUD+onlyoffice的搭建和使用
  4. linux 强制卸载nfs,linux nfs 卸载
  5. 笔记本电脑(laptop)通常具备使用USB设备的功能.实现接口回调(使用面向对象思想编程:接口,多态等).
  6. java 判断两个单链表是否相交
  7. 房贷办不下来首付能退回吗?
  8. 【信息技术】【2005】基于互信息的数字化重建射线照片与电子束图像配准
  9. 安卓机顶盒也能玩树莓派linux,附fastboot常用命令
  10. Nerdctl 原生支持 Nydus 加速镜像