论文笔记整理:朱珈徵,天津大学硕士

链接:https://www.ijcai.org/proceedings/2021/0395.pdf

动机

从遗传数据到社会网络,在越来越多的场景下与知识图谱边缘相关的数值已经被用来表示不确定性、边的重要性,甚至是带外知识。然而,传统的知识图嵌入模型并没有设计来捕获这些信息,这损害了预测能力。在这项工作中,作者们的任务是预测缺失环节的概率估计与数字增强三元知识图。作者提出了FocusE,一个知识图嵌入的附加层,以增强边相关数字文字的链接预测,它将数字边缘属性注入传统知识图嵌入体系的评分层。对公开可用的丰富数字的知识图的实验表明,作者的方法优于传统的数字不可知的基线以及最近的UKGE模型。

亮点

FocusE的亮点主要包括:

1.FocusE适用于采用标准负样本生成协议的任何现有KGE模型,并使用边数值字面值来调节真三元组的分数与其相应的负损坏之间的差值;2.通过修改损失函数,以更稀疏的困难示例为目标,利用数值文字将传统KGE模型聚焦于具有更高数值的三元组,实验表明,使用FocusE训练的模型优于数字不可知 的基线,特别是在区分具有高数值属性的三元组和与低值相关的三元组时;

概念及模型

基于FocusE增强的知识图嵌入模型体系结构。附加组件充当传统计分层和损失之间的中间层。知识图嵌入模型(KGE)是用于预测实体之间缺失链接的神经结构;知识图的嵌入是通过在训练知识图上训练神经结构来学习的:输入层将训练三元组提供给检索实体和关系的嵌入查找层。在本文中,作者预测了看不见的数值增强三元组t = (s, p, o, w)的概率估计。该任务被形式化为传统链路预测的相同的学习排序问题。

基于FocusE增强的知识图嵌入模型体系结构如下:

•FocusE

FocusE是一个知识图嵌入架构的附加层,旨在用数字丰富的三元组进行链路预测。FocusE会考虑与每个链接相关联的数字文字。不管它们的语义如何,作者都是在数值强化或减弱链接存在的可能性的假设下操作的。例如,给定数值w在[0 - 1]范围内,作者假设高值识别出具有更高概率为真的三元组,低值挑选出弱或不太可能的关系,而w = 0三元组被认为是负样本。

FocusE包含一个插件层,该插件层位于传统KGE方法的计分层和损失层之间,设计用于训练期间,如上图。与传统体系结构不同,在将评分层提供给损失函数之前,作者根据与三元组相关的数值调整其输出,以获得重点评分。作者利用与三元组相关联的数值,以便在训练期间,模型将重点放在具有更高数值的三元组上。模型从训练具有高数值的三元组中学习,同时使用边缘数值来最大化分配给真实三元组的分数和分配给其损坏的分数之间的差值。这会增加模型的损失,并帮助它关注具有更高值的三元组。

设t = (s, p, o)是正的三元组。作者定义t的变体为 t_{-}=(s,p,o')或t^{-}=(s',p,o)。其中, s', o' 分别是主体或客体的变体。

设f(t)为KGE模型的打分函数:

作者使用软加非线性σ来确保f(t)返回的分数大于或等于零,而不引入过多的失真:

为了考虑与三元组相关的数值的影响,作者定义了一个调制因子是α∈R,它负责在图形结构的影响和与每个三元组相关的数值的影响之间取得平衡:

在β∈[0,1]是结构性的影响,一个调制图拓扑影响的超参数,并且w∈R是与正三元组t相关联的数值。β用于重新衡量三元组价值w。如果β= 0使用原始数值w。当β = 1时,忽略数值w,模型等效于传统KGE结构。注意,正三元组和负三元组被分配了不同的α方程。这样做是为了在三元组数值较高时降低三元组值与它们各自的错误值之间的差值。

最后,FocusE层h(t)定义为:

把上述所有这些放在一起,FocusE层h(t)然后在损失函数L中使用。这是一个修改过的,更稳定的数字版本的负对数似然标准化softmax分数:

理论分析

实验

作者评估了FocusE在链接预测任务中的预测能力。实验表明,FocusE在区分低值三元组和高值三元组方面优于传统的KGE模型及其最接近的直接竞争对手UKGE。作者采用了3个公开数据集进行实验,分别是:CN15K、NL27K、PPI5K。

作者预测每个三元组t = (s, p,o) ∈T是否是一个正的事实,其中t是一个不相交的保留测试集,只包括正的三元组。作者把这个问题看作是一个学习排序的任务:对于每一个t = (s, p,o) ∈T,作者通过一次破坏其中一方(即主体或客体)来生成合成的负t。作者预测每一个t和它的所有负t的得分。然后作者将唯一的正t与所有负N进行排序。作者报告了通过从生成的变体列表中过滤掉虚假的基本事实正数来学习排名度量,如平均秩(MR)、平均倒数秩(MRR)和n(其中n = 1,10)的命中率。

结果表明,FocusE带来了更好或非常相似的MRR,相较于传统的数字不可知的基线:FocusE增加了所有模型的MRR,它比最好的基线高出14个基点。实验表明,FocusE在CN15K上的MRR比UKGE高15个基点,在NL27K上的MRR比UKGE高19个基点,在PPI15K上的MRR比UKGE高30个基点。FocusE实现了更好的预测能力,而不需要额外的带外规则

下图显示了如果λ增加,性能就会提高。在大多数情况下,当λ > 400 epoch时,模型性能达到饱和

总结

作者证明,通过插入一个额外的层,可以使传统的KGE体系结构意识到与三元组相关的数值。这将导致模型更好地区分高值和低值三元组,而不考虑数字属性的语义,而且不需要额外的带外规则(与UKGE不同)。未来的工作将研究预测与看不见的三元组相关的数值的能力。作者还将扩展他们的方法,以支持与同一个三元组关联的多个数字属性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入相关推荐

  1. 论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

    论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练. 来源:EMNLP 2020 现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出 ...

  2. 论文浅尝 | ICLR 2020 - 一文全览知识图谱研究

    本文转载自公众号: AI科技评论 作者 | Michael Galkin 编译 | 贾伟 ICLR 2020 正在进行,但总结笔记却相继出炉.我们曾对 ICLR 2020 上的趋势进行介绍,本文考虑的 ...

  3. 论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入

    本文转载自公众号:PaperWeekly. 作者:舒意恒,南京大学硕士,研究方向:知识图谱. 当前大量的知识图谱都是通过文本直接构建的.由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系 ...

  4. 论文浅尝 | TuckER:基于张量分解的知识图谱补全

    笔记整理:孙泽群,南京大学计算机科学与技术系,博士研究生. 论文链接:https://arxiv.org/abs/1901.09590   背景 知识图谱是图结构的数据库,以三元组(es, r, eo ...

  5. 论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

    来源: IJCAI2018 链接: https://www.ijcai.org/proceedings/2018/0556.pdf 动机 近年来,随着多语言知识图谱嵌入(Multilingual KG ...

  6. 论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:NAACL 2018 链接:https://www.aclweb.org/anthology/N18-1020 问题背景与动 ...

  7. 论文浅尝 | 一种基于递归超图的知识图谱问答方法

    笔记整理 | 谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://www.aclweb.org/anthology/2021.eacl-main.35.pdf 概述与动机 本文提出了一 ...

  8. 论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

    笔记整理: 谭亦鸣,东南大学博士生 来源:NAACL'21 链接:https://aclanthology.org/2021.naacl-main.153.pdf 论文提出了一种新的知识图谱问答数据集 ...

  9. 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

    笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...

最新文章

  1. IOS初级:NSKeyedArchiver
  2. 【Linux入门到精通系列讲解】Nginx详细介绍和安装使用(这一篇就够了)
  3. Linux rpm 包安装不了,解决方法
  4. yunyang1994 tensorflow_yolov3训练报错:IndexError: index 68 is out of bounds for axis 1 with size 68 数据清洗
  5. Python错误:TypeError: 'list' object is not callable
  6. 福州大学软件1715|W班-助教卞倩虹个人简介
  7. IDEA 底部工具栏没有 Version Control 解决办法
  8. java 浏览器 安全_安全策略-IE浏览器防黑十大秘籍
  9. Gitee同步GitHub仓库如何操作
  10. 无人机在高楼区做倾斜摄影的地籍建模的项目报告
  11. JAVA-初步认识-常用对象API(String类-常见功能-比较)
  12. MVC 《web考勤管理系统》 项目研发文献
  13. IEEE会议论文模板下载
  14. Excel批量根据银行卡号查询银行卡的详细信息
  15. AutoJs学习-获取QQ群消息
  16. mysql经典问题之group by和max函数
  17. 杰里之AD140录音编码接口【篇】
  18. 点计算机图标就自动关机了,为什么点计算机的关机图标不能自动关机
  19. Apsara Stack 技术百科 | 数字化业务系统安全工程
  20. 试玩接入unity技巧

热门文章

  1. HDOJ 3415 Max Sum of Max-K-sub-sequence
  2. Oracle定时器(Job)各时间段写法汇总
  3. 标准C语言库 Glibc 2.15
  4. C语言typedefine 和define的区别
  5. RK3288/RK3399 CPU定频方法
  6. Android 广播接收
  7. 还没学python_2个月过去了!还没学会python?用《流畅的python》15天带你学会
  8. pip/conda导出 requirements.txt 注意事项
  9. LeetCode 1870. 准时到达的列车最小时速(二分查找)
  10. LeetCode 515. 在每个树行中找最大值(层序遍历)