知识图谱的概念于2012年由谷歌提出,这篇文章虽然发表于2010年,但文章中的对于数据的使用已经接近知识图谱了。文章提出的PRA算法是知识图谱推理的早期探索,在RWR(重启随机游走算法)的基础上进行了相似性的改进。同时在那个机器学习还没有普及的年代,文章也探索了使用监督学习的方法进行参数的学习和训练。由于年代差异,这里只重点描述文章提出的PRA算法。

Relational retrieval using a combination of path-constrained random walks

  • 论文相关信息
  • 解决什么问题?
  • 如何解决的?数据和方法。
  • Path-Ranking Algorithm(PRA)
    • 算法出发点
    • 算法描述
      • 符号定义
      • 游走计算
      • 实例计算
      • 如何利用PRA游走得到的分配值
  • 实验结果
    • 参数影响
  • 结语

论文相关信息

发表时间:2010
发表期刊:mach learn (大类:工程技术3区,小类:人工智能3区(4区))
发表单位:卡内基梅隆大学
作者:Ni Lao; William W. Cohen
论文地址:Relational retrieval using a combination of path-constrained random walks

解决什么问题?

文章提出了四个任务以评估提出的PRA算法的有效性,虽然是针对生物医学领域的,但其实也都是和推荐系统相关的任务:

  1. 期刊推荐:输入:论文标题中的专业术语,与文章相关的关键字(基因或蛋白质),现在的年份。输出:推荐的期刊及其排名。该任务有助于预印本论文发表。
  2. 引文推荐:输入与期刊推荐的输入相同。输出:推荐的论文及其排名。该任务有助于预印本论文发表。
  3. 专家发现:输入与期刊推荐的输入相同。输出推荐的专家及其排名。该任务有助于发现合适的审稿人或者新的合作者。
  4. 基因推荐:输入作者以及年份,输出推荐的基因及其排名。这项任务类似于预测该作者未来的研究兴趣。

为了方便,下文仅对期刊推荐进行介绍。

如何解决的?数据和方法。

作者使用了两个数据集,分别是果蝇和酵母素的两个数据集。数据集中的实体类型非常有限,大致情况如论文中给出的两幅图:

其实这里已经可以看到知识图谱本体构建的影子了。

酵母素数据的本体相对于果蝇数据的本体多了一个蛋白质的本体。

这些数据要怎么用?为什么要抽取出这样的数据?
结合前面的任务描述,文章其实是希望能够运用图上的游走方法来达到推荐的效果。例如,对于期刊推荐任务,任务有许多的本体起始点(Title Word,gene,protein,Year等)。然后通过在知识图谱上的游走最终停留在类型为"journal"的实体上,停留概率最大的即为推荐的期刊。

有了以上大体的方法框架,那么接下来的问题就在于如何设计出合理的游走方法。传统的方法有Page-rank等:随机游走算法

Path-Ranking Algorithm(PRA)

算法出发点

传统的重启随机游走算法为每一个类型的边设置了各自的转移概率,但作者认为这种方法忽略了上下文的影响,作者举了个例子:
在引文推荐任务中,假定以“year” y 为起点寻找推荐的引文,可能会得到以下两种情况的推荐:
1)查找在y年发表的论文
2)查找y年发表的论文经常引用的论文

第一种情况推荐的是,year →PublishedIn−1→\rightarrow PublishedIn^{-1} \rightarrow→PublishedIn−1→ paper
第二种情况推荐的是,year →PublishedIn−1→\rightarrow PublishedIn^{-1} \rightarrow→PublishedIn−1→ paper →Cite→\rightarrow Cite \rightarrow→Cite→ paper

直觉上来说第二种情况得到的推荐比第一种情况得到的推荐更合适。也就是说对于推荐而言,可能某种路径下得到的推荐是更为合适的?因此应该为不同的路径设置不同的转移概率?

算法描述

符号定义

文章首先定义了一些概念,论文中的描述比较严谨,这里为了便于理解,画图示例:
以year →PublishedIn−1→\rightarrow PublishedIn^{-1} \rightarrow→PublishedIn−1→ paper为例:

绿色圈表示year的集合(虽然输入年份一般只有一个?)
蓝色圈表示paper的集合
大圈中的小圈表示实例

对于一个关系R(这里的实例是Published_In的反关系)
关系R关联的头实体集合表示为Dom®
关系R关联的尾实体集合表示为Range®
橙框中的R(e,e`)表示实例e能够通过R关系到达实例e’

如果这些概念扩展到关系路径概念P=R1R2...RlP=R_1R_2...R_lP=R1​R2​...Rl​,结果也是一样的,这里只给出两步关系路径的示意图:

注意:这里的路径指的是关系路径,并不是图论中的路径。

游走计算

对于路径P=R1R2...RlP=R_1R_2...R_lP=R1​R2​...Rl​和查询实体集合(前文提到的输入)Eq⊂Dom(P)E_q\subset Dom(P)Eq​⊂Dom(P),我们希望能够通过查询实体的游走推荐出目标实体,因此需要给出游走到各个实体停留的分布,分布计算方法如下:

令P=R1R2...RlP=R_1R_2...R_lP=R1​R2​...Rl​,P′=R1R2...Rl−1P'=R_1R_2...R_{l-1}P′=R1​R2​...Rl−1​,则在当前节点停留的值为:

其中函数I()I()I()是一个激活函数,即若Rl(e′,e)R_l(e',e)Rl​(e′,e)为真,函数值为1,否则为0(我怎么感觉这个函数有一点多余?)。

可以看到,这个分布的计算是由迭代得到的,也就是求长度为lll的路径的分布需要先得到长度为l−1l-1l−1的路径值分布。那么初始时的路径长度为0的情况下,分布也需要定义:

实例计算

直接看公式会让人很头疼,这里举个简单的实例来执行公式,还以year →PublishedIn−1→\rightarrow PublishedIn^{-1} \rightarrow→PublishedIn−1→ paper →Cite→\rightarrow Cite \rightarrow→Cite→ paper为例:

我们从输入year开始,由于EqE_qEq​只有一个实体,因此输入查询年份节点的分配值为1,假设该年份出版查询到了3篇论文,每个论文节点根据公式分配到了1/3的分配值。再按照cite这条路径走下去,我们发现计算变得稍微复杂一些,我们对每个节点分别计算:
a:前驱节点e’有三个,前驱节点的分配值都是1/3,第一个节点引用了两篇文章,第二个节点和第三个节点分别引用了四篇文章,因此a节点得到分配值:
1/31/2+1/31/4+1/3*1/4=4/12

b:两个前驱节点,前驱节点的分配值都是1/3,分别引用了四篇文章,b分配值为:
1/31/4+1/31/4=2/12

c:1/31/4=1/12
d:1/3
1/2+1/31/4=3/12
e:1/3
1/4=1/12
f:1/3*1/4=1/12

计算到这里我惊讶的发现,这和资源分配算法是一样的。

如何利用PRA游走得到的分配值

如果只是计算到这里,我们发现中间一圈的三个节点的分配值是比右边一圈的几个节点的分配值都高的,这并没有得到作者提出的直觉上的更好的结果。事实上,作者一直关注的是使各个路径拥有不同的权重,因此作者希望能够将这些分配值作为特征,然后通过监督学习的方法训练得到路径的权重。作者设定了以下的得分函数:

矩阵形式:

由于查询节点到达目标节点的路径非常多(尤其可能存在圈?)因此作者将关系路径长度设定最长为4,并且通过写入规则移除了一些无意义的路径:

实验结果

这里略过优化的过程

参数影响

作者探索了路径长度和训练数据的batch_size对结果的影响:

同时作者输出了参数来观察各个路径最后训练的权重:

这个结果能够验证很多的猜想,并且能够根据结果判断可靠的路径。

结语

这篇文章虽然相对较早,但是其基于路径推理的思想却是值得借鉴的。尤其是给出推理的路径结果的实验方案是非常值得借鉴的。算是知识图谱路径推理的早期作品了,后续还有很多工作基于这篇文章进行。

第一次写论文笔记,中间有什么地方理解的不对的,欢迎大家批评指正!

【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks相关推荐

  1. 论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

    论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练. 来源:EMNLP 2020 现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出 ...

  2. 论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

    论文笔记整理:陈名杨,浙江大学直博生. Introduction 知识图谱(KGs)在很多NLP的下游应用中起着越来越重要的作用.但是知识图谱常常是不完整的,所以解决知识图谱补全的任务也非常重要.主要 ...

  3. 论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架

    本文转载自公众号:机器之心. 推理知识图谱中缺失的连接已经吸引了研究界的广泛关注.在本论文中,加州大学圣塔芭芭拉分校的王威廉等研究者在知识图谱推理中引入了变分推理框架,并将路径搜索和路径推理紧密结合从 ...

  4. 论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

    作者:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 本文是我们与苏黎世大学以及阿里巴巴合作的工作,发表于WWW2019,这篇工作将知识图谱推理的两种典型方法,即表示学习和规则进 ...

  5. 知识图谱推理问题总结

    文章目录 背景 研究内容 研究内容 性能表现 问题 参考文献 背景 知识图谱在许多自然语言处理应用中有非常重要的作用,例如问答系统.语义搜索等.这些应用的性能受限于知识图谱的不完整性,甚至知识图谱中存 ...

  6. 知识图谱推理:现代的方法与应用

    摘要: 知识图谱推理技术再根据已有的知识推导出新的知识,是机器智能具有和人类一样的推理能力和决策能力的关键性技术,系统的研究了知识图谱推理的现代方法,通过统一的架构介绍了向量空间中进行知识图谱推理的现 ...

  7. 知识图谱从入门到应用——知识图谱推理:基于表示学习的知识图谱推理-[嵌入学习]

    分类目录:<知识图谱从入门到应用>总目录 前面多次提到过,基于符号逻辑的演绎推理的主要缺点是对知识表示的逻辑结构要求比较高,不论是本体推理还是规则推理,都要求人工定义公理和规则才能完成推理 ...

  8. 知识图谱的皇冠:知识图谱推理的前世今生

    作者:费斌杰 本文约4200字,建议阅读8分钟 本文聚焦于知识推理的理论研究和产业实践,剖析知识图谱推理的前世今生以及最近研究进展,以飨读者. [ 导读 ]业界和学界对知识图谱的关注主要集中于两大领域 ...

  9. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

最新文章

  1. const常量和readonly常量区别
  2. vscode解决java无法输入(scanner)问题
  3. 数据结构与算法之前缀数
  4. 最全的http头部信息分析(转载)
  5. WebService学习笔记---CXF入门
  6. word List 10
  7. android 自动截图分享,Android截图和分享
  8. python 常用字符串 列表元祖字典都 自带的函数方法
  9. VMware esxi在线增加Linux LVM硬盘不需重新启动
  10. 英雄与将军进不去一直连接服务器,英雄与将军进不去_英雄与将军载入不进战斗...
  11. Framework 修改默认输入法
  12. 四阶段课堂总结解决问题
  13. 第一节:(3)逻辑芯片工艺衬底选择
  14. 根据起始日期、起始时间、终止日期、终止时间计算天数
  15. 京东 按时上下班被开除,国内IT业惨状
  16. PHP实现常用设计模式之观察者模式
  17. 经典进程同步问题(十)
  18. 教你如何查看linux版本
  19. UNIX环境编程学习笔记(1):——出错处理errno
  20. 创业必须知道的----注册公司的流程和所需材料

热门文章

  1. Android手机替代笔记本出差实战之处理受保护的工作表(excel)
  2. Java程序获取和修改.wav音频文件的内部结构
  3. Android下拉筛选DropDownMenu
  4. 花了10分钟,终于明白矩阵的逆到底有什么用
  5. Oracle查询出第N高薪水的值
  6. Qt图形视图框架图片图元QGraphicsPixmapItem
  7. Scrapy 爬虫框架(基础)
  8. AMD GPU驱动,ROCM,Pytorch安装教程(A卡6700xt)
  9. MySQL的各种安装方式都给你
  10. 软件性能测试场景设计,性能测试场景设计杂谈