mdp框架_SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架

编者按：尽管知识图谱推理的发展前景广阔，但在收敛性和可解释性上仍存在一定的问题。微软亚洲研究院的研究员利用一个基于元启发式方法的示例路径抽取方法来以较低的标记代价提取示例路径集合，进而提出了一个对抗的 Actor-Critic 模型来进行示例路径指导下的路径搜索。实验结果表明，这一方法在推荐准确性和可解释性方面均优于最新的基线方法。

知识图谱推荐推理

知识图谱如今被广泛用于提高推荐算法的准确性方面。同时，知识图谱上用户-物品的多跳连接关系也赋予了系统进行推荐推理(Recommendation Reasoning)的能力，让图谱上的路径可以用来表示推荐某个物品的具体原因。例如，在向用户 Bob 推荐“Acalme Sneaker”这双鞋时，推荐的原因可以从如下连接关系中推理得到：

这条路径说明推荐“Acalme Sneaker”给 Bob，是因为 Bob 曾经购买过同品牌(Nike)的鞋 Revolution 5 Running Shoe。

与基于自然语言的解释相比，这种知识图谱推理很少得出关于物品的错误论断，例如错误地描述物品的品牌或生产商。这是因为路径上的边都是知识图谱中已经确为事实的知识。另外，知识图谱推理能够忠实地反映出推荐模型的工作机理，这样就增加了用户的信任度和满意度。

知识图谱推理尽管有很好的发展前景，但是仍然存在着巨大的研究挑战。传统的推荐方法侧重于根据用户的偏好，为给定的候选物品集合进行打分，而知识图谱推理还需要在复杂的知识图谱中识别可行的候选路径(路径查找)。现有研究主要的重心在前者，常常使用缺乏有效监督的蛮力算法来进行路径查找，导致了算法在收敛性和可解释性方面的问题。

收敛性：现有的方法缺少有效地指导和监督路径查找的机制。例如，现有的穷举搜索的方法可以枚举知识图谱上所有可能的候选路径，但这在大规模的知识图谱上是不可行的。REINFORCE 通过路径采样得到稀疏的奖励信号，来逐渐地改进策略。由于奖励信号的稀疏性和知识图谱巨大的动作空间，使得这种反复试验的方法收敛性较差。

可解释性：现有的方法仅优化推荐准确度这一个目标，无法保证生成的路径有较高的解释性。连接同一用户-物品组合可能有多条路径导致相同的推荐准确性，而某些路径作为推荐原因时的说服力并不强。为了实现良好的可解释性，将用户真正感兴趣的实体和关系类型纳入路径当中十分重要。同时，除了在路径中纳入上述的实体和关系类型，路径本身的类型对可解释性也很重要。例如，考虑以下两种路径类型：

“看过商品 A 的用户也看过”这种类型的路径在说服力上就弱于“买过商品 A 的用户也买过”的路径类型。

为了解决上面的问题，本文尝试通过引入不完善的示例路径(Imperfect Demonstration Paths)来解决这些问题。文中介绍了如何使用极少标注快速得到示例路径，还设计了一个基于模仿学习的知识图谱推理框架，从而使示例路径这样的弱监督信号可以和增强学习中的稀疏奖励信号自然结合。在这个框架的基础上，我们提出了对抗的 Actor-Critic(Adversarial Actor-Critic，ADAC)模型来进行示例路径指导下的路径搜索。实验表明，该方法比现有的方法收敛得更快，同时能够获得更好的推荐准确性和可解释性。

示例路径抽取

为了得到对知识图谱推理有用的不完善的示例路径，我们提出了一个基于元启发式方法的抽取方法。元启发式方法是“可被用来定义启发式方法的概念”，常被用来解决组合优化问题。通过指定示例路径需要的属性，来定义元启发方法。这些属性被进一步用来定义示例路径抽取的启发式规则。具体来说，考虑以下三种属性：

P1：可得性。示例路径通过较低的标记代价得到。

P2：可解释性。示例路径比随机采样得到的路径更有解释性。

P3：准确性。示例路径指向准确的推荐结果。例如，该路径能够连接用户和他/她交互过的物品。

只要满足上述三个属性，抽取的示例路径就被认为是有效的，即使它们是稀疏而且有噪声的(不完善)。基于这些属性，我们定义了三种抽取示例路径的启发式规则。

最短路径。研究表明，精炼的解释降低了用户的认知负担，同时被认为是更具解释性的。因此用户-物品组合之间更短的路径比随机采样的连接更具解释力(P2)。为了保证准确性(P3)，我们仅考虑连接用户 u 和他交互过的物品 v_u 的路径作为示例路径。具体而言，给定(u, v_u)，首先从知识图谱上去除 u 和 v_u 之间观察到的交互。这样就得到了一个新的知识图谱。随后将 G 视为无权重的图，并使用 Dijkstra 算法来自动生成 u 和 v_u 之间的最短路径(P1)。将生成的最短路径作为示例路径。之后对所有用户和其交互过的物品重复这个过程，来得到一组示例路径。

元路径。元路径(Meta-Path)是实体类型和关系构成的序列。在知识图谱推理中，元路径自然对应着元级别的解释策略。通过提供元路径，就可以得到理想的解释策略。我们的框架是通过极少量(1~3条)人工定义的元路径来提高模型性能(P1)。只要这些元路径被认为比随机采样的元路径更具解释力，他们就应当是有效的(P2)。与现有的基于元路径的方法相比，由于不需要上述预定义的元路径是完备的或是最优的，所以这一方法可以显著地减少人工标注的成本。之所以能够使用这些并不完善的元路径作为输入，是因为我们利用了元路径来指导路径搜索，而非限制搜索空间。为了基于这些预定义的元路径生成示例路径，我们在知识图谱上进行了有限制的随机游走，将每个用户 u 作为随机游走的起点，然后仅采样那些元路径属于预定义集合的路径。在所有采样得到的路径中，只保留那些通向用户交互过物品的路径，并将其作为示例路径(P3)。

兴趣路径。一个更具解释力的推理路径应当在实体级别符合用户的兴趣，比如路径中包含用户感兴趣的实体。在一些数据集中，得到实体级别的用户兴趣相对比较容易。例如，在包含用户评论的数据集中，可以通过查找实体是否出现在用户的评论中，来自动判断路径上的实体是否符合用户的兴趣(P1)。在这种情况下，使用随机游走得到一组路径，并查看每条路径中的实体是否多数符合用户兴趣，并仅保留那些符合用户兴趣的路径(P2)，同时，去除那些没有将用户与其交互过的物品连接起来的路径，以保证准确性(P3)，并将剩余路径作为示例路径。

推荐推理的模仿学习框架

我们提出了一种能够同时利用含有用户交互关系的知识图谱和提取的示例路径的方法。模型要解决的主要问题，是如何在一个统一的框架内，对不完善的示例路径、观察到的交互关系和知识图谱上的隐含事实进行高效地建模。为了实现这一目标，我们设计了对抗 Actor-Critic(ADversarial Actor-Critic，ADAC)模型，综合应用了基于 Actor-Critic 的强化学习和对抗模仿学习。

图1：对抗 Actor-Critic 模型进行示例路径指导下的路径搜索

如图1所示的模型框架。其中，知识图谱是马尔科夫决策过程环境(MDP environment)的一部分。Actor 用来学习路径搜索策略，它与 MDP 环境进行交互，从而得到知识图谱上的搜索状态(State)和可能的行为(Action)。通过环境给出的奖励(reward)反馈

mdp框架_SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架相关推荐

SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架
编者按:尽管知识图谱推理的发展前景广阔,但在收敛性和可解释性上仍存在一定的问题.微软亚洲研究院的研究员利用一个基于元启发式方法的示例路径抽取方法来以较低的标记代价提取示例路径集合,进而提出了一个对抗的 ...
【转】知识图谱上推荐推理的模仿学习框架
///又是一篇完全看不懂的文章,泪目了.唯叹一声,道路阻且长--- 原文标题:"SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架" 原文地址:https://www.ms ...
华为云苏嘉：如何整合预训练模型和知识图谱做医疗推理？
本文约4100字,建议阅读8分钟本文将讨论如何为AI+医疗提供一种行之有效的解决方案. [ 导读 ] 随着人工智能技术特别是深度学习的普及,医疗行业也迎来一波革命的热潮,本文将讨论如何利用AI技术将 ...
【Query Embedding on Hyper-relational Knowledge Graphs】超关系知识图谱上的查询嵌入论文结果复现
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.背景知识二.写作动机三.技术概述 1.查询嵌入: 2.超关系知识图谱: 3. 超关系查询: 四.模型概述: 五 ...
NeuIPS｜在知识图谱上嵌入逻辑查询
今天为大家带来斯坦福大学Jure Leskovec教授课题组发表在NeuIPS上的一篇论文.本文引入了一个框架GQE,以便在不完整的知识图谱上有效地对合取逻辑查询进行预测.在本文的方法中,作者在低维空 ...
【AAAI2022】TLogic:时序知识图谱上可解释链接预测的时间逻辑规则
清华大数据软件团队官方微信公众号来源:专知本文附论文,建议阅读5分钟我们解决了时序知识图谱上的链接预测任务. 传统的静态知识图谱将关系数据中的实体作为节点,由特定关系类型的边连接.然而,信息和知识不 ...
我的机器学习入门之路（下）——知识图谱、推荐、广告
继上一篇<我的机器学习入门之路(中)--深度学习(自然语言处理)>,这一篇博客主要记录了我对知识图谱.推荐和广告等方向的一些涉猎与基础学习. 一.知识图谱从自然语言处理到知识图谱,是一个 ...
论文浅尝 | DRUM：一种端到端的可微的知识图谱上的规则学习方法
论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释.本文提出了一种新的端到端的可微的 ...
NAACL 2021 | QA-GNN：基于语言模型和知识图谱的问答推理
©PaperWeekly 原创 · 作者|刘兴贤学校|北京邮电大学硕士生研究方向|自然语言处理论文标题: QA-GNN: Reasoning with Language Models and K ...

mdp框架_SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架

mdp框架_SIGIR 2020 | 知识图谱上推荐推理的模仿学习框架相关推荐

最新文章

热门文章