©PaperWeekly 原创 · 作者 | 杨雨豪

单位 | 香港大学

研究方向 | 推荐系统

研究背景

知识图谱(Knowledge Graphs,KGs)通常包含丰富的实体语义关联,在推荐系统中已被广泛地用作提高用户表征学习质量,以及提升推荐精准度的有效额外信息。在这些知识感知的推荐模型中,知识图谱信息通常包含实体和被推荐物品之间的语义关系。然而,这些推荐算法的成功很大程度上依赖于高质量的知识图谱,并且可能因为以下两个问题而无法学习到高质量的用户和商品表征:

i)Entity 的长尾分布导致基于 KG 的物品表征的监督信号变得稀疏;

上图展示了从三个实际应用数据集中收集到的知识图谱实体的分布情况。在图中, Y 轴代表具有相应曝光数量的实体有多少,与 X 轴上的实体曝光数相对应。很明显,大多数 KG 实体都表现出长尾现象。由于知识图谱 embedding 的 Trans 系列算法需要每个实体有充分的基于三元组(h, r, t)的商品连接信息,从而准确地建模语义转换,并且辅助商品的 embedding 学习。因此,KG 的长尾分布问题给准确捕捉物品的关联性带来了挑战。

ii)实际应用中的知识图谱往往是有噪声的,比如知识图谱的链接中也包含了很多物品和 Entity 之间弱关联甚至不太相关的噪音连接信息。

上图中展示了一个新闻推荐任务的例子,新闻的关键实体 Zack Wheeler 是美国职业棒球大联盟中费城人队的一个著名投手。然而,我们可以注意到,Zack Wheeler 与两个同新闻本身语义无关的 "噪音 "实体相连接,即 Smyrna, GA 和 UCL 重建手术。虽然 Zack Wheeler 出生在 Smyrna,而且他之前接受了 UCL 重建手术,但这两个实体与这一体育新闻本身的主题不太相关,从而会造成对该新闻语义学习的偏移。

这样的 KG 稀疏性和噪声问题使得物品之间的实体依赖关系偏离了对其真实特征的反映,这极大地产生了建模上的偏差,阻碍了对用户偏好的准确学习。

论文题目:
Knowledge Graph Contrastive Learning for Recommendation

论文作者:

杨雨豪(香港大学),黄超(香港大学),夏良昊(香港大学),李晨亮(武汉大学)

论文来源:
https://arxiv.org/abs/2205.00976

代码链接:
https://github.com/yuh-yang/KGCL-SIGIR22

模型介绍

针对以上的研究空白,我们提出了一个用于推荐系统的知识图谱对比学习框架(KGCL),以减轻知识感知的推荐建模中的信息噪声。我们提出了一个基于知识图谱图增强的对比学习范式,以抑制信息聚合过程中的 KG 噪音,从而学习物品更稳健的知识感知表征,缓解 KG 的长尾与噪音问题。此外,我们利用来自 KG 增强过程的额外监督信号来指导跨视图的用户-物品图的对比学习,在对比的梯度中给予无偏的用户-物品交互更大的权重,并进一步缓解噪音问题对表征学习的损害。

2.1 关系感知的知识聚合

首先,我们设计了一个关系感知的知识嵌入网络,以在聚合物品知识时反映知识图谱结构上的关系异质性。基于图注意力网络(GAT)及其变种的启发,我们的 KGCL 模型将实体和关系相关的上下文投射到具有参数化关注矩阵的特定表示中。然后,在知识图谱中的物品和其连接的实体之间建立基于注意力的信息聚合机制,用于生成异质关系图上的知识感知的物品表示。具体的知识聚合机制可参考下图。

2.2 基于知识图谱的图增强

在 KGCL 框架中,我们提出生成不同的知识图谱结构视图,以进行知识实体自区分式的对比学习。具体地,我们在输入的知识图谱上采用随机丢弃关系的增强方案来生成两个对比视图。这两个视图的一致性反映了单个物品的知识图谱结构的一致性,以反映物品对知识噪声扰动的鲁棒性。

2.3 基于知识图谱的跨视图对比学习

我们将知识图谱上的图增强与图对比学习范式相结合,以提高知识图谱表示学习和知识聚合生成的物品表示的鲁棒性。同时,为了有效地转移高质量的物品外部知识以帮助用户偏好的学习,我们为用户-物品交互设计了知识指导的对比学习范式。在这样的对比学习中,去噪的物品知识可以被用来指导用户和物品的表示学习,并缓解监督信号的稀疏性。

具体来说,KG 结构一致性得分较高的物品在它的知识图谱中包含较少的噪音,并对用户的真实兴趣建模做出更大的预测贡献。因此,我们在进行用户-物品交互图的对比学习时,在图增强过程使得这些低噪声的物品更有可能地保留下来。

最终,我们为增强后的知识图谱和用户-物品交互图的两个视图分别进行知识聚合和基于图卷积的协同过滤计算,并为每个用户和物品的表示进行对比学习,计算 InfoNCE 损失函数,并与推荐主任务的损失一同进行梯度下降优化。

2.4 知识图谱对比学习对模型梯度的影响

在这一部分,我们从理论角度分析知识指导的对比学习对于用户-物品表征学习梯度的影响,并研究这一学习过程如何从知识图谱上的对比学习上收益。首先,参考相关的工作(SGL,SIGIR21),用户-物品图的对比学习中负样本的梯度可以推导为正比于这一函数值:

其中 是正负样本的余弦相似度值。 的函数图像在不同温度系数 下是:

不难发现,拥有较高 值(例如:)的强负样本对于梯度的贡献较高,能够更好地指导对比学习的梯度。我们的 kgcl 模型主要通过以下两个过程来提高对于强负样本的区分能力:

1). 与噪声或长尾知识实体相连接的物品可以通过知识图谱上的对比学习来增强其表示学习的语义稳定性,能够学习到更准确的 值。

2). 与受知识图谱语义偏差影响更大的物品相关的用户-物品交互将更少地被包含到用户-物品图的对比学习过程中。

对于第一点,可以考虑一组假强负样本 ,定义为:

其中 表示在知识图谱语义偏差引入的情况下模型对于样本相似度的度量, 表示 的最大值点,这些样本在 的 距离附近,对于对比学习的梯度有较大的贡献。然而,在知识图谱不存在噪声和长尾问题的情况下,这些样本应该作为非强样本,即:

因此,我们认为知识图谱的噪声和长尾问题会使得模型将一些普通负样本当作强负样本,而将真正的强负样本当作普通负样本对待,导致 曲线产生偏移。KGCL 提出的知识图谱上的对比学习可以修正这个问题,使得模型能够通过准确建模样本语义从而更好地区分负样本的强度。

实验结果

3.1 整体模型效果

我们从以下几个 research line 中选取了多样性的对比模型:传统 CF 模型、神经 CF 模型、图 CF 模型、基于 Embedding 的 KG 推荐模型、基于路径的 KG 推荐模型、基于图的混合 KG 推荐模型和自监督的推荐模型。从下表可以发现,KGCL 在三个数据集上相比基线模型均取得了显著更好的性能。

3.2 消融实验

我们分别对 KGCL 架构中的 KG 图增强部分(KGA)和 KG 对比学习部分(KGC)分别进行消融实验,来探究这两个关键部分对于模型性能的影响。从下表可以看出,两个模块对于模型的学习均有明显的促进作用。

3.3 模型在稀疏数据上的优势

KGCL 既引入了外部知识来增强物品的表征学习,又在用户-物品交互图上采用了知识指导的对比学习范式,因此我们期望提出的 KGCL 对于用户-物品交互的稀疏性问题有较好的缓解效应。我们首先将物品按照曝光的稀疏度分成五个组,并在与它们相关的用户交互数据上进行实验。下表的实验结果显示,KGCL 在稀疏的物品组(例如 0-2)上,相比最先进的一些基线模型都有较大的提升。

进一步地,我们为数据集筛选出冷启动用户,这些用户的交互数均小于某个数据集特定的阈值(例如,在Yelp2018 上是 20)。通过对这些冷启动用户生成推荐列表进行实验,我们发现 KGCL 在建模冷启动用户任务上也有明显的提升:

3.4 模型在缓解KG噪音上的优势

为了验证 KG 上对比学习以及知识指导的对比学习针对 KG 的噪声和长尾问题带来的优势,我们首先为 KG 随机加入 10% 的噪声,并比较 KGCL 与最新的 KG 推荐方法在噪声 KG 上的性能:

从上表的实验结果可以发现,KGCL 在面对加入 KG 噪声的场景,只产生了 0.58% 的性能下降,远远好于 MVIN、KGIN 和 KGAT。这说明了 KGCL  的先进性。进一步地,我们筛选出连接到 KG 中长尾实体的物品,并对这些用户-物品交互进行实验。

上图实验结果说明了 KGCL 在抑制 KG 的长尾问题上相比于其它推荐模型的优势。

总结

在这项工作中,我们提出的 KGCL 框架进行了初步尝试以探索通过知识图谱上的对比学习对知识图谱的噪声和长尾分布问题进行抑制。进一步地,通过知识指导的图数据增强,我们得以估计受到 KG 问题影响而产生语义偏移的物品,并将其作为辅助性的自监督信号,使得语义更明确的用户-物品交互得以在对比学习中为梯度产生更大的贡献。我们希望这项工作为 KG 增强的推荐系统开辟了新的探索方向。

参考文献

[1] Jiancan Wu, Xiang Wang, Fuli Feng, Xiangnan He, Liang Chen, et al. 2021. Self-supervised graph learning for recommendation. In SIGIR. 726–735.
[2] Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, and Meng Wang. 2020. Lightgcn: Simplifying and powering graph convolution network for recommendation. In SIGIR. 639–648.
[3] Hongwei Wang,Fuzheng Zhang,Jialin Wang,Miao Zhao,Wenjie Li,Xing Xie, and Minyi Guo. 2018. Ripplenet: Propagating user preferences on the knowledge graph for recommender systems. In CIKM. 417–426.
[4] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian Personalized Ranking from Implicit Feedback. In UAI. 452–461.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

​SIGIR 2022 | 港大、武大提出KGCL:基于知识图谱对比学习的推荐系统相关推荐

  1. #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测

    #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测 犯罪问题已成为许多城市关注的主要问题,准确的犯罪预测对于政府相关部门的事先决策至关重要.预测城市中每个地理区域的城市 ...

  2. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

  3. 【大数据分析毕设之基于知识图谱的银行风控智能管理系统

    [大数据分析毕设之基于知识图谱的银行风控智能管理系统-哔哩哔哩] https://b23.tv/EGUriZQ https://b23.tv/EGUriZQ

  4. 【推荐系统】RippleNet——基于知识图谱偏好传播的推荐系统

    [推荐系统]RippleNet--基于知识图谱偏好传播的推荐系统 论文名称:<RippleNet: Propagating User Preferences on the Knowledge G ...

  5. 【AI周报】首款高容错通用量子计算机原型登上Nature;SIGIR 2022 | 快手联合武汉大学提出序列推荐的多粒度神经模型

    01 # 行业大事件 首款高容错通用量子计算机原型登上Nature 理论上,量子计算机可以解决常规计算机在宇宙生命周期时间内也无法解决的问题.然而,我们需要大量的工程和技术才能将其「理论上」的能力兑现 ...

  6. 拿transformer做E2E全景分割,这个通用框架霸榜挑战赛,南大、港大联合提出

    视学算法报道 机器之心编辑部 本文中,来自南大.港大.英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架,不仅为语义分割与实例分割提供了统一的 mask 预测工作 ...

  7. Google提出用对比学习解决推荐系统长尾问题

    关注 ▲对白▲ 和百万AI爱好者,一起向上生长 这是对白的第 87 期分享 作者 l 知乎@吴家丫头1990 出品 l 对白的算法屋 大家好,我是对白. 本文主要分享一下Google今年提出的< ...

  8. 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程

    关注公众号,发现CV技术之美 ▊ 写在前面 密集视频字幕(Dense Video Captioning)的目的是从视频中生成多个与其时间位置相关的字幕.以前的方法遵循一个复杂的"先定位再描述 ...

  9. SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

    ©作者 | 社媒派SMP 来源 | 社媒派SMP 中国科学院深圳先进技术研究院自然语言处理团队(SIAT-NLP)联合阿里巴巴达摩院云小蜜智能对话团队提出了一篇针对于任务型对话预训练的工作SPACE, ...

  10. 哈工大鹏程lab武大提出对比学习+超分模型,实现了新的SOTA

    关注公众号,发现CV技术之美 ✎ 编 者 言  对比学习在high-level任务上取得了显著的成功,但获得的全局视觉表征不适应丰富纹理和上下文信息的low-level任务,本文对对比学习框架的改进并 ...

最新文章

  1. PyTorch 笔记(11)— Tensor内部存储结构(头信息区 Tensor,存储区 Storage)
  2. 2020年香港将推两个创新研发平台,专注医疗及AI领域
  3. 神策数据赋能物流服务行业数字化转型
  4. 第二十二章 李逵为什么不可爱
  5. Qt工作笔记-QHash与QMap查找速度粗略比较实战
  6. Js中函数式编程的理解
  7. 金蝶记账王登录显示连接金蝶云服务器异常,金蝶KIS记账王系统初始化常见问题...
  8. 万万没想到,面试中,连 ClassLoader类加载器 也能问出这么多问题.....
  9. _Linux学习手册(二)—文件目录类命令
  10. 博客积分排名进入前4万
  11. 八国离线谷歌卫星影像地图内网发布
  12. win7 共享打印机后,客户端连接提示:打印机已删除(0x00000709)
  13. 数学建模 MATLAB绘制心形线
  14. 微信小程序顶部标题栏仅保留右上角胶囊状按钮
  15. msys2在windows10系统的安装
  16. 面试进行曲之技术面试(项目经验)
  17. CSS3,渐变效果(线性渐变,径向渐变,重复渐变),实现各种背景效果。
  18. [CUPT]国一博主, 教你求解95%以上的方程(数值解)
  19. 程序员必备的沟通技巧
  20. Nginx反向代理负载均衡的容器化部署

热门文章

  1. 魔兽世界插件编写-第一个插件-空插件 EmptyAddOns
  2. Apple Pencil平替哪个好?Apple Pencil平替笔推荐
  3. 云南网络文化经营许可证办理,云南办理网络文化经营许可证多少钱?文网文是什么?怎么办理文网文?办理文网文需要什么材料?
  4. 探讨6410的启动过程
  5. Latex排版技巧:输入罗马数字
  6. 医药电商平台解决方案
  7. 【酷毙了】野火新版fireTools多功能调试助手,有Windows和Linux版本,就问你喜不喜欢。...
  8. python如何读取dbf文件_Python如何读取DBF文件
  9. Spring底层原理问题
  10. 团队项目(六)- 事后诸葛亮分析(江山代有才人秃)