协同过滤算法效果不佳怎么办？知识图谱来帮忙啦！

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation(WWW2019)

Paper：https://arxiv.org/pdf/1901.08907.pdf

作者：一元，炼丹笔记小编

背景

协同过滤在真实推荐场景中经常会受到稀疏性和冷启动问题的影响,为了缓解此类问题,我们使用附带信息(side infomation)来处理。本文,作者使用知识图谱作为附带信息并采用多任务学习的方式来处理该问题。

问题定义模型介绍

1. 问题形式

1.1 符号定义 & 案例解释

我们有一个 $M$ 个用户的集合， $U={u1,u2,…,uM}U=\left\{u_{1}, u_{2}, \ldots, u_{M}\right\}$ ，以及 $N$ 个商品的集合, $V={v1,v2,…,vN}V=\left\{v_{1}, v_{2}, \ldots, v_{N}\right\}$ ，以及用户和商品的交互集合， $\in R^{M * N}$ 。如果用户 $u$ 和商品 $v$ 有交叉，例如点击，观看，购买等，那么 $y_{u v}=1$ ，反之则为0。

除此之外,我们还有知识图谱 $G\mathcal{G}$ , 它由实体关系实体(entity-relation-entity)的三元组 $(h, r, t)$ 组成,其中分别表示head,relation,和tail。例如(Quentin Tarantino, film.director.film, Pulp Fiction)就表示Quentin Tarantino监制了电影Pulp Fiction。而在推荐场景中, 一个商品 $\in \mathcal{V}$ 可能和 $G\mathcal{G}$ 中的一个或者多个实体关联。例如在电影推荐中, Pulp Fiction可能和它一个同名的关联，但是在新闻推荐中，标题名字为”Trump pledges aid to Silicon Valley during tech meeting”在知识图谱中就和实体"Donald Trump"以及"Silicon Valley"相关联。

1.2. 问题定义

给定用户和商品的交互矩阵 $Y$ 以及知识图谱 $G\mathcal{G}$ ,我们希望预测用户对于之前从未有交互的商品是否存在潜在的兴趣？所以我们的目标就是：

$yˉuv=F(u,v∣Θ,Y,G)\bar{y}_{u v}=\mathcal{F}(u, v \mid \Theta, Y, \mathcal{G})$

其中 $yˉuv\bar{y}_{u v}$ 为用户 $u$ 和商品 $v$ 交互的 $Θ\Theta$ 概率， $F\mathcal{F}$ 为函数的参数,

2. 模型框架

本文的整体模型框架如下：

MKR由三个模块组成：

推荐模块:使用用户和商品作为输入并且使用MLP和cross&compress单元分别抽取dense的用户和商品特征；抽取的特征然后输入到另一个MLP并输出预测概率;
右侧的KGE模型也使用了多层从head和知识三元组中抽取特征并且输出在分数函数 $f$ 和实际尾部监督下的尾部预测的表示;
推荐模块和KGE模块通过特殊设计的cross&compress单元进行连接。提出的单元还可以学习在推荐系统和KG中实体的高阶交叉信息。

2.1 Cross & compress 单元

为了建模商品和实体的特征交叉,我们设计了一个cross&compress单元。对于商品以及它所关联的实体,我们先构建影隐藏特征 $vl∈Rdv_{l} \in R^{d}$ 以及 $el∈Rde_{l} \in R^{d}$ 的 $d * d$ 个成对交叉。
$Cl=vlelT=[vl(1)el(1)…vl(1)el(d)………vl(d)el(1)…vl(d)el(d)]∈Rd∗dC_{l}=v_{l} e_{l}^{T}=\left[\begin{array}{ccc} v_{l}^{(1)} e_{l}^{(1)} & \ldots & v_{l}^{(1)} e_{l}^{(d)} \\ \ldots & \ldots & \ldots \\ v_{l}^{(d)} e_{l}^{(1)} & \ldots & v_{l}^{(d)} e_{l}^{(d)} \end{array}\right] \in R^{d * d}$
$C_{l}$ 是在第 $l$ 层的特征交叉矩阵, $d$ 是隐藏层的维度。

然后我们通过交叉特征矩阵将下一层的商品和实体特征向量映射到它们的潜在表示空间。

$v_{l+1}=C_{l} w_{l}^{V V}+C_{l}^{T} w_{l}^{E V}+b_{l}^{V}=v_{l} e_{l}^{T} w_{l}^{V V}+e_{l} v_{l}^{T} w_{l}^{E V}+b_{l}^{V}$
$e_{l+1}=C_{l} w_{l}^{V E}+C_{l}^{T} w_{l}^{E E}+b_{l}^{E}=v_{l} e_{l}^{T} w_{l}^{V E}+e_{l} v_{l}^{T} w_{l}^{E E}+b_{l}^{E}$

其中, $wl∈Rdw_{l} \in R^{d}$ ， $bl∈Rdb_{l} \in R^{d}$ 是训练的权重和偏差向量。这个称为compress操作,因为我们将 $R^{d * d}$ 投影到 $R^{d }$ 上。通过上面的操作,我们从水平和垂直方向进行了压缩。

cross&compress单元： $[vl+1,el+1]=C(vl,el)\left[v_{l+1}, e_{l+1}\right]=C\left(v_{l}, e_{l}\right)$

通过该操作,MKR可以自适应地调整知识迁移的权重并且学习两个任务的相关性。

注意:交叉压缩单元应该只存在于MKR的底层。在深层结构中，特征通常沿网络从广义(general)到特定(special)的转换，并且随着任务的不同性的增加，特征在更高层次的移植性会显著下降。因此，共享高层的信息有可能导致负迁移，特别是对于MKR中的异构任务。在MKR的高层中，商品的特征与用户特征混合，实体特征与关系特征混合。混合特征不适合共享，因为它们没有明确的关联。

2.2 推荐模块

MKR中的推荐模块由两个原始输入特征向量 $u$ 和 $v$ 组成, 给定用户 $u$ 的原始特征向量,我们使用 $L$ 层的MLP对其深层的语义信息进行抽取。

$uL=M(M(…M(u)))=ML(u)u_{L}=\mathcal{M}(\mathcal{M}(\ldots \mathcal{M}(u)))=\mathcal{M}^{L}(u)$

其中 $M(x)=σ(Wx+b)\mathcal{M}(x)=\sigma(W x+b)$ 是全连接网络层, 对于商品 $v$ ，我们使用 $L$ 个cross&compress的单元抽取它的特征：

$vL=Ee∼S(v)[CL(v,e)[v]]v_{L}=E_{e \sim \mathcal{S}(v)}\left[C^{L}(v, e)[v]\right]$

其中 $S(v)\mathcal{S}(v)$ 是商品 $v$ 的相关实体集合。

在获得用户 $u$ 的潜在特征 $u_{L}$ 以及商品 $v$ 的潜在特征 $v_{L}$ 之后,我们使用下面的方式对其进行预估：

$yˉuv=σ(fRS(uL,vL))\bar{y}_{u v}=\sigma\left(f_{R S}\left(u_{L}, v_{L}\right)\right)$

2.3 知识图谱Embedding模块

知识图谱embedding将实体以及关系embed到某个连续的向量空间中，和推荐模块类似, 对于给定的知识三元组 $(h, r, t)$ ,我们首先使用多个 $KaTeX parse error: Expected '}', got '&' at position 13: \text {cross&̲compress}$ 的单元以及非线性层来处理head $h$ 以及关系 $r$ 的原始特征向量，最终它们的潜在向量被concatenate到一起, 之后再接上上K层的MLP预测 $t$ ,
$hL=Ev∼S(h)[CL(v,h)[e]]rL=ML(r)tˉ=MK(hLrL)h_{L}=E_{v \sim \mathcal{S}(h)}\left[\mathcal{C}^{L}(v, h)[e]\right] r_{L}=\mathcal{M}^{L}(r) \bar{t}=\mathcal{M}^{K}\left(\begin{array}{l} h_{L} \\ r_{L} \end{array}\right)$
其中 $S\mathcal{S}$ 是和实体 $h$ 相关的商品集合, $tˉ\bar{t}$ 是尾部的预测向量,最终, $(h, r, t)$ 三元组通过得分函数 $f_{K G}$ 计算得到：

$score⁡(h,r,t)=fKG(t,tˉ)\operatorname{score}(h, r, t)=f_{K G}(t, \bar{t})$

我们使用正则化的内积 $fKG(t,tˉ)=σ(tTtˉ)f_{K G}(t, \bar{t})=\sigma\left(t^{T} \bar{t}\right)$ 作为得分函数。

2.4 学习算法

MKR的最终Loss为：
$L=LRS+LKG+LREG=∑u∈U,v∈VJ(yˉuv,yuv)−λ1(∑(h,r,t)∈Gscore⁡(h,r,t)−∑(h′,r′,t′)∉Gscore⁡(h′,r,t′))+λ2∥W∥22\mathcal{L}=\mathcal{L}_{R S}+\mathcal{L}_{K G}+\mathcal{L}_{R E G}=\sum_{u \in U, v \in V} \mathcal{J}\left(\bar{y}_{u v}, y_{u v}\right)-\lambda_{1}\left(\sum_{(h, r, t) \in \mathcal{G}} \operatorname{score}(h, r, t)-\sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \notin \mathcal{G}} \operatorname{score}\left(h^{\prime}, r, t^{\prime}\right)\right)+\lambda_{2}\|W\|_{2}^{2}$
上面式子中, $J\mathcal{J}$ 是交叉熵函数, 用来计算推荐模块的损失; 第二项计算KGE模块的损失, 其中我们希望增加所有正的三元组的分数同时减少所有负的三元组的分数。最后一项是正则项。

3. 理论分析

cross&compress的单元有足够的多项式近似的能力。证明略。

1. 和Baseline比较

MKR在四个数据集上对比其他所有方法都取得了最好的效果;

2. 和MKR的变种比较

MKR中设计的交叉策略可以学习到更加高阶的信息,取得更好的效果

3. 在稀疏场景下的情况

和其他模型对比, MKR在数据稀疏的情况下下降是最少的,这也验证了模型MKR当用户商品交叉较少的情况下依然可以取得不错的效果;

4. KGE side的结果

RS的任务也可以帮助KGE任务,这也说明了multi-task learning可以利用共享信息帮助提升所有任务的效果。

5. 参数敏感度(KG:Knowledge Graph, KGE:Knowledge Graph Embedding)

KG大小的影响: Bing-News的效果随着KG size的变大而稳定变好;
RS的训练频率: MKR前期会随着训练频次的增加而变好,但是到达某个值t=5之后,效果会略有下降,这可能是因为KGE模块的高训练频率会误导MKR的目标函数，而KGE训练频率太小则无法充分利用KG传递的知识；
Embedding维度的影响：随着embedding维度的增大, 效果前期会有提升,但是到后面之后会慢慢变差一些,这可能是因为过大的embedding维度会引入噪音的问题;

小结1

训练频率会误导MKR的目标函数，而KGE训练频率太小则无法充分利用KG传递的知识；

Embedding维度的影响：随着embedding维度的增大, 效果前期会有提升,但是到后面之后会慢慢变差一些,这可能是因为过大的embedding维度会引入噪音的问题;

小结2

提出了一种多任务学习的知识图增强推荐方法MKR。MKR是一个端到端的深度模型框架，由两部分组成：推荐模块和KGE模块。两个模块都采用多个非线性层来提取输入的潜在特征，以适应用户商品和头部关系对之间复杂的交互作用。由于这两个任务不是独立的，而是通过商品和实体联系在一起的，因此我们在MKR中设计了一个交叉压缩单元来关联这两个任务，它可以自动学习项目和实体特征的高阶交互，并在两个任务之间传递知识。在四个推荐场景中进行了大量的实验。结果表明MKR比强基线有显著的优越性和KG的使用效果。

MKR：协同过滤算法效果不佳，知识图谱来帮忙相关推荐

SIGIR 2019 开源论文 | 基于图神经网络的协同过滤算法
作者丨纪厚业单位丨北京邮电大学博士生研究方向丨异质图神经网络,异质图表示学习和推荐系统引言协同过滤作为一种经典的推荐算法在推荐领域有举足轻重的地位.协同过滤(collaborative fil ...
SVD++：推荐系统的基于矩阵分解的协同过滤算法的提高
1.背景知识在讲SVD++之前,我还是想先回到基于物品相似的协同过滤算法.这个算法基本思想是找出一个用户有过正反馈的物品的相似的物品来给其作为推荐.其公式为: 其中 rui 表示预测用户u对物品i的 ...
Python基于用户协同过滤算法电影推荐的一个小改进
之前曾经推送过这个问题的一个实现,详见:Python基于用户协同过滤算法的电影推荐代码demo 在当时的代码中没有考虑一种情况,如果选出来的最相似用户和待测用户完全一样,就没法推荐电影了.所以,在实际 ...
推荐系统之协同过滤算法分布式实现（附代码实现）
图片来自网络文章作者:Sunbow 高级工程师编辑整理:Hoh Xil 导读:本文主要介绍协同过滤基础知识,以及分布式实现设计,并最终在 Spark 平台上对同现相似度.Cosine 相似度.欧几 ...
【推荐算法】协同过滤算法——基于用户 Java实现
只是简单谢了一个Demo,先贴上GitHub地址. https://github.com/wang135139/recommend-system 基本概念就不过多介绍了,相信能看明白的都了解.如果想了 ...
Springboot+采用协同过滤算法的家政服务平台的设计与实现毕业设计-附源码260839
Springboot家政服务平台摘要协同过滤算法是一种较为著名和常用的推荐算法,它基于对用户历史行为数据的挖掘发现用户的喜好偏向,并预测用户可能喜好的产品进行推荐.基于协同过滤算法的家政服务平 ...
springboot采用协同过滤算法的家政服务平台的设计与实现毕业设计源码260839
Springboot家政服务平台摘要协同过滤算法是一种较为著名和常用的推荐算法,它基于对用户历史行为数据的挖掘发现用户的喜好偏向,并预测用户可能喜好的产品进行推荐.基于协同过滤算法的家政服务平 ...
个性化智能推荐(协同过滤算法)技术研究
个性化智能推荐(协同过滤算法)技术研究一. 协同过滤推荐(Collaborative Filtering简称 CF) 协同过滤技术是目前推荐系统中最成功和应用最广泛的技术,在理论研究 ...
“泰迪杯”挑战赛 - 基于用户协同过滤算法的电影推荐系统(附算法代码)
目录第 1 章绪论 1.1.研究背景 1.2.国际发展形势第 2 章基于用户协同过滤推荐技术第 2 章基于用户协同过滤推荐技术 2.1 电子商务推荐系统概述 2.2 协同过滤推荐技术第 3 ...

MKR：协同过滤算法效果不佳，知识图谱来帮忙