【论文笔记】Neural Graph Collaborative Filtering

文章目录

1. Motivation
2. 模型
- 2.1 Embedding Layer 嵌入层
- 2.2 Embedding Propagation Layers
- - 2.2.1 First-order Propagation
  - 2.2.2 High-order Propagation
  - 2.2.3 矩阵形式的传播
- 2.3 模型预测

1. Motivation

在过去的基于矩阵分解或者深度学习的方法，通常是利用user和item的embedding进行协同召回，存在的缺点：没有考虑user和item之间的collaborative signal

user-item interaction和high-order connectivity

上图左边就是CF里的user-item interaction（双圆圈表示需要预测的用户 $u_1$ ）。我们把其展成树形结构，有以下几个理解：

$u1←i2←u2u_{1} \leftarrow i_{2} \leftarrow u_{2}$ 表示 $u_1$ 和 $u_2$ 之间的相似性，因为他们都与 $i_2$ 进行了交互；
对于 $u1←i2←u2←i4u_{1} \leftarrow i_{2} \leftarrow u_{2} \leftarrow i_{4}$ 暗示 $u_1$ 可能会点击 $i_4$ ，因为相似的 $u_2$ 用户购买过 $i_4$ ；
在 $l = 3$ 层，用户 $u_1$ 会更倾向于 $i_4$ 而不是 $i_5$ ，因为有2条路径连接 $< i 4, u 1 >$ ，而只有1条连接 $< i 5, u 1 >$

所以如果能扩展成这样的路径连通性来解释用户的兴趣，就是高阶连通性(high-order connectivity)。

2. 模型

模型的主要组件（见下图）：

(1)嵌入层：提供用户嵌入和项嵌入初始化;
(2)多嵌入传播层：通过注入高阶连通性关系来细化嵌入;
(3)预测层：该层聚合来自不同传播层的细化嵌入，输出用户-项目对的亲和度得分。

图2

2.1 Embedding Layer 嵌入层

初始的嵌入，同主流的推荐模型一样：
$](1)\mathrm{E}=[\underbrace{\mathbf{e}_{u_{1}}, \cdots, \mathbf{e}_{u_{N}}}_{\text {users embeddings }}, \underbrace{\mathbf{e}_{i_{1}}, \cdots, \mathbf{e}_{i_{M}}}_{\text {item embeddings }}] \tag{1}$

eu1,⋯,euN,item embeddings

ei1,⋯,eiM](1)
不同的地方是，在MF或者NCF等模型中，这些embedding被直接送入交互层实现预测得分。而在NGCF里，通过在用户-项目交互图中的传播优化embedding，由于优化步骤将协作信号显式注入到embedding中，因此可以为推荐提供更有效的embedding

2.2 Embedding Propagation Layers

我们先说明单层传播的设计，然后将其推广到多个连续层

2.2.1 First-order Propagation

直观上，与用户交互过的项目可以体现用户的偏好，类似的，与项交互过的用户也可以看作是项的特性，并且可以用于度量两个项目之间的协作相似性。我们以此为基础在连接的用户和项目之间执行embedding propogation，并通过两个主要操作来制定流程：消息构建和消息聚合。

Message Construction

对于一个user-item的连接 $p a i r (u, i)$ ，我们定义从 $i$ 到 $u$ 的消息为：
$mu←i=f(ei,eu,pui)(2)\mathbf{m}_{u \leftarrow i}=f\left(\mathbf{e}_{i}, \mathbf{e}_{u}, p_{u i}\right) \tag{2}$
其中，是 $p_{ui}$ 是控制在边 $(u, i)$ 上每次传播的衰减因子， $f(⋅)f(\cdot)$ 是message encoding函数，在这里定义为：
$mu←i=1∣Nu∣∣Ni∣(W1ei+W2(ei⊙eu))(3)\mathbf{m}_{u \leftarrow i}=\frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|\left|\mathcal{N}_{i}\right|}}\left(\mathbf{W}_{1} \mathbf{e}_{i}+\mathbf{W}_{2}\left(\mathbf{e}_{i} \odot \mathbf{e}_{u}\right)\right) \tag{3}$

1(W1ei+W2(ei⊙eu))(3)

W1,W2∈Rd′×dW_1,W_2\in \mathbb{R}^{d '\times d}

是可训练权矩阵，以提取有用的信息进行传播，

d^{'}

是转换的大小（transformation size）。不同于GCN只考虑 $e_i$ ，这里还考虑 $ei⊙eue_i\odot e_u$ ，这使得消息依赖于二者之间的亲和力（如传递更多来自相似项的消息）

仿照GCN，把 $p_{ui}$ 设为 $1∣Nu∣∣Ni∣\frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|\left|\mathcal{N}_{i}\right|}}$

1，

Nu\mathcal{N}_{u}

和

Ni\mathcal{N}_{i}

表示

u

和

i

的第一跳邻居（ first-hop neighbors）。所以从表征学习的角度看，

p_{ui}

反映了历史item对用户偏好的贡献；从消息传播角度看，可以看作折扣因子，因为所传播的消息应该随路径长度而衰减

Message Aggregation

聚合 $u$ 邻居传播的消息来改进 $u$ 的表示：
$eu(1)=LeakyReLU⁡(mu←u+∑i∈Numu←i)(4)\mathbf{e}_{u}^{(1)}=\operatorname{LeakyReLU}\left(\mathbf{m}_{u \leftarrow u}+\sum_{i \in \mathcal{N}_{u}} \mathbf{m}_{u \leftarrow i}\right) \tag{4}$
其中， $eu(1)\mathbf{e}_{u}^{(1)}$ 表示在第一嵌入传播层之后用户 $u$ 的表示，激活函数使用LeakyReLU（适合对positive和small negative 信号的编码）。除了对邻居 $Nu\mathcal{N}_{u}$ 的聚合，为保留原始的特征，还考虑自身的连接： $mu←u=W1eu\mathbf{m}_{u \leftarrow u}=\mathbf{W}_{1} \mathbf{e}_{u}$ ，

对于 $ei(1)\mathbf{e}_{i}^{(1)}$ ，使用了同样的方式进行聚合。

2.2.2 High-order Propagation

将多个Embedding Propagation Layers进行堆叠，就可以得到high order connectivity信息了。结合图2理解，堆叠 $l$ 层时，从 $l$ -top邻居获得信息，公式与第1层类似：
$eu(l)=LeakyReLU⁡(mu←u(l)+∑i∈Numu←i(l))(5)\mathbf{e}_{u}^{(l)}=\operatorname{LeakyReLU}\left(\mathbf{m}_{u \leftarrow u}^{(l)}+\sum_{i \in \mathcal{N}_{u}} \mathbf{m}_{u \leftarrow i}^{(l)}\right) \tag{5}$

${mu←i(l)=pui(W1(l)ei(l−1)+W2(l)(ei(l−1)⊙eu(l−1)))mu←u(l)=W1(l)eu(l−1)(6)\left\{\begin{array}{l} \mathbf{m}_{u \leftarrow i}^{(l)}=p_{u i}\left(\mathbf{W}_{1}^{(l)} \mathbf{e}_{i}^{(l-1)}+\mathbf{W}_{2}^{(l)}\left(\mathbf{e}_{i}^{(l-1)} \odot \mathbf{e}_{u}^{(l-1)}\right)\right) \\ \mathbf{m}_{u \leftarrow u}^{(l)}=\mathbf{W}_{1}^{(l)} \mathbf{e}_{u}^{(l-1)} \end{array}\right. \tag{6}$

其中， $W1(l),W2(l)∈Rdl×dl−1\mathbf{W}_{1}^{(l)}, \mathbf{W}_{2}^{(l)} \in \mathbb{R}^{d_{l} \times d_{l-1}}$

这里的层数L是固定的，所以不会出现连续两层 $u$ 无法训练的情况
每一层的 $W$ 都会不一样
$p_{ui}$ 每一层一样吗？好像是都按照1-top计算的来的?

如图3所示，协作的信号像如 $u1←i2←u2←i4u_{1} \leftarrow i_{2} \leftarrow u_{2} \leftarrow i_{4}$ 在嵌入传播的过程中就被捕获了， 多个嵌入传播层的叠加将协作信号无缝地注入到表示学习过程中

2.2.3 矩阵形式的传播

为了便于进行批量batch训练，写成分层传播规则的矩阵运算形式。如果不用矩阵进行运算，在训练过程中很难进行这么复杂的交互运算。
$E(l)=LeakyReLU⁡((L+I)E(l−1)W1(l)+LE(l−1)⊙E(l−1)W2(l))\mathrm{E}^{(l)}=\operatorname{LeakyReLU}\left((\mathcal{L}+\mathrm{I}) \mathrm{E}^{(l-1)} \mathrm{W}_{1}^{(l)}+\mathcal{L} \mathrm{E}^{(l-1)} \odot \mathrm{E}^{(l-1)} \mathrm{W}_{2}^{(l)}\right)$
其中， $L\mathcal{L}$ 是user-item图上的拉普拉斯矩阵：
$A=[0RR⊤0]\mathcal{L}=\mathrm{D}^{-\frac{1}{2}} \mathrm{AD}^{-\frac{1}{2}} \text { and } \mathrm{A}=\left[\begin{array}{cc} 0 & \mathrm{R} \\ \mathrm{R}^{\top} & 0 \end{array}\right]$

$\in \mathbb{R}^{N \times M}$ 是用户商品的交互矩阵，度矩阵中 $Dtt=NuD_{tt}=\mathcal{N}_{u}$ ，这样的话， $Lui=1∣Nu∣∣Ni∣\mathcal{L}_{ui}=\frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|\left|\mathcal{N}_{i}\right|}}$

1相当于前面的系数

p_{ui}

。

2.3 模型预测

经过 $L$ 层传播，把每一层的表示连接起来，作为最终的表示：
$eu∗=eu(0)∥⋯∥eu(L),ei∗=ei(0)∥⋯∥ei(L)(9)\mathbf{e}_{u}^{*}=\mathbf{e}_{u}^{(0)}\|\cdots\| \mathbf{e}_{u}^{(L)}, \quad \mathbf{e}_{i}^{*}=\mathbf{e}_{i}^{(0)}\|\cdots\| \mathbf{e}_{i}^{(L)} \tag{9}$
这样不仅可以用嵌入传播层来丰富初始嵌入，还可以通过调节L来控制传播范围。

使用连接的优点在于它的简单性，因为它不需要学习额外的参数。除了连接之外，在组合不同阶数的连通性时，还可用其他聚合器，如加权平均、最大池化、LSTM等。

最后，用内积来估计用户对目标物品的偏好
$y^NGCF(u,i)=eu∗⊤ei∗(10)\hat{y}_{\mathrm{NGCF}}(u, i)=\mathbf{e}_{u}^{* \top} \mathbf{e}_{i}^{*} \tag{10}$
在此工作中，我们强调嵌入函数的学习，因此只使用简单的内积交互函数。其他更复杂的选择有待于在未来的工作中探索。