Neural Graph Collaborative Filtering【阅读笔记】

文章目录

1.文章为了解决什么问题？
2.文章提出了什么方法？
3.模型架构以及原理？
4.改进的效果如何以及比较的对象?
5. future work
参考链接

Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, and Tat-Seng Chua. 2019.
Neural Graph Collaborative Filtering. In SIGIR. 165–174.
这篇文章是何向南团队在2019发表在SIGIR上的，将神经网络融入到推荐系统里面。

1.文章为了解决什么问题？

学习向量表示（embeddings），用户和项目的嵌入是现代推荐系统的核心。从最初的矩阵分解到最近出现的基于深度学习的方法，都是从先前存在的特征来表示用户（物品）的嵌入。这些方法的一个固有缺点是协同信号（collaborative signal），它在用户和物品的交互中是隐藏的，在嵌入过程中没有被编码。这样，最后的嵌入可能不足够获取协同过滤效果。

$u_1$ 可能对 $i_4$ 更感兴趣，相比于 $i_5$ ，因为到 $i_4$ 的路径有两条。

2.文章提出了什么方法？

把用户-物品交互作用整合进嵌入过程中。提出了一种新的推荐框架Neural Graph Collaborative Filtering(NGCF)，它利用用户-物品的图结构来传播嵌入。这使得在用户项图中建立高阶连通性（high-order connectivity）的表达模型，有效地将协同信号以显式的方式注入到嵌入过程中。即采用GNN的Aggregate方法来处理传统CF中无法学习到collaborative signal的问题。

3.模型架构以及原理？

模型由三部分组成：

嵌入层提供用户和物品的嵌入
多个嵌入传播层通过高阶连通性改善嵌入表示
预测层聚合精炼后从不同的层传来的embeddings，最后给出得分
模型结构如下：

Embedding Layer

将每一个user和item编码为vector: $eu∈Rd(ei∈Rd)e_u \in \mathbb{R}^d(e_i\in\mathbb{R}^d)$ ， $d$ 是embedding size。这里可以看成构建一个Embedding Look-up Table：
$E=[eu1,⋯,euN⏟usersembeddings,ei1,⋯,eiM⏟itemembeddings].(1)\mathbf{E}=[\underbrace{e_{u_1}, \cdots, e_{u_N}}_{users\; embeddings},\underbrace{e_{i_1},\cdots,e_{i_M}}_{item\;embeddings}]. \tag{1}$

eu1,⋯,euN,itemembeddings

ei1,⋯,eiM].(1)

Embedding propagation Layer

First-Order Propagation
传播有两个部分组成：消息构建和信息聚合(message construction and message aggregation)
消息构建：对于一个相连的user-item对 $(u, i)$ 来说，定义一条从 $i→ui\rightarrow u$ 的message如下：
$mu←i=f(ei,eu,pui),(2)\mathbf{m}_{u\leftarrow i}=f(\mathbf{e}_i, \mathbf{e}_u,p_{ui}), \tag{2}$
这里 $mu←i\mathbf{m}_{u\leftarrow i}$ 为消息嵌入即将要被传播的消息， $f(⋅)f(\cdot)$ 为encoding function， $p_{ui}$ 为权重系数，防止数值过大。本文中 $f(⋅)f(\cdot)$ 实现为：
$mu←i=1∣Nu∣∣Ni∣(W1ei+W2(ei⊙eu)),(3)m_{u\leftarrow i}=\frac{1}{\sqrt{\vert{\mathcal{N}_u}\vert|\mathcal{N}_i|}}\left( \mathbf{W}_1 e_i + \mathbf{W}_2(e_i \odot e_u) \right),\tag{3}$
这里 $W1,W2∈Rd′×dW_1,W_2\in \mathbb{R}^{d'\times d}$ 是可训练权重矩阵，用来在传播中提取有用的信息， $d^{'}$ 是转换大小。参考GCN，将 $p_{ui}$ 设置为 $1∣Nu∣∣Ni∣\frac{1}{\sqrt{|N_u||N_i|}}$ 。从表示学习的角度来看， $p_{ui}$ 表示历史物品对用户喜好贡献的大小。从消息传递的角度来看， $p_{ui}$ 表示消息随着消息传递路径的衰减程度。这样的结构既能够保证学习到 $e_i$ 单独的contribution，同时也考虑到了user-item 之间的交互。
消息聚合：Aggregation的作用就是对单个user或item而言，利用message construction对与他们相关的item/user进行propagation，然后结合自身的表征，在做一些适当的变换来达到学习新的representation的目的。对于 $u$ ，定义聚合函数如下：
$eu(1)=LeakReLU(mu←u+∑i∈Numu←i),(4)e_u^{(1)}=\mathrm{LeakReLU}\left( \mathbf{m}_{u\leftarrow u} + \sum_{i\in \mathcal{N_u}} \mathbf{m}_{u\leftarrow i}\right), \tag{4}$
这里 $mu←u=W1eum_{u\leftarrow u}=W_1e_u$ 即只编码本身的信息。这里使用LeakyReLU的原因是这样可以保证message可以同时encode正数和较小的负数。
High-order Propagation
如果堆叠 $l$ 层嵌入传播层，user/item能够得到 $l$ 阶邻居的信息，在第 $l$ 层，用户 $u$ 的表示为：
$eu(l)=LeakyReLU(mu←u(l)+∑i∈Numu←i(l)),(5)e_u^{(l)}=\mathrm{LeakyReLU}\left( \mathbf{m}_{u \leftarrow u}^{(l)} + \sum_{i\in\mathcal{N_u} } \mathbf{m}_{u \leftarrow i}^{(l)}\right), \tag{5}$
同样的，message construction定义如下：
${mu←i(l)=pui(W1(l)ei(l−1)+W2(l)(ei(l−1)⊙eu(l−1))),mu←u(l)=W1(l)eu(l−1),(6)\begin{cases} \mathbf{m}_{u \leftarrow i}^{(l)}=p_{ui}\left( \mathbf{W}_1^{(l)}e_i^{(l-1)}+\mathbf{W}_2^{(l)}(e_i^{(l-1)}\odot e_u^{(l-1)}) \right),\\ \mathbf{m}_{u \leftarrow u}^{(l)} = \mathbf{W}_1^{(l)}e_u^{(l-1)}, \end{cases} \tag{6}$
这里， $W1(l),W2(l)∈Rdl×dl−1W_1^{(l)},W_2^{(l)}\in \mathbb{R}^{d_l\times d_{l-1}}$ 。

矩阵形式的传播规则

由于训练是批处理，为了提升训练效率，矩阵形式的Prapagation是高效的：
$E(l)=LeakyReLU((L+I)E(l−1)W1(l)+LE(l−1)⊙E(l−1)W2(l)),(7)E^{(l)}=\mathrm{LeakyReLU}\left( (\mathcal{L}+\mathbf{I})\mathbf{E}^{(l-1)}\mathbf{W}_1^{(l)}+ \mathcal{L} \mathbf{E}^{(l-1)} \odot \mathbf{E}^{(l-1)}\mathbf{W}_2^{(l)}\right), \tag{7}$
这里， $E(l)∈R(N+M)×dlE^{(l)}\in \mathbb{R}^{(N+M)\times d_l}$ 是 $l$ 层嵌入传播层之后的用户、物品的表示结果， $E^{(0)}=E$ ， $L\mathcal{L}$ 表示用户-物品图的拉普拉斯矩阵：
$L=D−12AD−12andA=[0RRT0],(8)\mathcal{L}=\mathbf{D}^{-\frac{1}{2}}\mathbf{A}\mathbf{D}^{-\frac{1}{2}} \mathrm{and} \mathbf{A} = \begin{bmatrix} 0 & \mathbf{R} \\ \mathbf{R}^T & 0 \end{bmatrix}, \tag{8}$
这里， $R∈RN×M\mathbf{R}\in \mathbb{R}^{N\times M}$ 为用户物品交互矩阵，D为对角度矩阵且 $Dtt=∣Nt∣D_{tt}=|\mathcal{N}_t|$ ，根据拉普拉斯矩阵的性质 $Lui=1/∣Nu∣∣Ni∣\mathcal{L}_{ui}=1/\sqrt{|N_u||N_i|}$

，它等于等式(3)里面的

p_{ui}

。

模型预测和优化

对于prediction的部分，作者将各层layer对于user/item的representation vector concate到了一起，这里也可以使用一些其他方法，如：池化、LSTM、Attention等等。
$eu∗=eu(0)∥⋯∥eu(L),ei∗=ei(0)∥⋯∥ei(L),(9)e_u^*=e_u^{(0)}\Vert \cdots \Vert e_u^{(L)}, \quad e_i^*=e_i^{(0)}\Vert \cdots \Vert e_i^{(L)}, \tag{9}$
这里 $∣ ∣$ 表示连接运算，然后将user和item的vector直接做内积得到最终的预测值：
$y^NGCF(u,i)=eu∗Tei∗(10)\widehat{y}_{\mathrm{NGCF}}(u,i)={e_u^*}^\mathrm{{T}}e_i^* \tag{10}$
模型优化器部分，loss函数选择pairwise BPR loss：
$Loss=∑(u,i,j)∈O−ln⁡σ(y^ui−y^uj)+λ∥Θ∥22,(11)Loss = \sum_{(u,i,j)\in O}-\ln \sigma\left( \widehat{y}_{ui}- \widehat{y}_{uj} \right) + \lambda \Vert\Theta\Vert_2^2, \tag{11}$
这里 $O={(u,i,j)∣(u,i)∈R+,(u,j)∈R−}O=\{ (u,i,j)|(u,i)\in\mathcal{R}^+, (u,j)\in \mathcal{R}^- \}$ 表示the pairwise
training data， $R+\mathcal{R}^+$ 表示观测到了交互， $R−\mathcal{R}^-$ 表示没有观测到交互， $σ(⋅)\sigma(\cdot)$ 表示sigmoid函数， $Θ={E,{W1(l),W2(l)}l=1L}\Theta=\{ \mathbf{E}, \{W_1^{(l)}, W_2^{(l)} \}_{l=1}^L \}$ 表示所有的训练参数， $λ\lambda$ 控制L2正则化力度防止过拟合。

Dropout in NGCF

文中采用了两个Dropout：message dropout和node dropout

message droupout: 对于每一层的输出，在activate之前以 $p_1$ 的概率丢失节点
node dropout: 每一层传播结束后，以 $p_2$ 概率丢失Laplacian矩阵中的交互关系，丢失 $N+M)*p_2$ 个节点。

4.改进的效果如何以及比较的对象?

Baseline: MF、NeuMF、CMN、HOP-Rec、PinSage、GC-MC
Metrics: recall@K 和ndcg@K 来评估top-K推荐效果，默认 $K = 20$ 。

5. future work

在未来，希望把attention机制加入来学习邻居的不同重要程度，这将提高模型的泛化能力和可解释性。

参考链接

NGCF参考博客：https://blog.csdn.net/weixin_44884854/article/details/109007813
NGCF知乎： https://zhuanlan.zhihu.com/p/131274333
原文地址：https://arxiv.org/pdf/1905.08108v2.pdf