【GCN-RS-Defence】GCN-Based User Representation Learning for Unifying Robust Recommendation and Frauds

GCN-Based User Representation Learning for Unifying Robust Recommendation and Fraudster Detection (SIGIR’20)

造了一个模型可以同时实现鲁棒推荐系统和欺诈检测。评分预测用GCN，欺诈检测用NRF，把两个模块塞进一个模型中，两个模块也互相扶助。

模型输入

模型输入除了U-I二部图以外还有用户行为数据的统计特征 $xu∈Rb\mathrm{x}_{u} \in \mathbb{R}^{b}$ ：

模型初始化时item的embedding是随机初始化的，user的embedding就用这些统计特征初始化。

GCN评分预测模块

和常见的GCN大同小异。以得到user $u$ 的表征 $z_u$ 为例，item $v$ 传递的消息：
$hv=g(zv⊕eruv)\mathbf{h}_{v}=g\left(\mathbf{z}_{v} \oplus \mathbf{e}_{r_{u v}}\right)$
$zv\mathbf{z}_{v}$ 是item $v$ 的表征，1~5分的评分 $r$ 不用数字，而是引入一个边embedding $er∈Re\mathrm{e}_{r} \in \mathbb{R}^{e}$ ，拼接起来输入到 $l$ 层的MLP，输出就是传递的消息。

消息聚合得到的新表征：
$=σ(W⋅Agg⁡({hk,∀k∈I(u)})+b)\mathrm{z}_{u}^{\text {new }}=\sigma\left(\mathbf{W} \cdot \operatorname{Agg}\left(\left\{\mathbf{h}_{k}, \forall k \in I(u)\right\}\right)+\mathbf{b}\right)$
$σ\sigma$ 是ReLU激活函数， $I(u)=N(u)∪{u}I(u)=\mathcal{N}(u) \cup\{u\}$ 包括u的邻居和u自己。聚合函数 $A g g ()$ ：
$g\left(\left\{\mathbf{h}_{k}, \forall k \in I(u)\right\}\right)=\sum_{k \in I(u)} \alpha_{u k} \mathbf{h}_{k}$
其中 $αuk\alpha_{u k}$ 是一个类似于attention weight的东西，经过两层神经网络，再normalizing一下：
$auk=w2⊤⋅σ(W1⋅[hk⊕zu]+b1)+b2αuk=exp⁡(auk)∑k′∈I(u)exp⁡(auk′)a_{u k}=\mathbf{w}_{2}^{\top} \cdot \sigma\left(\mathbf{W}_{1} \cdot\left[\mathbf{h}_{k} \oplus \mathbf{z}_{u}\right]+\mathbf{b}_{1}\right)+b_{2} \\ \alpha_{u k}=\frac{\exp \left(a_{u k}\right)}{\sum_{k^{\prime} \in I(u)} \exp \left(a_{u k^{\prime}}\right)}$
更新item的表征过程类似。得到user item的新表征后再经过一个 $l$ 层的MLP $g′(⋅)g^{\prime}(\cdot)$ 可以得到回归预测的评分：
$r^uv=wproject ⊤g′(zunew⊕zvnew)\hat{r}_{u v}=\mathbf{w}_{\text {project }}^{\top} g^{\prime}\left(\mathbf{z}_{u}^{\boldsymbol{n} e w} \oplus \mathbf{z}_{v}^{n e w}\right)$

NRF欺诈检测模块

这个模块就是一个分类器，输出user $u$ 是否为恶意用户，输入除了是GCN输出的user表征 $zunew\mathbf{z}_{u}^{n e w}$ 之外，还要加入user评分预测的平均误差error $u$ ：
$error⁡u=1∣N(u)∣∑∀v∈N(u)(∣ruv−r^uv∣2)\operatorname{error} u=\frac{1}{|\mathcal{N}(u)|} \sum_{\forall v \in \mathcal{N}(u)}\left(\left|r_{u v}-\hat{r}_{u v}\right|^{2}\right)$
将 $zunew\mathbf{z}_{u}^{n e w}$ 和 $erroruerror\ u$ 拼接起来，再经过一个全连接层就是NRF的输入 $Zu∗\mathrm{Z}_{u}^{*}$ 了：
$uzu∗=Sigmoid⁡(WZ′zu′+bZ′)\mathbf{z}_{u}^{\prime}=\mathbf{z}_{u}^{\text {new }} \oplus \text { error } u \\ \mathrm{z}_{u}^{*}=\operatorname{Sigmoid}\left(\mathrm{W}_{Z^{\prime}} \mathbf{z}_{u}^{\prime}+\mathbf{b}_{Z^{\prime}}\right)$
NRF有两类节点：prediction nodes和decision nodes。prediction nodes $\in \mathcal{P}_{o}$ 是叶子节点，每个 $p$ 都维护一个概率分布 $πp\pi_{p}$ over the label $\in\{0,1\}$ , $πp=[πp0=P(y=0),πp1=P(y=1)].\pi_{p} = \left[\pi_{p_{0}}=\mathbb{P}(y=0), \pi_{p_{1}}=\mathbb{P}(y=1)\right] .$ decision nodes $\in \mathcal{D}$ 是一个决策模型 $fd(zu∗;Θ):zu∗↦[0,1]f_{d}\left(\mathrm{z}_{u}^{*} ; \Theta\right): \mathrm{z}_{u}^{*} \mapsto[0,1]$ ，判断往左子树走还是右子树走，输出一个标量：
$fd(zu∗;Θ)=Sigmoid⁡(wd⊤zu∗)f_{d}\left(\mathrm{z}_{u}^{*} ; \Theta\right)=\operatorname{Sigmoid}\left(\mathrm{w}_{d}^{\top} \mathrm{z}_{u}^{*}\right)$
最后对于每颗树 $T_0$ ，user $u$ 被分类成标签 $y$ 的概率：
$)\mathbb{P}_{T_{o}}\left[y \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right]=\sum_{p \in \mathcal{P}_{o}} \pi_{p_{y}}\left(\prod_{d \in \mathcal{D}} f_{d}\left(\mathrm{z}_{u}^{*} ; \Theta\right)^{\Gamma_{\text {left }}} \bar{f}_{d}\left(\mathrm{z}_{u}^{*} ; \Theta\right)^{\Gamma_{\text {right }}}\right)$
那么对于整个森林 $T={T1,…,TO}\mathcal{T}=\left\{T_{1}, \ldots, T_{O}\right\}$ ensemble所有的树：
$PT[y∣zu∗,Θ,π]=1O∑o=1OPTo[y∣zu∗,Θ,π]\mathbb{P}_{\mathcal{T}}\left[y \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right]=\frac{1}{O} \sum_{o=1}^{O} \mathbb{P}_{T_{o}}\left[y \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right]$
最终预测 $u$ 的label：
$y^u=argmax⁡yPT[y∣zu∗,Θ,π],y∈{0,1}\hat{y}_{u}=\underset{y}{\operatorname{argmax}} \mathbb{P}_{\mathcal{T}}\left[y \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right], \quad y \in\{0,1\}$

形象理解

纵向看黑色线就是公式里的连乘，横向看就是公式里的连加。其实这个分类器可以看作“极度”dropout的MLP分类器。

模型训练

模型训练时预测和检测模块相辅相成。

训练评分预测模块时，检测模块可以提供一个恶意用户置信度，用来衡量该用户的loss应不应该用来更新参数：
$=1∣E∣∑∀u,v∈EPT[y=0∣zu∗,Θ,π]⋅(ruv′−ruv)2\mathcal{L}_{\text {rating }}=\frac{1}{|\mathcal{E}|} \sum_{\forall u, v \in \mathcal{E}} \mathbb{P}_{T}\left[y=0 \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right] \cdot\left(r_{u v}^{\prime}-r_{u v}\right)^{2}$
训练欺诈检测模块时，预测模块的预测误差会作为检测模块的输入：
$\mathcal{L}_{\text {fraudster }}=\frac{1}{|\mathcal{U}|} \sum_{\forall u \in \mathcal{U}, y_{u} \in \mathcal{Y}}-\log \mathbb{P}_{T}\left[y=y_{u} \mid \mathrm{z}_{u}^{*}, \Theta, \pi\right] \\ \mathcal{L}=\mathcal{L}_{\text {rating }}+\lambda \mathcal{L}_{f \text { raudster }}$

实验设置

数据集尺寸

真实、恶意用户各划分80%、20%的训练、测试集。刚开始模型在干净训练集上训练，以对比RS模型性能。然后逐渐注入20%、40%、60%、80%、100%的恶意数据。