2020 ICDM | AANE: Anomaly Aware Network Embedding For Anomalous Link Detection

Paper Link: https://ieeexplore.ieee.org/document/9338406

1 Basic Knowledge

1.1 Graph Convolution Network

图结构实际上是图论中抽象意义的拓扑图，GCN的本质就是要提取拓扑图的空间特征。

1.1.1 Implementation of Two Ways

1. vertex domain(spatial domain)——点域（空间域）

目的：把每个顶点相邻的neighbors找出来核心问题：
①按照什么条件去找中心vertex的neighbors，即如何确定receptive field。
②确定receptive field之后，按照什么方式处理不同数目的neghbors的特征。
*参考文章：
Learning Convolutional Neural Networks for Graphs

2.spectral domain——谱域
① 什么是Spectral graph theory？
可以概括为：借助于图的拉普拉斯矩阵的特征值和特征向量来研究图的性质
*参考文章：
Spectral graph theory
小杰：谱图理论(spectral graph theory)

②什么是拉普拉斯矩阵？为什么GCN要用拉普拉斯矩阵？
Graph Fourier Transformation及Graph Convolution的定义都用到图的拉普拉斯矩阵，下面详细说明拉普拉斯矩阵的计算。
对于图 $G = (V, E)$ ，其拉普拉斯矩阵（Laplacian）可以定义为 $L = D - A$ 。其中** $L$ 是拉普拉斯矩阵**， $D$ 是node的度矩阵（对角矩阵），对角线上的元素为每个node的度， $A$ 是图的邻接矩阵。
③实际上，拉普拉斯矩阵有三种：

$L = D - A$ , 称为组合拉普拉斯算子（Combinatorial Laplacian）。
$L=D^{-1/2}LD^{-1/2}$ , 称为对称规范拉普拉斯算子（Symmetric Normalized Laplacian），很多GCN使用的就是这种。
$L=D^{-1}L$ , 称为随机游走规范拉普拉斯算子（Random Walk Normalized Laplacian）

1.1.2 Formula for Graph Convolution

任何一个图卷积层都可以写成这样一个非线性函数：
$H^{l+1}=f(H^l,A)$
通常令 $H_0=X$ 为第一层的输入，图中的所有节点表示为 $X∈RN×DX\in R^{N\times D}$ 。其中， $N$ 为图的节点个数, $D$ 为每个节点特征向量的维度， $A$ 为邻接矩阵，不同模型的差异点在于函数** $f$ 的实现不同**。

具体的图卷积的公式可能有以下三种：
1. $Hl+1=σ(AHlWl)H^{l+1}=\sigma(AH^lW^l)$
其中 $W^l$ 为第 $l$ 层的权重参数矩阵， $σ(⋅)\sigma(\cdot)$ 为非线性激活函数，例如ReLU。
$A×HlA\times H^l$ 的本质是将每个Node用其邻居的信息表示， $A×HlA\times H^l$ 的每一行表示节点 $v_i$ 经过GCN layer操作之后的节点表示 ${v_i}'$ 。

例如，下图中的a1表示节点 $v_1$ 的邻居情况（a1=[01100]），然后h1表示所有节点的第1维上的特征（h1=[3,4,5,6,7]），则z1=a1h1=03+14+15+06+07=4+5=9。

2. $Hl+1=σ(LHlWl)H^{l+1}=\sigma(LH^lW^l)$
这里的 $L = D - A$ , 称为组合拉普拉斯算子（Combinatorial Laplacian）。
3. $Hl+1=σ(D−12A^D−12HlWl)H^{l+1}=\sigma(D^{-\frac 1 2}\hat A D^{-\frac 1 2}H^lW^l)$
这里的 $L=D^{-1/2}LD^{-1/2}$ , 称为对称规范拉普拉斯算子（Symmetric Normalized Laplacian）。

2 Motivation

问题的背景是什么？

作者为什么提出这个问题？

这个问题合理吗？

该文的大背景是网络嵌入（Network Embedding），大多数网络嵌入都致力于解决的是异常节点的检测，很少有对边的异常进行检测的。关于为什么要考虑边的异常。
例如，为了隐藏异常行为，一个可疑的金融账户可能会进行许多正常交易，但只有少数异常交易，这表明区分特定节点的异常链接和正常链接在实际应用中非常重要。（其实没太看懂这个例子）

该文的相关工作包括：网络嵌入（Network Embedding）、在网络上的异常检测和网络异常点生成。

现有的网络嵌入模型将网络中的所有链接视为正常链接，并无差别地对它们进行建模。在真正的网络中，可能会有异常链接，如噪声或对抗链接，如果全部视为正常链接，会使得模型的预测结果不准确。

不同于GAE，该文提出的AANE(Anomaly Aware Network Embedding)的损失函数是创新点。

在评估过程，该文提出了一个启发式异常链接生成算法，我们将异常链接生成到6个真实世界的网络数据集中。实验结果表明，在大多数情况下，AANE 在异常链接检测性能方面优于基线和有竞争力的网络嵌入模型（4个）。

本文贡献：

提出ANNE用于检测异常链接，通过明确考虑异常链接的存在将异常检测和网络嵌入集成到一个框架中，并设计了新的损失函数。
处于评估的目的，提出了一个新的异常链接的生成算法。
在6个真实世界的数据集上表现出强大的竞争力。

3 Traditional Method

已有方法是如何解决这个问题的？

相关工作发表在哪里？

传统方法有什么缺点或局限性

3.1 Network Embedding

3.2 Anomaly Detection on Network

表示学习给异常检测带来了增益，如Dominant, SpecAE, Radar 和 GraphUCB。

3.3 Anomaly Generation

异常点生成[24],[12],[7]

4 Main Idea

本文是如何解决这个问题的？

提出了新概念还是设计了新方法？

该文使用的是结构化的无向图网络，考虑的是特定节点的异常链路，而非全局的异常链路。异常链路的直观定义为，其预测的存在概率显著偏离大多数相邻链路。（注：邻居意味着本身在矩阵 $A_{u,v}$ 中是1，即实际有边）

4.1 Preliminary

给定一个图，可以通过GAE或GCN的方式生成图嵌入的节点表示。我们定义图为 $G = (V, E)$ ，邻接矩阵为** $A_{u,v}$ **，节点 $u∈Vu\in V$ 的嵌入表示为 $z_u$ （通常为GCN最后一层的输出）。

预测的节点 $u$ 和 $v$ 的连接概率可以表示为：
$P_{u,v}=Sigmoid(z_u^Tz_v)$
其中，P可以被视为预测的“邻接矩阵”，因此可以定义拟合误差fitting loss（即实际的邻接矩阵要尽可能和预测的邻接矩阵相似）：
$Jfit=∑u=1N∑v=1N(Au,v−Pu,v)2J_{fit}=\sqrt{\sum_{u=1}^N \sum_{v=1}^N (A_{u,v}-P_{u,v})^2}$

4.2 Model Loss

4.2.1 Framework

1. Anomaly Indicator

$I_{u,v}$ 表示节点** $u$ **和 $v$ 之间的链接是否为异常链接，若为异常链接 $I_{u,v}=1$ ，若为正常链接 $I_{u,v}=0$ 。

在预测矩阵 $P_{u,v}$ 中，如果这条链接小于它的邻居的平均阈值，则被视为异常链接。这个是什么意思呢？首先我们要get到，这里图中的链接都是实际存在的，那为什么预测矩阵 $P_{u,v}$ 中认为u1–v4,u1–v5为异常呢？因为通过模型学出来可能根据u1的邻居特征，这两条链接不应该存在。比如：在实际的欺诈中，这两个人本不应该有联系，但是产生了联系，说明这个边很可能是个欺诈行为。

2. Adjusted Adjacency Matrix

可以发现图中还有一个叫做调整后的邻接矩阵B，那这个矩阵是怎么得到的呢？实际上是通过下面两个式子得到的。

第一个式子：
可以将 $MEANv′∈VuPu,v′−μSTDv′∈NuPu,v′\mathop{MEAN}\limits_{v'\in V_u}P_{u,v'}-\mu\mathop{STD}\limits_{v'\in N_u}P_{u,v'}$ 视为一个阈值，可以发现，当uv为异常链接时，前面的值为正，则会取得一个异常偏差值（即异常的程度）；当uv为正常链接的时候，前面的值为负，则 $S (uv) = 0$ 。

第二个式子：
由于 $⊙\odot$ 表示元素的广义相乘，其实可以发现B就是考虑了异常偏差的一个邻接矩阵。

4.2.2 Loss Design

1. Removal loss

实质上是为了防止训练模型的时候，模型中的噪声对模型的影响。

当uv链接为正常链接的时候， $J_{rm}^I(u)$ 是为0的；只有当uv为异常链接（ $I_{u,v}=1$ ）时候 $J_{rm}^I(u)$ 才等于 $∑v∈NuPu,v2\sum_{v\in N_u}P_{u,v}^2$ （实质上是 $Jfit=∑u=1N∑v=1N(Au,v−Pu,v)2J_{fit}=\sqrt{\sum_{u=1}^N \sum_{v=1}^N (A_{u,v}-P_{u,v})^2}$

中

A_{u,v}

为0的时候）。什么意思呢？实际上这个损失算的是，当我们把训练集中得出的异常边视为不存在的时候带来的重构损失，要让这个损失越小越好，也就是噪声对模型的影响越小越好。

2. Deviation loss

实质上是让正常的边的重构误差小，即预测矩阵 $P_{u,v}$ 和 $A_{u,v}$ 尽可能像。

可以发现，当uv为异常链接时， $J_{dev}^I(u)$ 为0；只有当uv为正常链接（ $I_{u,v}=0$ ）时， $J_{dev}^I(u)$ 为 $∑v∈Nu(1−Pu,v2)\sum_{v\in N_u}(1-P_{u,v}^2)$ ，也就是 $Jfit=∑u=1N∑v=1N(Au,v−Pu,v)2J_{fit}=\sqrt{\sum_{u=1}^N \sum_{v=1}^N (A_{u,v}-P_{u,v})^2}$

中

A_{u,v}

为1的时候。表示存在的正常链接要尽可能相似，即重构误差尽可能小。

3. Anomaly aware loss

考虑所有点的removal loss和deviation loss之和：

4. Adjusted fitting loss

$Jafl=∑u=1N∑v=1N(Bu,v−Pu,v)2J_{afl}=\sqrt{\sum_{u=1}^N \sum_{v=1}^N (B_{u,v}-P_{u,v})^2}$

5. Total loss

$J=Jafl+γJaalJ=J_{afl}+\gamma J_{aal}$
实质上可以发现，total loss的主要部分和原来的fitting loss很像，只不过把邻接矩阵换成了考虑了异常偏差的，然后文中设置的其他loss作为附加loss用**平衡参数 $γ\gamma$ **来调节。

4.3 Anomalous Link Generation

之前的paper[12]生成链接的方法是，随机选择一些nodes，然后使这些nodes的全连接作为异常链接。该文认为这样是不合理的，因为这样的链接看起来并不异常。

该文的方法：
随机选择source nodes集合，然后计算这些source nodes与其他nodes的距离，然后用降序（DES）排序。根据异常率来生成每个结点的异常链接，最后从source nodes集合出发生成的边链接到的点就作为target nodes集合。

条件（condition）：

target node不能是source node
target node不能是原始图的邻居
target node的个数不能超过设定的异常率（anomaly_ratio）

5 Metrics

如何进行客观的衡量？

优化目标是什么？

Average Precision (AP)

$AP=(1/R)∑r=1R(r/pos(r))AP=(1/R)\sum_{r=1}^R(r/pos(r))$ ，其中 $p os (r)$ 是排序后第r个预测为异常的链接。

Mean Average Precision (MAP)

考虑所有点的平均情况

ROC-AUC (AUC)

6 Experiment

本文是怎样做实验的？

实验环境是真实的还是仿真的？

数据是真实的还是模拟的？

实验中测试了哪些评价指标？

实验结果是什么，是否合理？

6.1 Datasets

6.2 Baselines

GAE[11]: The simplest Graph auto-encoder, in which encoder is simply modeled as node embedding lookup table.
GCNAE: The graph convolution based GAE model, in which encoder is modeled as one-layer graph convolution.
GraphSAGE[6]: One of the most popular graph neural networks based on neighborhood sampling and information aggregation.
GAT[4]: Attention mechanism based graph neural network.
AAGAE: AANE built upon GAE model.
AAGCN: AANE built upon GCNAE model.

6.2 Results

参数敏感性
实验结果：