[CIKM 2019]Balance in Signed Bipartite Networks

总结

平衡理论延申至蝴蝶结构中，利用监督学习、矩阵分解、随机游走三类方式实现边预测

蝴蝶结构

毛毛虫结构即蝴蝶结构少一个连接。

无向符号图中的边预测的三种方法

监督学习模型，即某种方式生成边特征后监督学习拟合
低秩逼近，即矩阵分解。文中的方式是将邻接矩阵拆成两种类型顶点的特征向量矩阵。思路实际上和监督学习相同。
传播法，即随机游走采样，根据平衡理论预测边。

Logistic回归

一种是根据两点的度给边加特征，一种是根据两点存在于8种符号毛毛虫中的情况给边加特征。有边特征后训练分类器回归即可。

由于是监督学习，训练集应该是选择存在边的点对，拆掉他们的边之后统计八种毛毛虫的情况，得到特征后去预测正负边。而八种毛毛虫则是少了目标点对之间边的三条边的正负边排列组合，共\(2^3\)种。

矩阵分解模型

已存在符号边的邻接矩阵\(B\)。不考虑平衡理论的情况下：

\(\underset{U,V}{min} \sum_{(b_i,s_j)\in \mathcal{E}}max(0,1-B_{ij}(u_i^{\top}v_j))^2+ \lambda (|U|^2_F + |V|^2_F)\)

为了考虑平衡理论，需要构建符合平衡理论的蝴蝶结构。方式是依靠遍历三跳符号边获得彼此间的关系。对前k个加边后补充loss。

\(\hat{S}_{ij}=\left\{ \begin{aligned} & [BB^{\top}B]& if\ B_{ij}=0\\ &0 & otherwise \end{aligned} \right.\)

\(\hat{\mathcal{E}}_i^+=\{(b_i,s_j)|\hat{S}_{ij}>0 \ and \ \hat{S}_{ij} \in top_k(\hat{S})\}\)

\(\begin{aligned} & \underset{U,V}{min} \sum_{(b_i,s_j)\in \mathcal{E}}max(0,1-B_{ij}(u_i^{\top}v_j))^2+ \lambda (|U|^2_F + |V|^2_F)\\ &+\alpha \sum_{(b_i,s_j)\in \mathcal{E}_i^+}max(0,1-\hat{S}_{ij}(u_i^{\top}v_j))^2\\ &+\beta\sum_{(b_i,s_j)\in \mathcal{E}_i^-}max(0,1-\hat{S}_{ij}(u_i^{\top}v_j))^2 \end{aligned}\)

随机游走模型

\(P_{B_{ij}}=\left\{ \begin{aligned} &0&\delta_n < ns^A_{ij} - ns^D_{ij} < \delta_p & \\ & ns^A_{ij}-ns^D_{ij} & otherwise &\\ \end{aligned} \right.\)

依靠相同连接方式的邻居数量获得同类型点之间的边权重。权重过小的边会被忽略。

对P和B归一化后得到新的邻接矩阵。该邻接矩阵同样需要行归一化：

\(A=\left[ \begin{aligned} &\hat{P}_B & \omega \hat{B}\\ & \omega \hat{B}^T &\hat{P}_S\\ \end{aligned} \right]\)\(\hat{A}_{ij} = A_{ij}/\sum_k |A_{ik}|\)

需要说明的是，当P=I，w=1，则该算法会退化为lazy随机游走，即每个点一定概率停留原地，一定概率跳到邻居顶点。

拥有邻接矩阵后，只需要一个存储上一步符号的变量和当前的符号相乘，便可得到下一步的符号：

\(Y_{ij}=\sum_k \hat{A}_{ik}Y_{kj}\)

该公式原理即为两符号相乘的结果恰好为平衡所需的第三个符号。ij之间的共同邻居都进行判断后累加便是ij之间趋向的关系。多次迭代直至收敛就可以得到最终的预测结果。

由于是随机游走，因此需要增加一个重启概率，让游走可以原地踏步。(此处需要重启的理由不理解，可能是考虑只游走，迭代后各边权重会被稀释得很小，增加重启可缓解)

实际上该公式可列为：

\(Y^l = c\hat{A} Y^{l-1} + (1-c)I\)

收敛后倒数第二层和最后一层Y可视作相等，因此：

\(Y^L = c\hat{A} Y^{L} + (1-c)I\)

\((I - c\hat{A})Y^L = (1-c)I\)

\(Y^L = (1-c)(I-c\hat{A})^{-1}\)

最后的结果为大于零则预测为正，小于零则为负，等于零则根据正负边分布按比例猜一个。

数据集

四列依次是每种蝴蝶结构的数量、比例、随机赋予每条边不同符号后的比例，最后一个s表示的是随机赋予符号后该蝴蝶结构的占比和实际占比之间的标准差。数字越大说明真实情况比期望的要越多。

实验

senate数据集上的结果

MFwBT的两个超参可以说明加入平衡理论的loss确实可以很大程度提高实验结果，且在总权重与原始loss为10：7时最好。

此处可能存在作画错误。当超参为0时实验结果应该和MF相同，图上比MF高了。

(AUC,F1)

前两个分别是回归模型中使用点的度做边特征和使用点的毛毛虫分布情况做边特征的情况。

三四两组是不考虑平衡结构的矩阵分解模型和考虑了的。

最后两组是lazy随机游走和加了单模投影的随机游走。

实验结果可以看到符号分布平衡的后两者，sbrw比较准确，而第一个数据集反而是比较naive的模型效果较好。

值得借鉴的地方

蝴蝶结构的提出者
文中对符号预测进行了总结，大致可分为三种类型，并从这三种类型出发设计了三套算法。

弊端

监督学习在标签量少的情况下效果会大打折扣
低秩逼近和随机游走都需要提前知道所有点，一旦测试时需要预测第一次见到的点便会失效
低秩逼近和随机游走都很吃资源，图一大就可能无法运行

原文

https://dl.acm.org/doi/abs/10.1145/3357384.3358009