[CIKM 2019]Balance in Signed Bipartite Networks
总结
平衡理论延申至蝴蝶结构中,利用监督学习、矩阵分解、随机游走三类方式实现边预测
蝴蝶结构
毛毛虫结构即蝴蝶结构少一个连接。
无向符号图中的边预测的三种方法
- 监督学习模型,即某种方式生成边特征后监督学习拟合
- 低秩逼近,即矩阵分解。文中的方式是将邻接矩阵拆成两种类型顶点的特征向量矩阵。思路实际上和监督学习相同。
- 传播法,即随机游走采样,根据平衡理论预测边。
Logistic回归
一种是根据两点的度给边加特征,一种是根据两点存在于8种符号毛毛虫中的情况给边加特征。有边特征后训练分类器回归即可。
由于是监督学习,训练集应该是选择存在边的点对,拆掉他们的边之后统计八种毛毛虫的情况,得到特征后去预测正负边。而八种毛毛虫则是少了目标点对之间边的三条边的正负边排列组合,共\(2^3\)种。
矩阵分解模型
已存在符号边的邻接矩阵\(B\)。不考虑平衡理论的情况下:
\(\underset{U,V}{min} \sum_{(b_i,s_j)\in \mathcal{E}}max(0,1-B_{ij}(u_i^{\top}v_j))^2+ \lambda (|U|^2_F + |V|^2_F)\)
为了考虑平衡理论,需要构建符合平衡理论的蝴蝶结构。方式是依靠遍历三跳符号边获得彼此间的关系。对前k个加边后补充loss。
\(\hat{S}_{ij}=\left\{ \begin{aligned} & [BB^{\top}B]& if\ B_{ij}=0\\ &0 & otherwise \end{aligned} \right.\)
\(\hat{\mathcal{E}}_i^+=\{(b_i,s_j)|\hat{S}_{ij}>0 \ and \ \hat{S}_{ij} \in top_k(\hat{S})\}\)
\(\begin{aligned} & \underset{U,V}{min} \sum_{(b_i,s_j)\in \mathcal{E}}max(0,1-B_{ij}(u_i^{\top}v_j))^2+ \lambda (|U|^2_F + |V|^2_F)\\ &+\alpha \sum_{(b_i,s_j)\in \mathcal{E}_i^+}max(0,1-\hat{S}_{ij}(u_i^{\top}v_j))^2\\ &+\beta\sum_{(b_i,s_j)\in \mathcal{E}_i^-}max(0,1-\hat{S}_{ij}(u_i^{\top}v_j))^2 \end{aligned}\)
随机游走模型
\(P_{B_{ij}}=\left\{ \begin{aligned} &0&\delta_n < ns^A_{ij} - ns^D_{ij} < \delta_p & \\ & ns^A_{ij}-ns^D_{ij} & otherwise &\\ \end{aligned} \right.\)
依靠相同连接方式的邻居数量获得同类型点之间的边权重。权重过小的边会被忽略。
对P和B归一化后得到新的邻接矩阵。该邻接矩阵同样需要行归一化:
\(A=\left[ \begin{aligned} &\hat{P}_B & \omega \hat{B}\\ & \omega \hat{B}^T &\hat{P}_S\\ \end{aligned} \right]\)\(\hat{A}_{ij} = A_{ij}/\sum_k |A_{ik}|\)
需要说明的是,当P=I,w=1,则该算法会退化为lazy随机游走,即每个点一定概率停留原地,一定概率跳到邻居顶点。
拥有邻接矩阵后,只需要一个存储上一步符号的变量和当前的符号相乘,便可得到下一步的符号:
\(Y_{ij}=\sum_k \hat{A}_{ik}Y_{kj}\)
该公式原理即为两符号相乘的结果恰好为平衡所需的第三个符号。ij之间的共同邻居都进行判断后累加便是ij之间趋向的关系。多次迭代直至收敛就可以得到最终的预测结果。
由于是随机游走,因此需要增加一个重启概率,让游走可以原地踏步。(此处需要重启的理由不理解,可能是考虑只游走,迭代后各边权重会被稀释得很小,增加重启可缓解)
实际上该公式可列为:
\(Y^l = c\hat{A} Y^{l-1} + (1-c)I\)
收敛后倒数第二层和最后一层Y可视作相等,因此:
\(Y^L = c\hat{A} Y^{L} + (1-c)I\)
\((I - c\hat{A})Y^L = (1-c)I\)
\(Y^L = (1-c)(I-c\hat{A})^{-1}\)
最后的结果为大于零则预测为正,小于零则为负,等于零则根据正负边分布按比例猜一个。
数据集
四列依次是每种蝴蝶结构的数量、比例、随机赋予每条边不同符号后的比例,最后一个s表示的是随机赋予符号后该蝴蝶结构的占比和实际占比之间的标准差。数字越大说明真实情况比期望的要越多。
实验
senate数据集上的结果
MFwBT的两个超参可以说明加入平衡理论的loss确实可以很大程度提高实验结果,且在总权重与原始loss为10:7时最好。
此处可能存在作画错误。当超参为0时实验结果应该和MF相同,图上比MF高了。
(AUC,F1)
前两个分别是回归模型中使用点的度做边特征和使用点的毛毛虫分布情况做边特征的情况。
三四两组是不考虑平衡结构的矩阵分解模型和考虑了的。
最后两组是lazy随机游走和加了单模投影的随机游走。
实验结果可以看到符号分布平衡的后两者,sbrw比较准确,而第一个数据集反而是比较naive的模型效果较好。
值得借鉴的地方
- 蝴蝶结构的提出者
- 文中对符号预测进行了总结,大致可分为三种类型,并从这三种类型出发设计了三套算法。
弊端
- 监督学习在标签量少的情况下效果会大打折扣
- 低秩逼近和随机游走都需要提前知道所有点,一旦测试时需要预测第一次见到的点便会失效
- 低秩逼近和随机游走都很吃资源,图一大就可能无法运行
原文
https://dl.acm.org/doi/abs/10.1145/3357384.3358009
[CIKM 2019]Balance in Signed Bipartite Networks相关推荐
- ICCV 2019 | 无需数据集的Student Networks
译者 | 李杰 出品 | AI科技大本营(ID:rgznai100) 本文是华为诺亚方舟实验室联合北京大学和悉尼大学在ICCV2019的工作. 摘要 在计算机视觉任务中,为了将预训练的深度神经网络模 ...
- KGNN-LS 2019 (KDD) Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Re
推荐中引入知识图谱的优点 知识图谱作为一种异构网络,节点表示实体,诸如物品,产品,以及他们的属性,特征:边对应为实体之间的关系,知识图谱可以获取一系列实体之间的关系和结构信息.因此,知识图谱提供了不同 ...
- Unsupervised Feature Selection in Signed Social Networks 阅读笔记
论文来源:2017 KDD 论文链接 有符号的社交网络中存在正连接(positive links)和负连接(negative links),最近的一些研究指出,负连接具有一些正连接没有的额外信息.因此 ...
- CIKM最佳应用论文:11亿节点的大型图,看闲鱼如何用图卷积过滤垃圾评论
训练并推断 11 亿节点的图,闲鱼垃圾评论过滤系统也用上了最前沿的图卷积神经网络.阿里巴巴的这项研究获得了 ACM CIKM 2019 最佳应用论文奖,这足以说明图卷积在传统任务中的强大潜力. 机器之 ...
- 2019年,异质图神经网络领域有哪些值得读的顶会论文?
本文主要梳理了 2019 年各大顶会上关于异质图神经网络的论文,包括算法研究及应用研究.同时,作者也整理了相关大牛老师/论文/资料/数据集供大家学习. 作者丨纪厚业 学校丨北京邮电大学博士生 研究方向 ...
- 人工智能/数据科学比赛汇总 2019.8
内容来自 DataSciComp,人工智能/数据科学比赛整理平台. Github:iphysresearch/DataSciComp 本项目由 ApacheCN 强力支持. 微博 | 知乎 | CSD ...
- 人工智能/数据科学比赛汇总 2019.9
内容来自 DataSciComp,人工智能/数据科学比赛整理平台. Github:iphysresearch/DataSciComp 本项目由 ApacheCN 强力支持. 微博 | 知乎 | CSD ...
- 建筑师又在用人工智能做什么?(2019年第三期)
说好的第三期赶在过年前来啦!本期一直拖稿到现在,因为ACADIA的论文一直没有在CUMINCAD上更新.今天一早终于发现更新啦!于是乎赶在今天完成了这份总结. 本期总结的会议包含参数化设计领域最大的会 ...
- CIKM 2021 | DISENKGAT:知识图谱解耦表征学习
©PaperWeekly 原创 · 作者 | 吴俊康 学校 | 中国科学技术大学硕士生 研究方向 | 信息检索 论文标题: DisenKGAT: Knowledge Graph Embedding w ...
最新文章
- 【廖雪峰python入门笔记】函数
- 棉花糖主机送mysql_mysql操作
- 权限提升 T1548.002 绕过UAC
- html5 的menu的属性,HTML5 menu 标签
- 投影元素直接隔离_Angular ngcontent 内容投影
- 工业级千兆以太网光纤收发器产品介绍
- 安卓 sharedpreferences可以被其它activity读取_Google|再见 SharedPreferences 拥抱 Jetpack DataStore...
- 指定开始_Flink-Kafka指定offset的五种方式
- 从前端智能化看“低代码/无代码”
- 作者:高富平(1963-),男,博士,华东政法大学二级教授、博士生指导小组负责人...
- 吉林考生多少分能考上东南大学计算机专业,吉林多少分能上985大学?附吉林高考985录取分数线(2021年参考)...
- python如何快速导入未安装模块_如何导入安装在sitepackages中的模块
- 绝大部分投资者没资格谈心态
- cisco ios cookbook
- STL的string
- vscode程序员推荐字体
- 无人驾驶全家桶:机场“人货场”的改造之路
- 2019杭州电子科技大学计算机考研经验谈
- mean和median的区别?
- 作文素材:看完这23种蔬菜描写,恨不得穿过屏幕吃掉它们!