点击下面卡片关注我呀,每天给你送来AI技术干货!

作者:北邮 GAMMA Lab 博士生  王睿嘉

题目: Graph Structure Estimation Neural Networks

会议: WWW 2021

论文链接: https://doi.org/10.1145/3442381.3449952

代码链接: https://github.com/BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks

1 引言

图神经网络(GNNs)在各种图分析任务中展示出了强劲性能,但它们存在一个基本假设所观察到的图结构是正确的,且符合GNNs的性质。实际上,图结构通常抽取自复杂的交互系统,该假设总是被违反。原因之一是这些交互系统包含不确定性或错误。例如,在蛋白质相互作用图中,错误的主要来源是实验误差。另一个原因是不可避免的数据缺失。例如,通过检查路由表或跟踪路由路径确定Internet图,而以上操作仅能给出边的子集。已经有研究表明不可靠的图结构可能会严重限制GNNs的表示能力,其中一个典型例子是GNNs性能会在同配性差的图上大大降低。简而言之,在实际的图中普遍存在缺失、无意义甚至错误的边,这导致其与GNNs的性质不匹配,并对结果的准确性产生影响。因此,迫切需要探索适宜于GNNs的图结构

本文认为,学习适配于GNNs的图结构应从两个维度考虑。(1)图生成机制。网络科学的很多文献已证明图生成可能受某些基本准则的约束,如配置模型。考虑这些准则,可使所得图保持规则的全局结构,并对实际观测中的噪声更鲁棒。(2)融合多方面信息以减少偏差。从一个信息源学习图结构会导致偏差和不确定性,自然的假设是如果一条边被观测到多次,则该边存在的置信度较大。

为满足上述两点要求,本文提出了图结构估计神经网络(GEN)。GEN主要包含两个关键模块:结构模型和观测模型。(1)考虑GNNs的局部平滑特性,结构模型约束图生成过程,假设图由随机块模型(SBM)产生,从而使其保持较好的社团结构。(2)观测模型将原始图结构、节点特征和多阶邻域信息作为观测共同处理。为估计图结构,GEN在GCN训练期间构造观测集合,并基于结构和观测模型应用贝叶斯推断计算图结构的后验分布。最终,图结构和GCN参数通过迭代优化实现彼此增强。

本文的主要贡献总结如下:

  1. 率先融合图生成机制和多方面信息,为GNNs学得更精确、更匹配的图结构。

  2. 提出图结构估计神经网络 GEN,其包含一个约束图生成过程的结构模型和一个注入多方面信息的观测模型,并基于贝叶斯推断估计出图结构。

  3. 在六个数据集上验证了 GEN 的有效性,并在生成数据集上展示了所得估计图的合理性。

2 图结构估计神经网络(GEN)

本节将概述GEN框架,具体细节请参见论文。

GEN首先利用多方面信息为图结构构建观测集合,然后图估计器基于观测集合和标签估计图结构。更好的图结构将使得GCN产生更准确的观测集合,更准确的观测集合将估计出更好的图结构。在此迭代过程中,GCN的参数学习和图结构的推断相互增强。

因此,GEN主要分为三个步骤:观测构建图结构估计迭代优化,将在以下小节分别介绍。

2.1 观测构建

原始图结构是从现实世界的复杂系统中抽取的,通常噪音很大。为估计适配于GCN的图结构,需要构建多种观测以减小偏差。在次聚合后,节点表示捕获了其阶邻域内的结构信息。另一方面,具有相似邻域的节点对可能在原始图中距离较远,但属于相同的社团。如果利用这些富含信息的节点对,可增益下游分类任务。因此,GEN尝试在估计图中连接这些相距远但相似的节点。

具体地,固定 GNN 参数,并取出节点表示来构建 NN图作为观测,其中是由生成的NN 图的邻接矩阵,刻画了-阶邻域的相似性。显然,原始图结构也是重要的观测之一,因此将其与NN图结合形成完整的观测集合。这些不同方面的观测可以集成起来推断出更可靠的图结构。

2.2 图结构估计

到目前为止,需要回答的问题是:基于这些观测值,GCN的最佳估计图是什么?这些观测从不同角度反映最佳图结构,但它们可能是不可靠或不完整的,并且没有先验知识来确定任何观测的准确性。在这种情况下,直接回答这个问题并不容易,但回答其逆问题则相对容易。假设已经生成了具有社团结构的图,则可以计算将该图映射到这些观测值的概率。如果能够做到这一点,贝叶斯推断可以进行反演,计算图结构的后验分布,从而达到最初目标。该过程形式化如下:

这里,生成图的过程用概率表示,对应于结构模型;计算图映射到观测集合的过程用概率表示,对应于观测模型。

接下来,介绍结构模型和观测模型的具体形式。

2.2.1 结构模型

考虑GNN的局部平滑特性,一个很好的选择是随机块模型(SBM),其广泛用于社团检测,可对具有相对较强社团结构的图进行建模。SBM假设节点间存在边的概率仅取决于社团种类。例如,具有社团的节点和具有社团的节点间存在边的概率是。因此,参数表征社团内和社团间的连接概率。给定参数 、GCN预测和标签,生成图的概率形式化为

其中

2.2.2 观测模型

请注意,结构模型代表了对底层结构的先验知识或约束。实际上,最佳图以什么结构存在是一个谜,能做的事情就是结合其外部观测进行推断。因此,本文引入观测模型描述图是如何映射到观测集合上。具体地,假设边的观测是独立同分布的伯努利随机变量,该假设在社团检测和图生成中被广泛应用。

具体地,通过两个概率参数化可能的观测结果:真阳性率,观测到存在于图中边的概率;假阳性率,观测到不存在于图中边的概率。定义在个观测中,观测到节点和节点间存在边次,则不存在边次。 代入以上定义,可写出的具体形式:

2.3 迭代优化

首先,利用交叉熵损失函数更新 GNN 参数:

然后,应用贝叶斯定理,并用基于EM算法最大化后验,最终得到图结构的期望:

3 实验

本文在六个开源图数据集上验证了所提GEN的有效性。Cora、Citeseer和Pubmed是引文网络数据集。Chameleon和Squirrel是维基百科中两个具有特定主题的页面网络。Actor是fim-director-actor-writer网络的actor-only子图。具体统计信息如下:

3.1 节点分类

本文将GEN与三类GNN进行了比较,包括三种基于谱域的方法SGC、GCN和ChebNet,三种基于空域的方法GAT、APPNP和GraphSAGE,以及三种基于图结构学习的方法LDS、Pro-GNN和Geom-GCN。

除了每类20个标签的训练集设置外,本文还评估了每类10或5个标签时的性能。此表报告了10次独立试验的平均值和标准差。可以看到,GEN在六个数据集上始终优于其他基线方法,尤其是在减少标签和异配的情况下。

3.2 图结构分析

本文利用属性SBM生成数据集,从而直观分析GEN的机制和所得图结构的性质。该数据集有5个社团,每个社团有20个节点。

可视化原始图和估计图,并选择某特定节点突出其邻域变化。如图所示,原图较为混乱,社团间存在较多连边。这种情况下,GCN节点分类准确率只有 60%。应用 GEN 后,估计图的社团结构清晰,分类准确率提高至 84%。

进一步,计算社团间连边的概率矩阵,并将其绘制为热图。可以观察到,在原始图中许多非对角线色块比对角线色块更暗。但对于估计图,GEN扩大了对角线和非对角线色块间的差距。

邻接矩阵代表边存在的置信度,因此本文展示了边置信度和观测次数间的关系。可以看到,大多数节点对都在“零观测”桶中,因为图是稀疏的,大多数节点对从未被观测到。仅观测到零或一次的边,其置信度通常小于0.1。但在一到两次观测间有相对尖锐的突变。

进一步地,本文展示边置信度的分布,为此将边分为两组:相同社团和不同社团节点间的边。分别画出这些边的置信度在训练、验证和测试集上的归一化直方图。可以看到,相同社团间边的置信度集中在最后一个桶上,而不同社团间边的置信度更倾向于第一个桶。

4 总结

图神经网络依赖合理的图结构,而不兼容的图结构会严重损害其性能。本文提出了一种新颖的图结构估计神经网络GEN用于估计适配于GNN的图结构,以提高下游任务性能。具体地,GEN引入结构模型考虑图生成过程中的潜在社团结构,并提出观察模型将多方面信息(例如,多阶邻域相似性)作为图结构的观测。基于这些模型,GEN利用贝叶斯推断框架得到最终估计图。大量实验结果验证了GEN的有效性及其估计图的合理性。

一个有趣的未来方向是将GEN扩展到动态图。直观来看,观测集合可以由不同时间片的信息构建。然而,观测集合不能反映时间序列,且图演化过程中出现的新节点需要从头训练整个模型。因此,需要匹配更复杂的推理模型以应对这些挑战。

本期责任编辑:杨成

本期编辑:刘佳玮

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

【WWW2021】图结构估计神经网络相关推荐

  1. ESL第十七章 无向图模型 学习/推断/成对马尔可夫独立/全局马尔可夫性、协方差图/高斯图/修改回归算法/图结构估计/图lasso、【受限】玻尔兹曼机/泊松对数线性建模/迭代比例过滤/对比散度

    目录 17.1 导言 17.2 马尔可夫图及其性质 17.3 连续变量的无向图模型 17.3.1 图结构已知的参数估计 17.3.2 估计图结构 17.4 离散变量的无向图模型 17.4.1 图结构已 ...

  2. 【论文解读|AAAI2021】HGSL - Heterogeneous Graph Structure Learning for Graph Neural Networks 图神经网络的异构图结构学习

    文章目录 1 摘要 2 引言 相关工作 3 方法 3.1 特征图产生器 3.1.1 特征相似图 3.1.2特征传播图 3.2 语义图生成器 4 实验 5 结论 论文链接: http://shichua ...

  3. ICML2020 | 神经网络的图结构如何影响其预测性能?

    作者 | 董靖鑫 审稿 | 程玉 今天给大家介绍的是来自斯坦福大学的Jure Leskovec课题组发表在ICML2020上的文章" Graph Structure of Neural Ne ...

  4. 147页详述「结构在神经网络中的复兴」,图注意力网络一作博士论文公开

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手 ...

  5. GNN-图卷积模型-2016:PATCHY-SAN【图结构序列化:将图结构转换成了序列结构,然后直接利用卷积神经网络在转化成的序列结构上做卷积】

    我们之前曾提到卷积神经网络不能应用在图结构上是因为图是非欧式空间,所以大部分算法都沿着找到适用于图的卷积核这个思路来走. 而 PATCHY-SAN 算法 <Learning Convolutio ...

  6. 图卷积神经网络GCN原理+图结构学习+GAT+VGAE

    https://baijiahao.baidu.com/s?id=1678519457206249337&wfr=spider&for=pc GCN是一种卷积神经网络,它可以直接在图上 ...

  7. [图神经网络]图结构和图的表示

    一.图结构 图:描述关联数据的通用语言.在图中,节点之间是有关联的.但在传统机器学习中,数据样本之间独立同分布. 图需要兼容任意尺寸(不定长)的输入结构和复杂的拓扑结构,且没有参考锚点(不像CNN和G ...

  8. 尤佳轩、何恺明等提出新型图表示法,新视角理解图结构如何影响预测性能

    选自arXiv 作者:尤佳轩.Jure Leskovec.何恺明.Saining Xie 机器之心编译 参与:小舟.杜伟 神经网络的图结构和预测性能之间有怎样的关系?近日,斯坦福尤佳轩.Jure Le ...

  9. 阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 机器之心整理 自然语言处理(Natural Language Processing)是人工智能的核心问题之一,旨在让 ...

  10. TensorFlow之图结构与TensorBoard可视化

    TensorFlow之图结构与TensorBoard可视化 1.1 什么是图结构 图包含了一组tf.Operation代表的计算单元对象和tf.Tensor代表的计算单元之间流动的数据. 1.2 图相 ...

最新文章

  1. InfoQ播客: Shuman Ghosemajumder谈安全和网络犯罪
  2. poj 3261 后缀数组 找反复出现k次的子串(子串能够重叠)
  3. 优胜劣汰有利于整个团购行业服务的提升
  4. 2021-03-29 标准化函数
  5. 初探swift语言的学习笔记四-2(对上一节有些遗留进行处理)
  6. PostgreSQL的高可用与数据复制方案
  7. Spring Bean 作用域之间的区别?
  8. 跨网段远程调试vs_如何提高后台服务应用问题的排查效率?日志 VS 远程调试
  9. 第5课 开心的金明《聪明人的游戏:信息学探秘.提高篇》(优化空间)
  10. 全国计算机报名入口攀枝花学院,2017年攀枝花学院艺术类专业考试网上报名入口...
  11. 计算机功能性英语作文,2017考研英语作文:10个功能性“仿写”句型
  12. [React-Native]环境配置amp;HelloWorld
  13. a form 出口享惠情况_进出口报关
  14. 超清楚!麦克风阵列学习笔记(一)——线性麦克风阵列的时间延迟Beamforming算法(Time-Delay Beamforming of Microphone ULA Array)
  15. 麒麟芯片鸿蒙芯片高通骁龙,麒麟和骁龙两款处理器,选哪一款比较好,看完这三点你就明白了...
  16. cadence SPB17.4 - orcad - exprot sch PDF
  17. 磁盘与文件系统管理--鸟哥私房菜读书笔记
  18. 键盘定位板图纸_DIY如何自制专属GH60机械键盘教程【步骤详解】
  19. Oracle数据库配置管理(一)
  20. oracle 授权同义词权限不足,创建同义词ora-01031权限不足

热门文章

  1. Java工具-----native2ascii
  2. (转)fiddler使用简介--其二
  3. 十一、JUC包中的锁
  4. adb device offline 解决办法
  5. 【原创】PDA 实现DataGrid可编辑
  6. ExtJs TreePanel使用TreeLoader在IE下无法正常加载显示的解决方法
  7. 设置NumericStepper控件不可用状态的字体颜色。
  8. JavaScript学习笔记——正则验证
  9. java regex 简单使用
  10. Feisty中totem-xine播放rm和rmvb没有声音