摘要

本文研究了如何以无监督的方式将丰富的图结构数据信息保存和提取到嵌入空间中。并提出了GMI( Graphical Mutual Information)来测量输入图和高级隐藏表示之间的相关性。GMI从节点特征和拓扑结构两个方面衡量共同信息。GMI的优点：1）它对输入图的同构变换是不变的；2）目前的互信息估计方法如MINE可以有效的估计和最大化这个模型。

1.介绍

由于受到Deep Info-Max方法(操作在图像上的方法)的启发，本文采用互信息最大化(Mutual Information maximization)的方法进行图嵌入来获取图上丰富的信息。我们直接通过比较编码器的输入(即由输入邻域组成的子图)和输出(即每个节点的隐藏表示)来推导MI。我们的理论推导证明，直接表示的MI可以分解为每个邻域特征和隐藏向量之间的局部MI的加权和。通过这种方法，我们对输入特征进行了分解，使MI计算易于处理。此外，如果我们调整权值，这种形式的MI可以很容易地满足对称特性。更多细节在3.1。由于上述MI主要是在节点特征层面测量的，我们称之为特征互信息(Feature Mutual Information, FMI)。

2.相关工作

3.图形互信息：定义和最大化

图表示学习的目的是学习一个编码器： $f:\mathbb{R}^{N\times D} \times \mathbb{R}^{N \times N} \rightarrow \mathbb{R}^{N \times D^'}$ ，以至于 $H = \left \{ h_1,...h_N \right \}=f(X,A)$ 表示高阶的节点表示。本文定义 $X_i,A_i$ 分别为节点 $v_i$ 的k阶邻居节点的特征和相应的邻接矩阵。即关于节点 $v_i$ 的支持子图 $\boldsymbol{\mathit{G_i}}$ ，则每个节点的编码可以表示为 $h_i=f(G_i)=f(X_i,A_i)$

3.1特征互信息

本文表示节点特征 $X_i$ 的经验概率分布为 $p(X_i)$ ， $h_i$ 的分布为 $p(h_i)$ ，联合分布为 $p(h_i,x_i)$ ，因此 $h_i, X_i$ 的MI可以表示为

定理 1：如果条件概率 $p(h_i|X_i)$ 是可以写成乘法形式，即：

这个互信息 $I(h_i;X_i)$ 可以被分解为局部MIs的加权和

其中， $x_j$ 是节点i的第j个邻居， $i_n$ 是 $X_i$ 中所有元素的数量，并且对于每个j，权重 $w_{ij}$ 满足 $\frac{1}{i_n}\leq w_{ij}\leq 1$

为了证明这个结论，本文给出了两个引论和一个证明

引理 1. 对于随机变量X, Y, Z ，有：

引理 2. 如果 $p(h|X_1,....,X_n)$ 是可乘的，有：

证明：通过引理一，对于每一个j，有：

即：

通过引理二，可以得到：

因此：

所以对于所有 $I(h_i;x_j)$ ,存在权重 $\frac{1}{i_n}\leq w_{ij}\leq 1$

通过定理一，我们可以分解公式2的右边使得 $(h_i,x_j)$ 大小保持一致，即 $D^{' },D$ 。我们可以通过调整权值来反映输入图的同构变换。例如，如果 $X_i$ 只包含节点i的一阶邻居，那么将所有权值设置为相同将导致不同顺序的输入节点MI相同。

尽管分解有一些好处，但很难确定权重的确切值，因为他们与 $I(h_i;x_j)$ 以及潜在的概率分布有关。一种方式是将所有的权重设为 $\frac{1}{i_n}$ ，最大化Eq.(2)的右边，等同于最大化 $I(h_i;X_i)$ 的下界，这样，真实的FMI也在一定程度上最大化。除了这种方法，我们还提供了一个更完善的方法，将权重作为可训练的参数，这是下一小节的主题。

3.2 拓扑相关的互信息

定理 2(Graphical Mutual Information)： 隐藏层的向量 $h_i$ 以它的支持子图 $G_i = (X_i,A_i)$ 的互信息可以定义为：

其中 $a_{ij}$ 邻接矩阵A的边的权值或特征， $\sigma (\cdot )$ 是sigmoid函数

直观地，Eq.(10)第一项的权重 $w_{ij}$ 度量了局部MI对全局MI的贡献。我们通过 $h_i,h_j$ 的相似性(即： $w_{ij}=\sigma (h^T_i h_j)$ )表示 $I(h_i;h_j)$ 的贡献，同时，同时， $I(w_{ij};a_{ij})$ 使 $w_{ij}$ 与输入图的边权值/特征(即 $a_{ij}$ )之间的MI最大化，使 $w_{ij}$ 符合拓扑关系。在这个意义上，贡献的程度与拓扑结构的接近度是一致的，一般认为节点j越“接近”节点i, $w_{ij}$ 越大，反之， $w_{ij}$ 越小。

根据Eq.(10)的定义，有几个好处。首先，这种MI对输入图的同构变换不变性。其次，它在计算上是可行的，因为右侧的每个组件都可以用MINE估计出来。更重要的是，GMI在捕获原始输入信息方面比DGI更强大，因为它的隐藏层向量与细粒度节点级的节点和边缘的输入特征之间有着显式的相关性。

3.3 GMI的最大化

MINE估计了MI的下界，用Donsker-Varadhan（DV）[10]表示联合分布和边缘乘积之间的KL散度。由于我们更关注MI的最大化，而不是获取它的特定值，其他非kl替代方案，如Jensen-Shannon MI estimator (JSD)[30]和 Noise-Contrastive estimator(infoNCE)[31]可以用来替代它。基于[20]的实验结果和分析，本文采用JSD估计器，以提高估计的有效性和效率。由于infoNCE估计器对负采样策略(负样本的数量)很敏感，因此可能成为具有固定可用内存的大规模数据集的瓶颈。我们计算Eq.(10)中第一项 $I(h_i;x_j)$ :

这里， $D_w:D\times D^{'}\rightarrow \mathbb{R}$ 是包含参数w的神经网络构造的判别器。 $x_j^'$ 是来自 $\widetilde{\mathbb{P}}=\mathbb{P}$ 的负样本， $sp(x)=log(1+e^x)$ 表示soft-plus函数。

如§3.2所述，我们最大化 $I(w_{ij};a_{ij})$ 通过计算其交叉熵而不是使用JSD估计器，因为我们在实验中处理的图是未加权的。即：

通过Eq.(11)和Eq.(12)最大化 $I(h_i;G_i)$ ，我们得到了完整的目标函数GMI优化。此外，我们还可以进一步添加权衡参数来平衡Eq.(11)和(12)，使其更加灵活。

Graph Representation Learning via Graphical Mutual Information Maximization相关推荐

论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
论文理解—— Disentangle-based Continual Graph Representation Learning
EMNLP 2020 Disentangle-based Continual Graph Representation Learning 链接: https://arxiv.org/abs/2010. ...
GraphGAN: Graph Representation Learning with GAN
GraphGAN: Graph Representation Learning with GAN 1.Introduction 2.GraphGAN Framework 2.1 Optimizatio ...
Graph Representation Learning 笔记 Ch1Ch2
图机器学习基本问题及图中特征工程 ch1 & ch2 一.图的基本定义图能表示复杂系统.图中节点表示对象,图中的表示对象之间的交互关系.图本身就可以表示完全的语义信息. 离散的数据点更注重单 ...
【图表示学习】Graph Representation Learning 读书笔记（一）
Graph Representation Learning (William Hamil)本书还没有正式推出. Chapter 1:Introduction 首章主要简要讲解图的定义和机器学习在图数据 ...
阅读Hierarchical Graph Representation Learning with Differentiable Pooling(NeurIPS 2018)
最近关注graph pooling,Hierarchical Graph Representation Learning with Differentiable Pooling(NeurIPS 2 ...
文献阅读（72）WWW2022-TREND: TempoRal Event and Node Dynamics for Graph Representation Learning
本文是对<TREND: TempoRal Event and Node Dynamics for Graph Representation Learning>一文的总结,如有侵权即刻删除. ...
2021-ACS-IGN: A Novel and Efficient Deep Graph Representation Learning Framework for Accurate
2021-ACS-IGN: A Novel and Efficient Deep Graph Representation Learning Framework for Accurate Paper: ...
自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning
资料放在前面:https://blog.csdn.net/Arnetminer/article/details/105840669 文章的贡献如下: (1)提出了一个基于最大化MI的理论框架来理解词表 ...

Graph Representation Learning via Graphical Mutual Information Maximization

摘要