端到端的框架DeepInf

Facebook、Twitter、微信、微博等社交和信息网络活动已经成为我们日常生活中不可或缺的一部分，在这些活动中，我们可以很容易地了解朋友的行为，进而受到他们的影响。因此，对每个用户进行有效的社会影响力预测对于各种应用（如在线推荐和广告）至关重要。

传统的社会影响预测方法通常会设计各种手工制作的规则来提取特定于用户和网络的特征。然而，它们的有效性很大程度上依赖于领域专家的知识。因此，通常很难将它们归纳到不同的领域。受deep神经网络最近在广泛的计算应用中取得成功的启发，我们设计了一个端到端的框架DeepInf，以学习用户的潜在特征表示来预测社会影响力。一般来说，DeepInf将用户的局部网络作为图神经网络的输入，以学习其潜在的社会表征。我们设计策略将网络结构和用户特定特征结合到卷积神经网络和注意力网络中。在开放学术图、Twitter、Weibo和Digg（代表不同类型的社交和信息网络）上进行的大量实验表明，所提出的端到端模型DeepInf的性能明显优于传统的基于特征工程的方法，表明了表征学习在社交应用中的有效性。

关键字：表征学习；网络嵌入；图卷积；图形注意；社会影响；社会网络

引言

社会影响无处不在，不仅存在于我们的日常生活中，也存在于虚拟的网络空间中。社会影响一词通常指的是一个人的情绪、观点或行为受到他人影响的现象。随着在线和移动社交平台的全球渗透，人们已经见证了社会影响力在各个领域的影响，比如总统选举[7]、广告[3,24]和创新采纳[42]。迄今为止，毫无疑问，社会影响已经成为一种普遍而复杂的力量，推动着我们的社会决策，显然需要方法来描述、理解和量化社会影响的潜在机制和动态。

事实上，文献[26,32,42,43]中已经对社会影响预测做了大量工作。例如，Matsubara等人。[32]通过精心设计从经典的“易感感染”（SI）模型扩展而来的微分方程，研究了社会影响的动力学；最近，Li等人。[26]提出了一种结合递归神经网络（RNN）和表征学习来推断级联规模的端到端预测器。所有这些方法的主要目的是预测社会影响的全局或聚合模式，例如在一个时间范围内的级联规模。然而，在许多在线应用中，如广告和推荐，对每个个体的社会影响力进行有效的预测，即用户层面的社会影响力预测是非常关键的。

本文主要研究用户层面的社会影响力预测。我们的目的是预测一个用户的动作状态，并给出其邻近邻居的局部结构信息。例如，在图1中，对于中心用户v，如果她的一些朋友（黑圈）购买了一个产品，她将来会购买同样的产品吗？上面提到的问题在实际应用中很普遍，但它的复杂性和非线性却经常被观察到，例如[2]中的“s形”曲线和[46]中著名的“结构多样性”。以上观察启发了很多用户级影响预测模型，其中大多数[27,53,54]考虑了复杂的手工制作的特征，这些特征需要对特定领域有广泛的了解，通常很难推广到不同的领域。

图1：社会影响区域预测的一个激励性例子。我们的目标是预测v的动作状态。假设1）观察到的近邻居的行为状态（黑色和灰色圆圈分别表示“活跃”和“不活跃”），以及2）她嵌入的本地网络。

受最近神经网络在表征学习中的成功启发，我们设计了一种端到端的方法来自动发现社会影响中的隐藏和预测信号。通过将网络嵌入[37]、图卷积[25]和图注意机制[49]构建到一个统一的框架中，我们期望端到端模型能够比传统的特征工程方法获得更好的性能。具体地说，我们提出了一个基于深度学习的框架DeepInf，将影响动态和网络结构都表示为一个潜在空间。为了预测一个用户 v的动作状态，我们首先用restart随机游动【through random walks with restar】对她的本地邻居进行抽样。在获得如图1所示的局部网络之后，我们利用图卷积和注意力技术来学习潜在的预测信号。

我们在开放学术图（OAG）、Digg、Twitter和Weibo四个不同领域的社交和信息网络上展示了我们提出的框架的有效性和效率。我们将DeepInf与几种传统方法进行了比较，例如具有手工制作特征的线性模型[54]以及最先进的图形分类模型[34]。实验结果表明，DeepInf模型能显著提高预测性能，为社会和信息网络挖掘任务提供表征学习的前景。

本文的其余部分安排如下：第二节阐述社会影响预测问题。第三部分详细介绍了所提出的框架。在第4节和第5节中，我们进行了广泛的实验和案例研究。最后，第六节对相关工作进行了总结，第七节对本课题进行了总结。

问题表述

在这一部分，我们介绍了必要的定义，然后阐述了预测社会影响的问题。

定义2.1。 r-neighbors和r-ego network 设G =（V，E）是一个静态社交网络，其中V表示用户集和E⊆V×V表示关系集。对于用户v，其r-neighbors被定义为其中d（u，v）是网络G中u和v的最短路径距离（就跳数而言）用户v的r-ego network是由 Γrv 引起的子网络，由 $G^{_{v}^{r}}$ 表示。

定义2.2 社交活动 社交网络中的用户执行社交活动，例如转发。在每个时间戳t，我们观察到用户u的二元动作状态， $S_{u}^{t}$ ∈0,1 ，其中 stu=1 表示用户u在时间戳t时刻或之前执行了此动作，并且 $S_{u}^{t}$ =0 表示用户尚未执行此操作。这样的动作日志可以从许多社交网络获得，例如Twitter中的“转发”动作和学术社交网络中的引用动作。

在上述定义的基础上，我们引入了社会影响局部性，这相当于一种封闭世界假设：用户的社会决策和行为只受其在网络中的近邻的影响，而外部资源被假定不存在。

问题1：社交影响局部性 v的行动状态的概率取决于她的r-ego网络 $G^{_{v}^{r}}$ 和她的r-neighbors的行动状态。更正式地，给定 Grv 和，社会影响局部性旨在量化在给定时间间隔Δt之后v的激活概率：

实际上，假设我们有N个实例，每个实例是一个3元组（v，a，t），其中v是用户，a是社交动作，t是时间戳。对于这样的3元组（v，a，t），我们还知道v的r-ego网络 Grv ，v的r-neighbors动作状态- $S_{V}^{t}$ 的，以及v在t +Δt的未来动作状态，即 $S_{V}^{t+\triangle t}$ 。然后我们将社会影响预测表示为二元图分类问题，可以通过最小化以下关于模型参数θ的负对数似然目标来解决：

（1）

特别是，在这项工作中，我们假设Δt足够大，也就是说，我们想在观察窗口的最后预测ego用户v【ego user v】的行动状态。

3 模型框架

在本节中，我们正式提出DeepInf，一种基于深度学习的模型，用于参数化方程1中的概率，并自动检测社会影响的机制和动态。 该框架首先对固定大小的子网络进行采样，作为每个r-ego网络的代理（参见第3.1节）。然后将采样的子网络输入具有小批量学习的深度神经网络（参见第3.2节）。最后，将模型输出与基础事实进行比较，以最小化负对数似然损失。

3.1近邻取样

给定用户v，提取她的r-ego网络 $G^{_{v}^{r}}$ 的直接方式是从用户v开始执行广度优先搜索（BFS）。然而，对于不同的用户， $G^{_{v}^{r}}$ 可以具有不同的大小。同时，由于社交网络中的小世界属性， $G^{_{v}^{r}}$ 的大小（关于顶点的数量）可能非常大[50]。这种不同大小的数据不适合大多数深度学习模型。 为了解决这些问题，我们从v的r-ego网络中采样固定大小的子网，而不是直接处理r-ego网络。

采样方法的一个自然选择是带重启的随机漫步(RWR)[45]。受[2,46]的启发，这表明人们更容易受到活跃邻居的影响而不是非活动邻居，我们从自我用户v或其中一个活跃邻居随机开始随机游走。接下来，随机游走以与每个边缘的权重成比例的概率迭代地行进到其邻域。此外，在每一步中，该行走被赋予一个返回起始节点的概率，即，自我用户v或v的活动邻居之一。 RWR一直运行，直到它成功收集固定数量的顶点，用表示，其中。然后我们将由引起的子网视为r-ego网络 Grv 的代理，并且表示是v的采样邻居的动作状态。因此，我们将方程1中的优化目标重新定义为：

3.2 Neural Network Model

【图2 DeepInf的模型框架。（a）原始输入由一小批B实例组成；每个实例是由n个用户组成的子网，这些用户使用随机游走和重新启动进行抽样，如第3.1节所述。在这个例子中，我们继续关注ego用户v（标记为蓝色）和她的一个活动邻居u（标记为橙色）。（b）一个嵌入层，它将每个用户映射到她的D维表示（c）实例规范化层[47]。对于每个实例，该层根据Eq. 3对用户嵌入xu进行规范化。输出嵌入Yu在每个实例中具有零均值和单位方差。。（d）将网络嵌入、两个虚拟特征(一个表示用户是否活跃，另一个表示用户是否自我ego)和其他自定义顶点特征(如表2)连接在一起的形式化输入层。（e）GCN或GAT层。avv和avu分别表示沿自环(v,v)和沿边(v,u)的注意系数;根据GCN和GAT的选择，可以在Eq. 5和Eq. 7之间选择这些注意系数的值。（f g）比较模型输出与地面实况，得到负对数似然损失。在本例中，ego用户v最终被激活(标记为黑色)。】

利用每个用户检索到的，我们设计了一个有效的神经网络模型，将中的结构属性和中的动作状态结合起来。神经网络模型的输出是自我用户v【ego user v】的隐藏表示，然后用于预测她的动作状态—— 。如图2所示，所提出的神经网络模型由网络嵌入层、实例归一化层、输入层、若干图形卷积或图注意层以及输出层组成。在本节中，我们逐一介绍这些层，并逐步构建模型。

嵌入层：随着最近出现的表示学习[5]，网络嵌入技术得到了广泛的研究，以发现网络结构属性并将其编码为低维潜在空间。更正式地，网络嵌入学习嵌入矩阵，每列对应于网络G中的顶点（用户）的表示。在所提出的模型中，我们使用预训练嵌入层将用户u映射到她的D维表示，如图2（b）所示。

实例规范化：实例规范化是最近提出的图像样式转移技术[47]。我们在社会影响力预测任务中采用这种技术。如图2（c）所示，对于每个用户，在从嵌入层检索到她的表示之后，实例标准化 yu 由下式给出：

对于每个嵌入维度d = 1，···，D，其中

这里 μd 和 σd 是平均值和方差，ε是数值稳定性的小数。直观地，这种规范化可以去除特定于实例的均值和方差，这促使下游模型关注用户在潜在嵌入空间中的相对位置而不是其绝对位置。正如我们稍后将在第5节中看到的那样，实例规范化可以帮助避免在训练期间过度拟合。

输入层如图2（d）所示，输入层为每个用户构造一个特征向量。除了规范化低维嵌入来自上游实例规范化层外，它还考虑了两个二进制变量。第一个变量表示用户的操作状态，另一个变量表示用户是否是ego用户。此外，输入层还覆盖了所有其他定制的顶点特征，如结构特征、内容特征和人口统计特征。

基于GCN[25]的网络编码图卷积网络（GCN）是一种针对图结构数据的半监督学习算法。GCN模型是由多个GCN层叠加而成的。每个GCN层的输入是一个顶点特征矩阵，，其中n是顶点数，F是特征数。由表示的H的每一行与顶点相关联。一般来说，GCN层的本质是非线性变换，输出如下：

其中 W∈RF′×F′ ， B∈RF′ 是模型参数，g是非线性激活函数，A（G）是捕获图G的结构信息的n×n矩阵。 GCN将A(G)实例化为一个与规范化图Laplaican[10]密切相关的静态矩阵:

其中A是G的邻接矩阵，D = diag（A1）是度矩阵。

Multi-head Graph Attention :图注意（GAT）是最近提出的技术，它将注意机制引入GCN。 GAT通过自我关注机制定义矩阵。更正式地，注意系数 eij 首先由注意函数attn计算：，其测量顶点 j对顶点 i的重要性：

与传统的计算所有实例对之间的注意系数的自我注意机制不同，GAT仅评估 eij 为即（i， j）是边或自循环。通过这样做，它能够更好地利用和捕获图形结构信息。之后，为了使顶点之间的系数具有可比性，采用softmax函数来归一化注意系数：

继Velickovic等人之后。 [49]，注意函数用点积和LeakyReLU [31,51]非线性实例化。对于一条边或一个自循环（i，j），在参数c和两个端点的特征向量的串联之间执行点积，即， eij=LeakyReLU（cT[Whi || Whj]），其中LeakyReLU的负斜率为0.2。综上所述，归一化注意系数可表示为：

|| 表示向量连接操作。

一旦获得归一化的注意系数，即aij，我们就可以将插入方程式5。这完成了单头(single-head)图注意的定义。此外，我们应用Velickovic等人建议的多头(multi-head)图注意。 [49]和Vaswani等人。[48]。多头(multi-head)注意机制并行地执行K个独立的单一注意，即，我们具有K个独立参数 W1，…，WK 和注意矩阵 A1，…，AK 。多头注意力通过聚合函数将K单个注意力的输出聚合在一起：

我们将每个单头注意力的输出连接起来，以聚合除最后一层的平均运算符之外的其他输出。

输出层和损失函数:该层（见图2（f））为每个用户输出一个二维表示，我们将自我用户的表示与真值进行比较，然后如公式2所述优化对数似然损失。

小批量学习：当从r-ego网络采样时，我们强制采样的子网络具有固定大小n。受益于这种同质性，我们可以在这里应用小批量学习进行有效的训练。如图2（a）所示，在每次迭代中，我们首先将B实例随机抽样为小批量。然后我们针对采样的小批量优化我们的模型。这种方法比全批量学习运行得快得多，并且在优化期间仍然引入了足够的噪声。

4实验装置

我们用大量的真实世界数据集进行实验，以定量评估所提出的DeepInf框架。

4.1数据集

我们的实验在四个不同领域的社交网络上进行——OAG、Digg、Twitter和微博。表1列出了这四个数据集的统计数据。

【表1 数据集摘要。|V |和| E |表示图G=（V，E）中顶点和边的数量，而N是第2节中描述的社会影响局部性实例（观察）的数量。】

OAG： OAG（开放学术图）数据集是通过链接两个大型学术图表生成的：Microsoft Academic Graph [15]和AMiner [44]。与[13]中的处理类似，我们从数据挖掘，信息检索，机器学习，自然语言处理，计算机视觉和数据库研究社区中选择了20个热门会议。社交网络被定义为共同作者网络，社会行为被定义为引用行为 ——一位研究人员引用了上述会议的一篇论文。我们对她的合作者如何影响一个人的引用行为感兴趣。

Digg： Digg是一个新闻聚合器，允许人们对网页内容也就是故事进行投票，向上或向下投票。该数据集包含有关2009年一个月内推广到Digg首页的故事的数据。对于每个故事，它包含到数据收集时为止所有投票给这个故事的Digg用户的列表以及每个投票的时间戳。投票者的友谊链接也被检索。

Twitter： Twitter数据集是在2012年7月4日宣布发现具有难以捉摸的希格斯玻色子特征的新粒子之前，期间和之后监测Twitter上的传播过程之后建立的。社交网络被定义成为Twitter友谊网络，社交行为被定义为用户是否转发“希格斯”相关推文

数据准备：我们按照现有工作中的实践处理上述四个数据集[53,54]。更具体地，对于在某个时间戳t受到影响以执行社交动作a的用户v，我们生成肯定的实例【正例】。接下来，对于受影响的用户v的每个邻居，如果在我们的观察窗口中从未观察到她是活动的，我们创建一个否定实例【负例】。我们的目标是区分积极情况和消极情况。然而，所实现的数据集在两个方面面临数据不平衡问题。第一个来自活跃邻居的数量。正如Zhang等人所观察到的那样，当自我用户拥有相对较多的活跃邻居时，结构特征与社会影响区域显著相关。。然而，在大多数社会影响数据集中，活动邻居的数量是不平衡的。例如，在微博中，大约80％的实例只有一个活动邻居，活动邻居数量≥3的实例仅占8.57％。因此，当我们在这种不平衡的数据集上训练我们的模型时，这个模型将被几乎没有活动邻居的观测所控制。。为了解决不平衡问题并显示我们的模型在捕获局部结构信息方面的优越性，我们过滤掉具有少量活动邻居的观测值。特别是，在每个数据集中，我们仅考虑自我用户具有≥3个活动邻居的情况。第二个问题来自标签不平衡。例如，在微博数据集中，负实例与正实例之间的比率约为300：1。为了解决这个问题，我们采样了一个更平衡的数据集，其中负数和正数之比为3：1。

4.2评估指标

为了定量评估我们的框架，我们使用以下绩效指标：

预测性能：我们根据曲线下面积（AUC）[8]，精确度（精确度），召回量（Rec。）和F1度量值（F1）来评估DeepInf的预测性能。

参数灵敏度：我们在模型中分析了几个超参数，并测试了不同的超参数选择如何影响预测性能。

案例研究：我们使用案例研究来进一步证明和解释我们提出的框架的有效性。

4.3比较方法

我们将DeepInf与多个基线进行比较。

Logistic回归（LR）:我们使用逻辑回归（LR）来训练分类模型。该模型考虑了三类特征：（1）自我用户的顶点特征; （2）针对自我用户的预训练网络嵌入（DeepWalk [36]）; （3）手工制作的自我网络特征。我们使用的功能列于表2中。

支持向量机（SVM）:我们还使用支持向量机（SVM）（线性核）作为分类模型。该模型使用与逻辑回归（LR）相同的特征。

PSCN:当我们将社会影响局部性预测模型化为图分类问题时，我们将我们的框架与最先进的图分类模型PSCN [34]进行比较。对于每个图，PSCN根据用户定义的排名函数（例如，度和中介中心性）选择w个顶点。然后，对于每个选定的顶点，它根据广度优先搜索顺序组合其前k近邻。对于每个图，上述过程构造具有F通道的长度为w×k的顶点序列，其中F是每个顶点的特征数。最后，PSCN在其上应用1维卷积层。

DeepInf及其变体：我们实现了DeepInf的两个变体，分别由DeepInf-GCN和DeepInf-GAT表示。 DeepInfGCN使用图卷积层作为我们框架的构建块，即在公式5中设置。 DeepInf-GAT使用图表注意，如公式7所示。但是，DeepInf和PSCN都只接受顶点级特征。由于此限制，我们不在这两个模型中使用自我网络功能。相反，我们希望DeepInf能够自动发现自我网络特征和其他预测信号。

超参数设置和实现细节：对于我们的框架DeepInf，我们首先以重启概率0.8执行随机游走，并且采样子网的大小设置为50.对于嵌入层，使用DeepWalk对64维网络嵌入进行预训练[36]。然后我们选择使用三层GCN或GAT结构进行DeepInf，第一和第二GCN / GAT层都包含128个隐藏单元，而第三层（输出层）包含2个用于二进制预测的隐藏单元。特别是对于具有多头图注意力的DeepInf，第一层和第二层都由K = 8个注意头组成，每个计算16个隐藏单元（总共8×16 = 128个隐藏单元）。对于详细的模型配置，我们采用指数线性单位（ELU）[11]作为非线性（方程5中的函数д）。所有参数都用Glorot初始化[18]初始化，并使用Adagrad [16]优化器进行训练，学习率为0.1（Digg数据集为0.05），权重衰减为 5e−4（Digg数据集为 1e−3），辍学率为0.2。我们分别使用75％，12.5％，12.5％的实例进行培训，验证和测试;所有数据集中的小批量大小都设置为1024。

对于PSCN，在我们的实验中，我们发现推荐的中间性中心度排序函数并不能很好地预测社会影响力。我们转而使用从自我用户开始的广度优先搜索顺序作为排名函数。当BFS的顺序不唯一时，我们通过先对活跃用户进行排名来打破联系。我们通过验证选择w=16和k=5，然后应用两个一维卷积层。第一个conv层有16个输出通道，步长为5，内核大小为5。第二个conv层有8个输出通道，步长为1，内核大小为1。第二层的输出然后被送入一个完全连接的层来预测标签。

最后，我们允许PSCN和DeepInf在训练数据上运行最多500个周期，并通过在验证集上提前停止损失来选择最佳模型。我们在https://github.com/xptree/DeepInf 上发布了PSCN和DeepInf的代码，这两个代码都是用PyTorch实现的。

5实验结果

我们比较了表3中四个数据集中所有方法的预测性能，并在表4中列出了相对性能增益，其中增益超过了最近的基线。此外，我们比较了DeepInf的变体，并在表5中列出了结果。我们有一些有趣的观察和见解

（1）如图3所示，DeepInf GAT在AUC和F1方面都取得了比基线更好的性能，证明了我们提出的框架的有效性。在OAG和Digg中，DeepInf GAT发现了隐藏的机制以及社会影响局部性的动态性，给我们3.8%的相对性能增益w.r.t.AUC

（2）对于PSCN，它根据用户定义的排序函数选择一个子集的顶点。如第4节所述，我们建议使用基于BFS顺序的排序函数，而不是使用中间性中心性。这种排序函数可以看作是一种预先定义的图注意机制，在这种机制中，ego用户更关注其活动邻居。PSCN的性能优于LR和SVM等线性预测因子，但其性能不如DeepInf GAT。

3）一个有趣的观察结果是DeepInf GCN的劣势，如表5所示。以前，我们已经看到了GCN在五月标签分类任务中的成功[25]。然而，在这个应用程序中，DeepInf GCN在所有的方法。我们把它的劣势归结于GCN的同伦假设，相似的顶点比不相似的顶点更容易相互连接。在这样的假设下，对于一个特定的顶点，GCN通过取其邻域表示的未加权平均值来计算其隐藏表示。然而，在我们的应用中，同源性假设可能不成立。通过对邻域进行平均，GCN可以将预测信号与噪声混合。另一方面，正如[2，46]所指出的，活跃邻居比不活跃邻居更重要，这也鼓励我们使用图注意力来区别对待邻居。

（4）在表3、4和5所示的实验中，我们仍然依赖于几个顶点特征，例如页面排名得分和聚类系数。然而，我们希望避免使用任何手工制作的功能，并使DeepInf成为一个“纯”的端到端学习框架。非常令人惊讶的是，我们仍然可以获得相当的性能（如表6所示），即使我们不考虑任何手工制作的特性，除了预先训练好的网络嵌入。

5.1 Parameter Analysis

在这一部分中，我们研究了在近邻采样和神经网络模型中，预测性能如何随超参数的变化而变化。除非另有说明，我们对微博数据集进行参数分析。

Return Probability of Random Walk with Restart 随机游走重启动的返回概率（RWR）控制着采样的r-ego网络的形状。图3（a）显示了通过将返回概率从10%变化到90%的预测性能（根据AUC和F1）。随着回归概率的增加，预测性能也略有提高，说明了社会影响的地域性格局。

Size of Sampled Networks 控制采样r-ego网络的另一个参数是采样网络的大小。图3（b）显示了从10到100的大小变化的预测性能（根据AUC和F1）。当我们选取更多的近邻样本时，我们可以观察到预测性能的缓慢提高。这并不令人惊讶，因为随着采样网络规模的增加，我们获得了更多的信息。

Negative Positive Ratio 正如我们在第节中提到的。5.在我们的数据集中，正观测和负观测是不平衡的。为了研究这种不平衡如何影响预测性能，我们将正负实例之间的比率从1变为10，并在图3（c）中显示性能。我们可以观察到F1测量值的下降趋势，而AUC评分保持稳定。

#Head for Multi-head Attention 我们分析的另一个超参数是用于多头部注意力的头部数量。我们对隐藏的128个单位的总数进行了比较。我们将头的数目改为1、2、4、8、16、32、64、128，即每个头分别有128、64、32、16、8、4、2、1个隐藏单元。如图3（d）所示，我们可以看到DeepInf从多头机制中获益。然而，随着与每个头部相关联的隐藏单元数目的减少，预测性能降低。

Effect of Instance Normalization 如第3节所述，我们使用实例规范化（in）层来避免过度拟合，特别是当训练集很小时，例如Digg。图4（a）和图4（b）说明了DeepInf GAT在Digg数据集上的训练损失和测试AUC。我们可以看到，IN显著地避免了过度拟合，使训练过程更加健壮。

5.2 Discussion on GAT and Case Study

除了GAT（式7）中使用的基于连接的注意外，我们还尝试了其他流行的注意机制，如[28]中总结的点积注意或双线性注意。然而，这些注意机制的表现不如基于连接的机制。在这一节中，我们介绍GAT[49]的保序性。基于这一特性，我们试图通过案例分析来解释DeepInf GAT的有效性。

省略、、、、、、、、

以上观察结果表明，虽然每个顶点只关注其相邻的GAT（local attention），但注意系数有一个全局排名，由q⊤W hjonly决定。因此，我们可以定义一个分数函数score（j）=q⊤W hj。然后每个顶点根据这个得分函数对其邻域进行关注，得分函数值越高，表示关注系数越高。因此，绘制评分函数的值可以说明网络的“流行区域”或“重要区域”在哪里。此外，多头部注意为K个头部提供了一个多视角机制，我们有K个得分函数，scorek（j）=q⊤kWkhj，K=1，···，K，突出网络的不同区域。为了更好地说明这种机制，我们进行了一些案例研究。如图5所示，我们选择四个实例从Digg数据集（每行对应一个实例）中，从第一个GAT层中选择三个具有代表性的注意头。有趣的是，我们可以观察到不同的注意头所发现的可解释的和异质的模式。例如，如图5所示，第一个注意力集中在ego用户上，而第二个和第三个注意力头分别突出显示活动用户和非活动用户。然而，其他机制对这一点并不关注。由于页数限制，我们不在这里讨论

6相关工作

我们的研究与社会影响分析[42]和图形表征学习[22，37]的大量文献密切相关。

Social Influence Analysis 大多数现有的工作都集中在社会影响建模为一个宏观的社会过程（又名级联），少数研究者探索了另一种用户层面的机制，在实践中考虑了社会影响的局部性。在宏观层面，研究人员对全球社会影响模式感兴趣。这种全局模式包括级联的各个方面及其与最终级联大小的相关性，例如上升和下降模式[32]、外部影响源[33]和整合现象[43]。最近，人们致力于使用深度学习自动检测这些全局模式，例如DeepCas模型[26]将级联预测作为一个序列问题，并用递归神经网络来解决

另一类研究集中于社会影响中的用户级机制，即每个用户只受其近邻的影响。这类工作的例子包括成对影响[19,39]、话题层面影响[42]、群体形成[2,38]和结构多样性[14,29,46]。这种用户级模型是许多现实问题和应用程序的基本构建块。例如，在影响最大化问题[24]中，独立级联模型和线性阈值模型都假设了一个成对的影响模型；在社交推荐[30]中，一个关键假设是社会影响现有用户的评分和评论会通过社交互动影响未来客户的决策。另一个例子是Facebook-Bond等人的一个大规模实地实验。[7] 在2010年美国国会选举期间，结果显示了网络社会影响如何改变线下投票行为。

Graph Representation Learning 表征学习[5]一直是研究界的热门话题。在图挖掘的背景下，对图表示学习进行了大量的研究。一系列的研究集中在顶点（节点）嵌入，即学习每个顶点的低维潜在因子。例如DeepWalk[36]、LINE[41]、node2vec[20]、metapath2vec[13]、NetMF[37]等。另一类研究关注图的表示，即学习图的子结构的潜在表示，包括图核[40]、深图核[52]和最新方法PSCN[34]。近年来，有人尝试将半监督信息引入图表示学习中。典型的例子包括GCN[25]、GraphSAGE[21]和最先进的GAT模型[49]。

7结论

在这项工作中，我们研究了社会影响的局部性问题。我们从深度学习的角度来阐述这个问题，并结合最近发展的网络嵌入、图卷积和自我注意技术，提出了一个基于图的学习框架DeepInf。我们在四个社交和信息网络OAG、Digg、Twitter和Weibo上测试了该框架。我们广泛的实验分析表明，DeepInf在预测社会影响区域方面明显优于具有丰富手工工艺特征的基线。本文探讨了网络表征学习在社会影响分析中的潜力，并首次尝试解释社会影响的动态性。

提出的DeepInf背后的一般思想可以扩展到许多网络挖掘任务。我们的DeepInf可以有效和高效地总结网络中的一个局域网。这些总结出来的表示可以应用到各种下游应用中，如链路预测、相似性搜索、网络对齐等，因此，我们希望探索这个有希望的方向以用于将来的工作。。另一个令人兴奋的方向是对近邻进行采样。在这项工作中，我们在不考虑任何边信息的情况下执行重新启动随机行走。同时，采样过程与神经网络模型松散耦合。通过利用强化学习，将取样和学习结合在一起也是令人兴奋的。

https://redtongue.github.io/2018/11/10/DeepInf-Social-Influence-Prediction-with-Deep-Learning/

https://blog.csdn.net/redtongue/article/details/87873903