预测多关系和异构网络中的链接

摘要

链接预测是网络分析中的一项重要任务,它有益于各个领域的研究人员和组织。现实世界中的许多网络,例如社交网络,是异构的,具有多种类型的链接和复杂的依赖结构。这种网络中的链路预测必须对异构关系之间传播的影响进行建模,以实现比同构网络更好的链路预测性能。在本文中,我们引入了多关系影响传播(MRIP),一种新的异构网络概率方法。我们证明了MRIP对于预测稀疏网络中的链路是有用的,由于潜在链路的数量与实际形成的链路的数量严重不相称,这提出了重大挑战。我们还探索了一些可以为分类任务提供信息但尚未探索的因素,如时间信息。在本文中,我们通过仔细研究可行性和一般性问题来利用与时间相关的特征。根据我们在无监督学习方面的工作,我们进一步设计了一种适用于异构网络的有监督方法。合作作者预测实验证明了该方法的有效性。

1.引言

链路预测,即预测未来网络中链路的形成或预测网络中缺失的链路,是近年来的热门话题。大多数最近的链路预测方法[6] [7] [8] [1]是为同构网络设计的,其中网络中只存在一种类型的链路。然而,许多重要的现实世界网络,如DBLP书目网络和人类疾病基因网络,是复杂的,并被建模为异构的相互作用。例如,DBLP网络包含作为节点的会议、论文和作者,以及来自合作作者、作者撰写的论文、会议中发表的论文等类型的链接。从[13]的早期工作到[20]的近期工作,已有一些研究致力于异构网络中的链路预测。

结构依赖的复杂性和链路的异构性给异构网络中的链路预测带来了障碍。为同构网络设计的众所周知的拓扑特征很难在如此复杂的场景中应用。在异构网络中处理链路预测问题有两种典型的方法:1)平等地对待所有类型的链路;2)独立研究每种类型的链路,忽略其与其他链路类型的相关性图1。不同类型链接之间的相关性[2]。然而,这两种方法都会导致信息的丢失。特别是对于第二种情况,在异构网络的每个同构投影中,拓扑属性可能不同,但是不同类型的链路相互关联,因此相互影响。例如,在手机网络中连接的两个人在脸书上成为朋友的概率很高。同样,经常给对方发邮件的两个人也可能互相打电话(图1)。问题是:如何定量地捕捉不同类型链路之间的相关性,并利用这些信息来设计一种有效的、通用的方法来预测异构网络中的链路?

为此,我们在异构网络中开发了无监督和有监督的学习方法,这些方法基于链路的拓扑结构和时间戳(如果可用)。我们首先介绍我们的方法,称为异构网络的多关系影响传播(MRIP)。其动机来自Kempe等人的工作[4],该工作旨在最大限度地扩大同质网络的影响。疾病基因网络[2]和DBLP网络[15]的实验结果进行了比较。然后我们介绍了我们的时间链路预测方法,它是经典链路预测的时间相关变量,如公共邻居[14]和Adamic/Adar [6]。就AUROC(接收器工作曲线下的区域)而言,这些扩展链路预测器中的大多数优于其原始化身超过9%。通过仔细提取特征,并根据我们在无监督学习方面的工作,我们为异构网络中的链路预测设计了有效的有监督学习方法。综上所述,本文的贡献如下:

  • 我们研究异构网络中的链路预测问题,网络中存在多种相互关联的链路。
  • 我们提出了一种新的拓扑特征,称为多关系影响传播(MRIP),它可以捕捉不同类型的链接之间的相关性,用于链接预测问题
  • 我们进一步提出异构网络中的时间特征,以达到更好的链路预测精度。
  • 在真实数据集上的实验表明,与典型解决方案和最近公布的解决方案相比,我们的方法是有效的。

论文的其余部分组织如下。我们介绍了异构网络的初步概念,并在第三节中定义了这个问题。第四节解释了标准的无监督方法,并介绍了我们的新方法MRIP。第五节描述了扩展的时间链路预测器。我们在第六节展示了我们在异构网络中的监督学习方法,并分析了实验结果,在第七节总结了研究。

二.相关工作

从[13]的早期工作到[2] [20]的近期工作,已有一些研究致力于异构网络中的链路预测。然而,在[13]的工作中,节点的属性值通常难以在真实世界的数据集中获得,因此在本文中我们的方法将不会与[13]的工作中描述的方法进行比较。

在[2]的工作中,Davis等人提出在异构网络中探索三元组信息来辅助链路预测任务。他们的方法MRLP是对异构信息网络的Adamic/Adar度量的概率加权扩展。与传统的链路预测器相比,该模型在预测异构网络中的链路方面是成功的。在[20]的工作中,Litchenwalter等人提出了顶点配置轮廓(VCP)的概念,用于拓扑链接分析和预测。在他们的定义中,一个顶点配置轮廓(VCP),是一个描述两个顶点uv之间关系的向量,根据它们在r关系上n个顶点的所有可能子图中的共同成员关系[20]。在他们的论文中,VCP3U被设计为通过描述3个顶点的所有可能子图中的节点对uv的关系来工作在无向同构/异构网络中,相应地,VCP4U被用于捕获任意节点对u和v的所有可能的4个顶点的子图的信息。在本文中,我们的方法将与这两个最近在异构网络中的工作进行比较。

值得一提的是,在[25]的工作中,罗塞蒂等人提出了公共邻居和Adamic/Adar的多维版本,并导出了旨在捕捉多维和边缘级别时间信息的预测器。然而,他们的方法与我们的方法有很大不同。我们使用网络对齐技术来捕捉链接类型之间的相互关系,而他们使用多维网络的连通性度量来指导他们的设计。在时态方法设计中,我们正在收集节点历史数据,并试图捕捉偏好。当两个节点通过新链接关联时拓扑特征的疾病基因网络;而他们对边缘级通信数据感兴趣。[25]的工作没有包括与最近出版物中任何竞争方法的比较,如[1]和[3]。

三.概念和准备工作

A .异构网络

给定一个异构网络,它可以建模为,其中表示同类型u的节点集,表示 j 类型的链路集,在现实世界中,很多重要的网络都是异构的。例如,在DBLP书目网络中,有几种类型的节点和链接(图2)。另一个例子是人类疾病-基因网络,它有两种节点(疾病和基因)和这些节点之间的三种类型的链接(疾病疾病表型链接、基因-基因PPI链接和疾病基因遗传链接)(图3)。这些网络中的链接或交互可以发生在相同类型的节点之间,例如合著链接和表型链接;或者发生在不同类型的节点之间,例如来自作者-作者论文关系的链接以及疾病和基因之间的遗传链接。

图2。DBLP书目网络图

B.链路预测问题定义

给定一个异构网络,这种网络中的链路预测任务是预测是否存在或将要存在i型链路(i = 1,2,...,N)在一对节点u和v之间,其中。在无监督链接预测场景中,问题是分配一个分数s(u,v,i),该分数指示节点uv之间链接的可能性,其中i是链接类型。而在监督学习场景中,目标是回答在两个给定的节点uv之间是否会形成i型链接。

C.预赛

我们首先简要介绍了Kempe等人[4]在同构网络中影响最大化方面的工作。影响力最大化问题最初是由Kempe、Kleinberg和Tardos [4]在2003年提出的,是在一些随机级联模型下,如独立级联(IC)模型或加权级联(WC)模型下,寻找社会网络中k个最有影响力的节点。在加权级联模型中,假设节点v以一定概率激活其邻居u:

为了在网络的线性阈值模型中找出k个最有影响的节点,许多研究人员采用广度优先搜索过程将激活的概率从源节点v传播到任何可到达的节点u,得分初始分配的概率为1。在整个过程中,每对节点u和v之间的影响概率将被记录下来,以支持对前k个最有影响的节点的挖掘。在网络的演变中,影响和联系的形成是密切相关的。两个节点之间的联系是由于它们之间的相互影响足够强而形成的,而联系的形成又增强了这两个节点之间的影响。

这启发我们使用这样的影响得分作为新链接可能性的估计(等式1)。等式1中有一个微小的变化,为了计算简单,我们使用作为激活的概率。

然而,这种方法是为同构网络设计的,需要考虑许多工作才能使其在异构网络中可行。虽然MRIP可以采用类似的传播概率的方法,但它也提出了一个基本问题:如何在异构网络中传播影响/概率?这个问题在典型的影响力最大化研究领域尚未得到回答。我们对这个问题的解决方案将在第四节讨论。

四.MRIP方法

在这一节中,我们详细介绍了我们的无监督链接预测MRIP方法,并使用真实世界的例子显示其有效性,并将其与几个基线[10]和最近的工作[2]进行比较。

A.基线预测

大多数链路预测方法都是基于分析网络中节点邻近度的度量。基于特征的链路预测方法可以分为:1)基于节点邻居的方法;2)基于所有路径集成的方法。在类别1中,有几个基线预测因子,如共同邻居[14],雅克卡系数Adamic/Adar[6]和Preferential Attachment[7]。在类别2中,许多方法通过隐含地考虑两个节点之间所有路径的集合来细化最短路径距离的概念。

B.MRIP

在最后一节中,我们提出了方法设计的一个基本问题:如何在异构网络中传播影响/概率?。为了解决这个问题,我们需要知道任何给定的边类型I和j对之间的关系。然而,这导致了额外的问题:

  1. 我们如何定量地表示任何给定的边类型I和j对之间的关系?
  2. 两种边缘类型I和j之间的关系是对称的还是不对称的?我们对上述问题提出以下解决办法,将在第四节中详细说明。

1)链接相关性:在多关系和异构网络的分析中有许多工作,并且在[26] [27] [28]的工作中提出了维度/关系之间相关性的几个度量/概念。我们的解决方案是由生物学研究中的网络比对工作推动的,它包括不同链接类型的相互作用,以研究它们的相互关系[22] [23]。网络对齐算法的一个重要评估指标称为边正确性,它衡量正确对齐的边的百分比。

我们使用probability(i|j)来表示链路类型I和链路类型j之间的相关性。probability(i|j)相当于网络对齐的边正确性度量,是链路类型相关性研究的一种简单有效的方法。图5给出了一个玩具的例子。在图5中,当我们构建从一个网络到另一个网络的对齐时,条件概率相当于边的正确性。例如,当我们将facebook网络(5条边)映射到手机网络(3条边)时,五条边中只有一条正确对齐,因此probability(c|f)= 0.2;当我们将手机网络映射到facebook网络时,三条边中有一条是正确对齐的,这样probability(f|c) = 0.33。

边缘正确性在不同的维度上捕捉单跳距离节点对(网络中的边缘)之间的相互关系,这种方法可以容易地扩展到测量两跳距离节点对或三跳距离节点对之间的相关性。通过缩放节点对之间的跳距,对于链路类型I和链路类型j的h跳距离节点对,我们可以获得相关值(图4),描述链路类型I和链路类型j之间的h跳距离节点对的相互关系。然后我们可以构建相关向量(等式2)对于每对链路类型i和链路类型j,其根据它们在所有可能的跳跃距离h中的“边缘正确性”来描述两个链路类型ij之间的关系。

该向量可用于描述异构网络中不同维度的拓扑相似性。

在本文中,我们仅使用值(在以下部分中表示为probability(i|j)来描述链路类型的相关性。在将来,我们的MRIP方法可以很容易地推广到利用的信息。

2)非对称相互关系:直观地,对于任何给定的链接类型i和j对,probability(i|j)应该不同于probability(j|i)。例如,虽然两个朋友可能会互相打电话,但两个互相打电话的人不一定是朋友。

MRIP方法的指定基于以下考虑。

  1. 对于任何给定的第一类链接,影响不仅通过第一类链接传播,还通过其他类型的链接传播。
  2. 通过其他链路类型j传播的概率取决于链路类型I和链路类型j之间的相关性。

为此,我们修改等式1。

其中v和u是节点,β = 0.05是katz [9]因子,σ(i,j)probability(i|j),而|E(v,u)|-1是节点v和u之间除类型i之外的链接类型数(图6)。

MRIP使用广度优先搜索程序来传播概率。因此,score(v)是源节点(广度优先搜索源节点)和节点v之间链接的概率。katz 因子包含在设计中,以惩罚图6 (b)中描述的情况。远距离传播也会受到katz 因素的惩罚。此外,在等式中,顶部是通过链接类型I传播的影响分数,而底部是通过其他类型的链接传播的“隐藏”信息,例如类型j。如果链接类型j与链接类型I有显著的相关性,则通过它传播的“隐藏”信息也很大。从链接类型j到链接类型I的贡献取决于其自身的网络结构及其与链接类型I的相关性。如果有多种类型的链接与链接类型I相关,我们将通过它们传播的分数的平均值作为“奖励”部分;如果没有其他链接类型(|E(v,u)| = 1),则其他链接类型的“奖励”为零。

C.讨论

在我们目前的工作中,我们在设计中只采用了加权级联模型,实际上在不同的影响传播模型中,从源节点v传播到目标节点u的影响得分是不同的。我们未来的工作将找出在现实世界网络中哪种模型最有效。在最近的工作[2]中,戴维斯等人使用三元组信息来捕捉不同链路类型之间的相互关系,然而计算开销在大规模网络中并不可行。对于我们的方法,我们使用二进制信息来研究相互关系,降低了计算的复杂性。此外,在无监督实验中,我们可以证明我们的方法在疾病基因网络中的性能与MRLP[2]相当或更好。计算条件概率的时间复杂度为O(|E|),MRIP算法取O(|V|.|E|)所有可达节点对的时间。当我们将传播限制在h跳以内时,MRIP复杂度可以大大降低。

由于时间和存储容量等多种计算原因,对大型网络上所有可能的链路进行计算和评估是不可行的。[1]和[21]的工作都提出,短跳测地距离(即2跳或3跳)内的链路预测在许多网络中提供了更高的基线精度。有效地预测这个集合中的链接提供了合理部署性能的强有力的指标。在本文中,对于所提出的所有方法,我们将预测任务限制在三跳节点对的集合内,因为它们具有更高的形成先验概率和计算可行性。在这种情况下,当跳跃距离在3以内时,我们的MRIP方法的计算复杂度显著降低。

D.数据集

在本文中,我们使用了两个真实的异构网络来验证我们的方法的有效性。

  1. DBLP:基于[15]中的DBLP数据集,我们为数据中的每个活动附上时间戳,并选择了3,215位作者,他们在1990年至2010年间在与四个领域(数据挖掘、数据库、信息检索和机器学习)相关的会议上发表了至少5篇论文。有四种类型的节点——作者、论文、会议和术语——网络关系结构如图2所示。在本文中,我们重点关注合作作者关系(论文合作)、共同术语关系(出版物有相似术语)和共同会议关系(在同一年的同一次会议上出现,物理上接近)。对于无监督学习,我们选择1990年到2000年之间的数据作为我们的训练集,2001年到2005年之间的数据作为测试集。而对于监督学习,1990-2000年的数据作为特征集,2001-2005年的数据作为标签集,2006-2010年的数据作为测试集。
  2. 疾病-基因网络:疾病-基因(DG)网络由来自[2]的三个个体数据集构建。顾名思义,这个网络有两种不同的节点类型,疾病和基因,三种链接类型将它们连接起来,如图3所示。该数据集仅用于评估无监督学习实验,因为我们只有与[2]作者相同的无监督学习设置。疾病-基因网络由703种疾病和1,132个基因组成,10,483个遗传链接,10,483个表型链接,这些疾病和基因之间存在2,450个生产者价格指数相互作用。

E.实验结果

为了展示我们的MRIP方法在异构网络链路预测中的能力,我们使用公共邻居(CN)、Jaccard Coefficient(JC), Adamic/Adar(AA), Preferential Attachment(PA)和PropFlow作为基线。对于疾病基因网络,我们使用10倍交叉验证分层边缘保持方案。我们选择维持评估,因为纵向数据与疾病基因网络无关。在所有符合条件的节点对(u,v)上分别评估每种链路类型I的链路预测。

使用AUROC对每种链路类型分别评估链路预测性能,如表1和表2所示。粗体方法表示对应链接类型的最佳整体链接预测器。首先,我们注意到没有普遍占优势的方法,这是一个预期的结果,因为无监督的链接预测方法是领域特定的[2]。在疾病基因网络中,MRIP在预测遗传和生产者价格指数联系方面优于其他方法,而在预测表型联系方面,它的表现与表现最好的方法相当。我们还可以看到,我们的MRIP方法在疾病-基因网络的所有链接类型上与MRLP相当或更好。在DBLP网络中,MRIP在预测作者之间的合著率和预测作者共享的新术语/研究方面具有更好的性能,同时在会议演示预测方面也具有类似的性能。请注意,对于稀疏链接类型,如合著、术语和PPI,MRIP的表现优于PropFlow,因为MRIP考虑了链接信息的其他维度,这无疑提高了MRIP的有效性。总的来说,MRIP在大多数链接类型中运行良好,并且也是稳定的(如果不是最好的,也可以与最好的预测器相比)。

五.基于时间特征的方法

Taskar等人[13]利用对象的属性来支持异构网络中的链路预测任务。然而,通常由于安全原因和隐私问题,属性信息在现实网络中很难收集。此外,即使有些信息是可用的,如用户调查,它通常是不完整或不可靠的。我们需要能够潜在地暴露用户潜意识行为的信息,时间是我们拥有的最佳选择。另一方面,时间很重要,因为网络进化与时间相关。当网络中的用户做出决定时,他们的活动由时间戳标记,时间戳可以作为分析他们的行为模式的数据。因此,结合网络拓扑和相应的时间信息可以有利于链路预测任务。然而,如果不仔细调查,很难得出结论。

A.时态网络分析的一个简单案例

我们提取了1980年至2010年间的DBLP合作作者网络,并计算了每一年构建的新链接的数量,创建了一个时间序列,如图7 (a)所示。从图中可以看出,这个时间序列有显著的趋势。分析一个时间序列,初步的步骤是确定是否存在显著水平的单位根。Dickey等人[16]提出了一种称为增广Dickey-Fuller检验的方法,该方法可以判断时间序列中是否存在单位根。通过扩展的迪基-富勒检验,我们发现单位根p值是显著的(0.99)。因此,我们知道这个时间序列是非平稳的,需要对时间序列应用差分算子。通过这种方式,我们可以确定单位根非平稳模型适用于这个时间序列。要分析这样的时间序列,我们首先从原始数据中提取差异,然后分析其滞后顺序。例如,如果我们知道上一步有下降的趋势,那么我们可以预测这种趋势将在下一步继续。然而,我们不知道在没有滞后测试的情况下应该采取多少措施。对于第一个差分时间序列,如果我们使用最大似然估计(MLE)方法来验证它的滞后阶,我们发现滞后阶1是我们拥有的最好的。图7 (d)中的自相关函数图也证实了这一点。

这一观察表明,网络中的链接形成与时间密切相关,这为我们的方法设计提供了指导。结论是:1)当前阶段的网络演化在显著水平上依赖于最后阶段的网络;2)链路形成与时间显著相关,并且可以用相关的时间信息来建模。

除了全球趋势外,链接的形成也受到个体行为的影响。然而,分析个人行为的一个障碍是缺乏数据。DBLP度分布遵循幂律,这意味着大多数节点具有较低的度,因此为统计分析提供的信息很少。引导技术也是解决这个问题的一种选择。请注意,链接形成发生在两个节点之间;同样,如果有足够的信息用于其中一个节点,我们可以用它来指导我们的分析。在DBLP网络中,高度节点肯定有足够的时间信息用于分析,但是我们需要知道与它们相关联的新链接的百分比。基于度信息,我们按降序排列节点,并统计分析未来有多少新链接与它们的前K%相关联。在图8中,我们首先对1980年至2000年间观察到的网络中的节点进行排名,并计算2001年至2005年间有多少新链接与它们的前K%相关;我们对1980年至2005年间的网络和2006年至2010年间的新链路重复这个实验。我们可以看到,大约60%的新链路是由前20%的高度节点构建的,这意味着在链路形成中,两个端节点发挥的作用不同;相反,它们中的一个主导了链接的形成。这一发现将在下面的章节中指导我们对时态特征的设计。

B.时态特征与广义时态方法

我们现在介绍在我们的链路预测解决方案中使用的时间特征,以及基线预测器的一些概括。

1)新近性与活动性:新近性由Potgieter等人[17]提出,活动性由黄、林[18]提出。原来这两个特征是用来预测未来链路的复发的。新近是自节点进行最后一次通信以来经过的时间长度,而活跃性是在最后一个时间步骤中进行的通信数量。我们更改了定义以适应新的链接预测场景,其中最近度是自节点创建最后一个新链接以来经过的时间,活跃度是在最后一个时间步骤中创建的新链接的数量。

2)优先度可能性:该功能旨在捕捉网络中一个节点在试图选择另一个节点来形成新链路时的个性化行为。优先连接表明,高度节点有很大的可能性发展一个新的链接。当网络有一个外部媒介在节点之间传播影响时,这是正确的。例如,在学术合著网络中,影响力不仅通过网络传播,而且很大一部分影响力是通过其他媒体传播的,如杂志、电视或报纸。当这种外部媒介不存在时,例如在手机网络中,优先依恋假设可能导致较差的预测质量[1]。因此,在我们的论文中,我们分解优先依附。图11展示了分解的好处。在传统的公共邻居方法中,我们不能区分两个节点对共享相同数量的公共邻居的可能性,但是通过分解,我们可以捕获单个节点的偏好,然后区分一个节点对比另一个节点对具有更大的发生概率。

定义1。节点v的度优先向量是一系列历史数据,描述了当v和u形成一条链路时,节点v的邻居u的度。

      对于网络中的每个节点,我们记录一个优先度向量,如图10所示。然后给定两个节点u,v和它们的度优先向量,我们可以计算出prob(u|vector(v))和prob(v|vector(u))。在本文中,我们采用两种方法来计算问题:

1)天真模型:

2)零假设模型:

计算prob(u|vector(v))的障碍是,对于给定的连续PDF函数,单个值的概率为零。对于模型1,假设是,如果节点u被节点v选择用于链路形成的概率很高,那么范围(α,β)应该覆盖度优先向量中的大部分值。这是估计节点u选择节点v的概率最幼稚的方法,在模型2中,我们有一个零假设:vector(v)的均值是degree(u).。p值可以揭示这个零假设的显著水平。我们的启发式算法,节点u和v之间形成链接的概率,取决于degree(u)mean(vector (v))之间的接近度。

根据我们在第五节的发现,一个节点将主导一个链接的形成。因此,我们将节点u和v之间链接的可能性定义为:

α是确定一个节点是否有足够的历史数据用于分析的阈值,如果degree(u) < α,我们认为另一个节点v支配偏好,而如果两个节点都没有足够的历史数据,则可能性被分配为概率0。

这两个模型都假设,如果两个节点u和v的属性匹配得很好,那么就很有可能形成链接。然而,在现实世界的网络中,节点u度可能非常接近vector(v)的平均值,在这种情况下,它们仍然可能无法相互链接。如果我们能够从统计上收集这些信息,并开发一个更合适的模型,上面讨论的时态方法可能会获得更好的性能。

3)时间方法:要将静态基线预测器归纳为包含时间信息的方法,合格的方法应满足一些要求:

1)简单性:原始基线预测器的复杂性应简单,如公共邻居和Jaccard Coefficient。当考虑时间时,涉及方法的路径对于计算来说太复杂,即Katz。

2)一般性:这些原始基线预测器应该揭示节点行为的一般性,比如Preferential Attachment,它描述了人们在选择合作者时的一般行为模式。

基于以上要求,我们选择了公共邻居(CN)、Jaccard Coefficient(JC)、Adamic Adar(AA)和优先依附(PA)进行推广。类似于优先度向量(图10),我们可以收集每个节点的公共邻居优先向量,然后计算每对节点u,v的公共邻居优先似然分数。我们可以用同样的方法推广JC,AA和PA。(图12)

4)异构网络讨论:我们也可以通过使用其他类型的链接信息来开发一些时态特征。例如,当两个作者建立一个新的链接时,我们可以收集共同的会议号码,或者当一个链接形成时,我们可以收集关于他们的出版物术语有多相似的信息。通过这种方式,我们创建了一个称为时态会议的特征来测量两个给定节点之间的链接形成的可能性。选择哪种链接类型来构建这样的时态特征取决于它与我们预测的链接类型的相关性。类似的方法如元路径[3]可以用来评估相关性的重要性。

C.未监督的实验结果

在本节中,我们对上面介绍的时态方法进行了实验,并在表三中给出了用AUROC测量的它们的性能。从表中我们可以看出,时态方法通常比静态方法产生更好的结果。例如,在AUROC方面,临时公共邻居的表现比公共邻居高出9%。而时态Conference性能(0.681)甚至比proflow(0.676)还要好。时间程度相关似然性并不优于优先依恋,但仍具有可比性。此外,我们要注意的是,所有这些时态方法的计算复杂度都非常低,但是与PropFlow相比,它们可以获得更好或相当的性能。

总之,如果考虑时间信息,那么我们可以通过在同构和异构网络上推广静态基线预测器来获得更好的预测性能。

六. 不及物动词在统一监督模型中整合MRIP和时间特征

我们在几种情况下研究监督分类的性能:首先,如果我们涉及多关系特征,如MRIP,则研究链接预测的性能;第二,当包含时间特征时,链路预测的性能;第三,两者结合的预测器的性能。为了展示在链路预测中使用时间特征和MRIP特征的能力,我们使用逻辑回归打包(WEKA,默认参数)[12]作为我们的框架——时间模型和MRIP模型,这是二进制链路预测任务中经常使用的基线。我们还包括HPLP的WEKA随机森林(10棵树,默认参数)打包(高性能链接预测框架)[1],它包含了表4中列出的强大的同质特征,在我们的论文中,我们将其称为人类模型。请注意,对于VCP3U和VCP4U,我们使用随机子空间打包[24],如[20]中所述。VCP3U和VCP4U是最新的可在异构网络中工作的监督学习模型。在培训中,我们将培训样本设置为30%的正课堂普及率。我们不改变测试数据的大小或分布。

A.时间模型、MRIP模型和人类模型

在本节中,我们比较了三种监督学习模型。在时间模型中,我们只包括时间特征作为特征向量,对于MRIP模型,我们包括MRIP特征,而Homo模型是文献[1]中提出的同构网络的最佳监督框架。这三种型号的特性列表如表四所示。这里我们要指出的是,这些时间特征都是在零假设模型下计算的(第五节——B2)。此外,我们将我们的方法与第二节中描述的VCP3U和VCP4U进行了比较,VCP3U和VCP4U的详细特征向量可以在[20]的工作中找到。

表五给出了VCP3U和VCP4U这三个模型的实验结果。有趣的是,我们可以看到时态模型的性能优于所有其他模型。此外,在我们使用多关系特征(MRIP模型)的观察中,我们可以获得比仅使用同质信息(人类模型)更好的极光。我们推测,通过结合这些有用的特征,尤其是时间特征,可以获得更好的性能。

B.时态多关系模型

在这一节中,我们将时态特征与多关系特征和信息同质特征相结合,产生了一个更有效的模型。对于本节中的表六,磁流变模型意味着我们使用来自MRIP模型和时间模型组合的特征,磁流变模型意味着磁流变模型和时间模型的特征组合,磁流变模型意味着所有特征的组合。

显然,我们可以得出结论,磁流变模型优于所有其他解决方案,我们可以通过逻辑分类器获得比随机森林分类器更好的AUROC性能。

6.3 分析和讨论

因为单独的AUROC有时会产生误导,我们还在图13中包括了ROC(接收机工作特性曲线)曲线。从图13可以看出,MRIP模型在预测合著率方面优于Homo模型、VCP3U和VCP4U,而时间模型优于VCP3U、VCP4U和Homo模型。在我们的观察中,通过考虑时间信息和多关系信息,我们可以在链接预测任务中获得比最近的竞争工作更好的性能,即VCP3U、VCP4U和Homo模型。MR-TM-Homo在AUROC方面的表现比Homo Model高出近20%。

作为监督学习问题,链路预测的一个重大挑战来自于网络的稀疏性和相关预测值。我们定义了一个称为密度比的度量来衡量链接预测的稀疏性。

定义2。预测器p的密度比表示链路预测空间中有多少百分比的节点对具有由预测器p分配的相应分数。

链接预测值的稀疏性使得监督分类器难以区分正类和负类。多关系链接预测器和时间链接预测器可以获得比传统链接预测器更好的性能,因为它们克服了稀疏性问题。从表七中,我们可以看到多重关系链路预测器和时间链路预测器比传统链路预测器(即公共邻居)具有更大的密度比。

我们可以观察到链路预测器的稀疏性与其预测性能密切相关。然而,稀疏性不是决定链路预测器性能的唯一因素;例如,DBLP网络上的优先流值比优先连接法要稀疏得多,但是优先流法比优先连接法具有更高的AUROC分数。链路预测器的内在能力(如启发式、可行性和通用性)是决定其性能的另一个关键因素。直观地说,MRIP特征和时间特征基于更丰富的信息来估计新链接的可能性,因此它们无疑为分类器提供了更多可学习的信息。

D.性能趋势

当我们调整测试集的规模时,我们得到了不同的AUROC分数,我们发现性能趋势与我们在前面的第五节中分析的全球趋势一致。

一个有趣的观察是,2006年至2010年之间的全球新链接建设时间序列与表八中的AUROC分数高度相关,随着时间的推移呈现相同的趋势。这意味着全局链路构建趋势可以影响链路预测的性能,正如我们在第五章中所讨论的。这也激励我们在未来的工作中包括链路形成的全局趋势,因为链路预测器对链路发生时间的感知性能不应受到测试集规模的显著影响。

七.结论

我们提出了两种类型的预测器,可用于非监督和监督模型,用于异构网络中的链路预测。无监督预测器MRIP被证明在异构网络上比各种竞争方法具有更好的性能。我们还设计了几个无监督的时间链接预测器,它们是从经典基线预测器扩展而来的。就AUROC而言,它们的性能比原始方法高出9%以上。在本文的监督工作中,我们使用MRIP和无监督时间预测器作为特征来构建一个有效的异构网络链路预测模型。利用时间特征和多关系特征的模型在DBLP合著预测上表现出良好的性能。

我们还讨论了全局链路形成趋势对链路预测器性能的影响,这表明包含趋势感知特性可能有利于链路预测。此外,我们还证明了时态特征可以提高链接预测的性能,从而激发我们下一步的工作来有效地捕捉网络中丰富的时态信息。未来开发时态特征可能会给我们带来一个更有效的模型,它可以用于异构网络场景。

【论文翻译】预测多关系和异构网络中的链接相关推荐

  1. 【论文翻译】从进化和异质网络中表征和预测社区成员

    从进化和异质网络中表征和预测社区成员 摘要 近年来,从web数据中挖掘不同类型的社区吸引了大量的研究工作.然而,现有的社区挖掘技术都没有考虑到web数据的动态性和异构性.在本文中,我们提出了从异构we ...

  2. 【论文翻译】HeteSim:异构网络中相关性度量的通用框架

    原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许 ...

  3. 论文笔记——HDD算法:异构网络中信息扩散的深度学习方法

    HDD算法 发表在knowledge-Based Systems上的一篇文章.有许多现实世界的复杂系统与多类型相互作用的实体,可以被视为异构网络,包括人类连接和生物进化.这类网络的主要问题之一是预测信 ...

  4. 【电信学】【2019.03】5G异构网络中的移动性管理

    本文为澳大利亚埃迪斯科文大学(作者:Mohammad Arifin Rahman Khan)的硕士论文,共91页. 近年来,由于智能手机.平板电脑和笔记本电脑等便携式设备的普及,移动数据流量呈指数级增 ...

  5. 【文献阅读】异构网络中的联邦优化——FedProx

    本文是FedProx的论文,值得一看. 由于本文之前有简单看过一次,这次就不细读,就只读其中比较重要的部分也就是PedProx的实现和收敛证明. 定义 1:(-不精确解) 对于一个函数  ,其中 .我 ...

  6. m基于基站休眠的LTE-A异构网络中节能算法matlab仿真

    目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 要求 1.开发一个软件工具,可以直观地演示如何在LTE-A异构网络中通过基站的睡眠模式节约能源 2. ...

  7. 【论文翻译】HinCTI: 基于异构信息网络的网络威胁情报建模与识别系统

    HinCTI: 基于异构信息网络的网络威胁情报建模与识别系统 摘要 网络攻击日益复杂化.持久化.组织化和武器化.面对这种情况,全世界越来越多的组织正显示出越来越愿意利用网络威胁情报公开交换(CTI)来 ...

  8. [论文阅读] (ASONAM2019) Meta-GNN: 属性异构网络中用于半监督学习的元图神经网络

    论文标题:Meta-GNN:Metagraph Neural Network for Semi-supervised learning in Attributed Heterogeneous Info ...

  9. Translating Embeddings for Modeling Multi-relational Data 论文翻译:多元关系数据嵌入

    摘要 1简介 2transE模型 3相关工作 4实验 1数据集 2实验设置 3链接预测 4用几个例子学习预测新关系 5总结和展望 摘要: 考虑多元关系数据得实体和关系在低维向量空间的嵌入问题.我们的目 ...

  10. Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

    今天给大家介绍的是2020年1月在Chemical Science上发表的论文"Target identification among known drugs by deep learnin ...

最新文章

  1. ESP8266-SDK编写的TM1668程序驱动数码管
  2. c++buider2010 中.dfm无法打开设计界面的解决方法
  3. 大规模中文多模态评测基准MUGE发布
  4. android 中开启线程的方法,android中开启的循环线程
  5. 玩转GIT系列之【如何放弃本地/服务器端所做的修改】
  6. 移动端上传大文件到服务器,android上传大文件到服务器地址
  7. 洛谷 深基 第1部分 语言入门 第4章 循环结构程序设计(2022.02.14)
  8. php 简单的socket,【技术产品】PHP如何实现简单的Socket
  9. nlogn 求最长上升子序列 LIS
  10. powerDesign导出数据库表结构
  11. Word 论文排版操作顺序
  12. 当数学题加上了程序员思想
  13. 获取当前的时间是第几周
  14. Windows系统的Chrome 调试运行在 IOS-safari (iPad/iPhone)上的页面
  15. android屏蔽表情输入法,Android中EditText屏蔽第三方输入法表情的方法示例
  16. 病毒---手动删除Trojan.Miner.gbq病毒
  17. python学习笔记——字符串操作
  18. 基于JAVA酒店管理系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
  19. word16使用多级列表给章节编号时,如何从指定章节开始编号?(如何实现部分章节编号)
  20. 拓扑排序总结(Kahn算法)

热门文章

  1. 2MSL的特点及意义
  2. 百度指数-批量查询器
  3. VMware VMFS分区表恢复
  4. excel日期改成字符类型_Excel表格中怎么把日期格式转换成文本格式?excel表格自定义格式的日期...
  5. 解system.img linux,MTK6577---解压system.img
  6. 《阵列信号处理及MATLAB实现》绪论、矩阵代数相关内容总结笔记
  7. 电脑上编辑文件打字时页面乱跳解决方法
  8. 移动云迁移工具:物理服务器迁移到移动云
  9. 注册表关闭计算机默认共享,4种方法教你彻底关闭WINDOWS默认共享
  10. Power BI 企业邮箱账户注册