Random Walks: A Review of Algorithms and Applications2020翻译

在翻译的时候公式太多,公式部分有些乱码。如果需要可以看看本文的文字,感兴趣的话直接去看原文公式。
摘要:

随机漫步被称为随机过程,它描述了数学空间中包含一系列随机步骤的路径。它在数学和计算机科学等各个学科中越来越受欢迎。再者,在量子力学中,量子游动可以看作经典随机游动的量子类似物。经典随机漫步和量子漫步可用于计算节点之间的邻近度和提取网络中的拓扑。各种随机游走相关模型可以应用于不同的领域,对于链路预测、推荐、计算机视觉、半监督学习、网络嵌入等下游任务有着重要的意义。在这篇文章中,我们旨在提供一个经典随机漫步和量子漫步的综合评论。我们首先回顾了经典随机游动和量子游动的知识,包括基本概念和一些典型算法。我们还从时间复杂度的角度比较了基于量子行走和经典随机行走的算法。然后介绍了它们在计算机科学领域的应用。最后,我们从现有算法的效率、主存容量和计算时间的角度讨论了有待解决的问题。这项研究旨在通过探索随机漫步和量子漫步来促进这一不断发展的研究领域。

关键词:

随机漫步、量子漫步、算法、计算科学。

1. INTRODUCTION

随机漫步是数学空间中的随机过程。它描述了数学空间中由一系列随机步骤组成的路径。它最早是由皮尔逊在1905年提出的[1]。斯皮策[2]为数学研究者提供了随机漫步的完整综述,并清楚地展示了随机漫步的数学原理。随机漫步可用于分析和模拟对象的随机性,并计算对象之间的相关性,这在解决实际问题。它正迅速成为计算机科学、物理、化学、生物学、经济学等领域的重要工具。

在数学空间中,一个简单的随机游动模型是在规则格上的随机游动,其中一个点在每一步都可以根据一定的概率跳到另一个位置婴儿分布。在特定的网络中节点间的转移概率与其相关强度正相关。也就是说,他们的联系越紧密,关系就越密切可能性是。经过足够的步骤,我们可以获得一个和多个可以描述网络结构的。

计算机科学领域最典型的基于随机游走的算法是PageRank[3]。它通过在网页之间随机移动来计算网页的重要性。研究人员开发了一系列PageRank的变体,如个性化PageRank[4]、[5],并改进了原有的随机游走规则,提出了一些新的算法,如重新启动随机游走(RWR)[6]和懒惰随机游走(LRW)[7]。

量子行走是由Aharonov等人于1993年首次提出的。量子行走可以看作是量子力学中经典随机行走的反作用。经典随机游动与量子游动的主要区别在于量子游动不收敛于某些极限分布。由于量子干涉,它们可以比经典随机游动传播得更快或更慢。与经典的基于随机游走的算法相比,基于量子游走的算法具有更低的时间复杂度[9]-[12]。他们可以提供指数加速比任何经典算法[9]。基于量子行走的算法大致可以分为两类:基于离散时间的算法和基于连续时间的算法[13]。

利用网络拓扑结构实现了随机游走,因此它也可以用来计算节点之间的接近度。例如,研究人员在协同过滤领域引入了基于随机游动的算法[14]-[19],与其他替代方法相比,基于随机游动的算法可以包含大量的上下文信息。与协同过滤一样,链路预测与推荐系统也以计算所选节点的最接近节点为目标。因此,随机游动在链路预测和推荐系统中也是有效的[20]-[27]。随机游动还可以应用于计算机视觉[7]、[28]–[36]、半监督学习[37]–[41]、网络嵌入[42]、[43]和复杂社会网络分析[44]。一些研究人员也在专注于研究k

图1。随机游走综述的框架。

随机游动在图[45]、[46]、文本分析[47]、科学[48]和知识发现[49]上的应用。QuantumWalks经常用于加速经典算法。它可用于决策树[10]、搜索问题[11]、[12]和元素清晰度[50]、[51]。

本文对随机游动进行了综述。据我们所知,这是第一次一起回顾经典随机游动和量子游动。本文从随机游动的基本概念、算法和应用等方面综述了计算机科学领域中的随机游动。并对这些算法进行了系统的比较。此外,还介绍了随机游动和量子游动的一些尚未解决的问题。

在接下来的文章中,我们首先在第二节介绍了经典随机游动和量子游动的基本概念和符号。特别地,我们从两个方面介绍了量子行走:离散时间量子行走和连续时间量子行走。在第三节中,我们重点介绍了经典随机行走和量子行走的一些典型算法。并对这些算法进行了分析比较。在第四节中,我们展示了不同算法的应用场景,并指出了它们的优缺点。第五节重点分析了存在的问题和今后的发展方向。最后,在第六节中总结了本文的工作。图1总结了本文的总体结构。

2. PRELIMINARIES AND NOTA TIONS

在本节中,我们将介绍有关随机漫步的基本概念和符号,包括经典随机漫步和量子漫步。表一列出了本文中常用的符号。

2.1 Classical Random Walks

随机游走被称为随机过程。它描述了在数学空间上由一系列随机步组成的路径,它可以表示为{ξt,t=0,1,2,…},其中是一个随机变量,它描述了一步一步地随机行走的位置。序列也可以看作马尔可夫链的一个特殊范畴。在随机游动的初始状态下,位置可以是固定的,也可以从某个初始分布中提取[45],我们可以用以下步骤来表示位置的分布:ξttξ0 0 t**型

其中(i)是随机游动在步骤之后到达该位置的概率。如果游动位于步后位置,则单步转移概率是指随机游动在下一步后移动到该位置的概率。其表示为并可计算为:Pt公司我t型我tj**皮杰

此外,步骤转移概率定义如下:

从图表示的角度,设=(V,E)是连通图,其中是顶点集,是边克五电子

表1 一些符号的描述

设置。矩阵的邻接矩阵表示为∈R,其中是矩阵中的节点数。表示从节点到节点的边的权重。那么图上从一个节点到另一个节点的转移概率(单步)可以定义为:

进一步地,设=(pij)i,j∈V为转移概率矩阵。然后我们可以定义哪个表示对角矩阵:

因此我们可以将图的转移概率矩阵重新定义为:

随机游走的规则可以表示为:

其中可看作R中的向量,其第n个元素是指从初始节点开始的随机游动经过步骤到达第n个节点的概率。我们可以计算为:

的拉普拉斯矩阵可定义如下:

**命中时间。**命中时间可以看作是从节点开始的随机行走中访问节点之前的预期步数[45]。命中时间的递归定义如下:

其中表示节点之间的命中时间,节点是节点的直接邻居。是从一个节点到另一个节点的转移概率。Nis是节点的邻居集[44]。

即使在正则图中,击中时间矩阵也不是对称的。Lovasz[45]证明了关于击中时间的另一个重要事实:击中时间遵循三角形不等式。

**上下班时间。**节点之间的通勤时间定义为:

这意味着随机游走中的例外步数,从开始,在访问节点之前,然后再次到达节点[45]。为了研究无向图上的通勤时间,Chandra等人[52]给出了一个电气网络视图。他们将图表上两个节点之间的通勤时间与电网上的电阻进行比较。它们给出了无向图上通勤时间的一些直觉:

l 电阻越小,电流就越容易通过电网。较短的通勤时间可以使随机步行者更容易扩散到无向图中。

l 通勤时间应该对小扰动有很强的鲁棒性,这样移除或添加一些电阻在电网上就不会有太大的变化。

2.2 Quantum Views of Random Walks

可伸缩量子计算机是一个热门话题,因此量子计算方法是当今的热门话题。量子行走是量子力学中经典随机行走的对应部分。它们之间的主要区别在于量子行走不会收敛到某些极限分布。由于量子干涉,量子游动的传播速度比经典随机游动快或慢。现有文献对量子随机游走作了全面的介绍[8]、[13]、[53]、[54]。

在量子力学中,我们用波包来表示一个位置附近的波包0. P是动量算符。质点随长度的平移可表示为幺正算子,其计算公式为[13]:

式中,ˆ是约化普朗克常数,它是测量角动量的最小单位。同时满足以下公式:

我们可以设置ˆ=1来简化表示法。

我们可以假设粒子具有自旋1/2自由度,并将与自旋分量对应的算符表示为z**深圳. 和的本征态| ↓. 自旋为1/2的粒子可以用2矢量来描述:

其中是粒子波函数的分量

粒子在自旋-|↓空间中的运动。

量子行走的概念是由Aharonov等人于1993年首次提出的。Kempe[13]提出了两种量子行走,包括离散时间量子行走和连续时间量子行走。我们将介绍一个一维空间的简单例子,帮助读者快速理解离散时间量子行走和连续时间量子行走的基本思想。

1*)* *离散时间量子行走:*我们可以为一维量子行走定义一个空间H=H⊗H[13]。Hdenotes Hilbert空间由粒子的位置所跨越。对于一维希尔伯特空间,它可以表示为:pcp

粒子在. 小时c表示由两种基本状态组成的硬币空间。

酉运算定义了空间H上的条件转换:

其中∈Z,⊗是张量积,它将自旋和空间这两个自由度分开,并允许我们更清楚地观察这两个自由度之间的关联[13]。可以实现以下等式:

这意味着如果粒子自旋向上,它会向右跳跃,如果自旋向下,它会向左跳跃。

C**级是一个可以旋转自旋的幺正变换。最常用的酉变换之一是阿达玛币[13]。以下是一个示例:碳氢化合物小时小时

哈达玛之行是[13]:Z**轴

然后,单步量化转换可以定义为:

量子步进被定义为变换。t**型美国犹他州

2*)* *连续时间量子行走:*连续时间量子行走的最初目的是利用经典随机行走来加速算法。连续时间量子行走的概念由Farhi等人于1998年首次提出。作者利用决策树算法中的量子游动代替了经典的随机游动。与离散时间量子行走不同的是,连续时间量子行走不需要硬币空间,而是完全发生在希尔伯特空间H[13]。连续时间量子行走的概念来源于连续时间经典随机行走。Kempe[13]给出了连续时间随机游动的另一个表达式:cp

它类似于方程(8),而ˆ是一个结构类似于的无穷小生成矩阵。小时米

Farhi等人[10]提出的关键思想是,生成矩阵ˆ将成为过程的哈密顿函数,并产生如下演化(t):小时U

Strauch[55]提出了离散量子行走和连续量子行走之间的联系。作者发现,通过精确的极限过程,离散量子行走可以转化为连续量子行走。

3. ALGORITHMS BASED ON RANDOM WALKS

在本节中,我们将介绍一些基于经典随机游动和量子游动的典型算法。

3.1 Algorithms Based on Classical Random Walks

1*)* *页面排名:*PageRank是1999年由Page等人[3]首次提出的。目的是在万维网(WWW)中对网页进行排名。将网页网络视为一个以网页为节点的图。如果有一个网页包含指向另一个网页的超链接,那么这两个节点之间应该有一条定向边。边的方向与web重定向方向相同。最简单的PageRank可以用以下数学公式来描述:

其中(u)是网络的排名。是指向页面的页面集,是一个规范化参数。设(v)为指向的页面集。是(v)中的页数。

简单形式对应于网络上随机游动的持续概率分布。当一个随机游动快速收敛到节点集上的一个极限分布时,就可以看作是快速混合。证明了一个随机游动可以在WWW的图上快速混合[3]。节点的重要性可以看作是随机游走者经过足够长的步数到达节点的概率。数学表达式为:

放射性同位素+1 =MRTt(25)

其中是PageRank的向量,是转移概率矩阵。右机器翻译

为了提高PageRank的收敛速度,Kamvar等人[56]提出了一种称为二次外推的PageRank计算新算法。它加速了幂法的收敛。该算法的主要策略是周期性地减少非主特征向量的估计。

PageRank的结果与用户搜索的关键字无关。为了解决这个问题,Haveliwala等人[5]提出了个性化PageRank:

放射性同位素+1 =(1−α)MRTt+αp(26)

其中是衰减因子,是个性化PageRank向量,它反映了图中每个节点对于特定用户的重要性。αp

2*)* *带重新启动的随机行走:*RWR最早由Pan等人[6]提出,用于计算节点与节点之间的亲和力。考虑到一个从节点开始的随机游动,该游动者返回节点的概率与经典随机游动不同。设(j)表示随机游走者访问节点的稳态概率。公式为:j我我c用户界面**j

u**我=(1−c)米Tu**我+ce公司(27)

其中是RWR从节点开始的概率分布向量。是一个向量,其对应于节点的条目等于1,其余元素为0。用户界面我工程安装我

设={V1∪V2,E}表示二部图,其中={ai | 1≤i≤k}和={ti | 1≤i≤n}。和分别是和中的节点数。邻接矩阵可以写成:克五1 2 kn**五1 2AB**型

​ (28)

这里是-按矩阵。利用二部结构,Sun等人[57]提出应计算为:Akn**用户界面

其中(1:k)和(k+1:k+n)分别是的第一个和最后一个元素的向量。他们只在包含querynode。换句话说提出了一种基于图划分的局部RWR估计方法。用户界面用户界面kn用户界面

当RWR应用于大型图时,它非常耗时。为了填补这一空白,Tong等人[58]通过低秩近似提出了一种快速RWR。作者首先将RWR改写为:

用户界面=cMˆTui+(1−c)ei

=(1−c)(I−cˆT)−1埃

​ =(1−c)Q−1ei(30)

其中=I−cMˆT,ˆ是归一化加权矩阵与…相关ˆ=Mˆ1+Mˆ2,其中ˆ1是分区矩阵,ˆ2是交叉分区矩阵。然后,他们建议使用奇异值分解来计算B泳LIN:问米米米米米用户界面

1 =(1−厘米ˆ1)−1

ˆ2=USV公司

∧=(ˆS−1−cV Q−11)−1=(1−c)(Q−11ei+cQ−11U∧V Q−11ei)。(31)U**型用户界面

随机游动用于计算节点和特定节点之间的接近度。如果我们想找到top-k节点,我们可以按照Fujiwaraetal提出的方法[59]调用k-dash来计算仅选定节点的接近度,以找到top-k节点。他们首先得到以下方程式:

用户界面=cMˆTui+(1−c)ei

=c(I−(1−c)ˆT)−1ei

​ =cW−1ei(32)

式中=I−(1−c)MˆT,ˆ是与相关联的列标准化加权矩阵。因为它们不需要计算所有节点的接近度,是一个稀疏矩阵,但可能是稠密的。当图变大时,需要二次空间来保持逆矩阵,这是不现实的。然后通过LU分解进行如下计算:W型米米WW**型−1W**型用户界面

W**型=LU u=cU−1−1(33)e**我

其中矩阵和分别是上三角形和下三角形。−1U**型−1

3*)* *懒散的随机漫步:*LRW[7]用于解决图像分割问题。它首先在给定的图像上定义一个图,其中每个像素都是凹痕如果用阳极引出,相似性节点与节点之间定义为:我**j


(34)

其中是节点的图像强度值。是用户定义的参数。每个节点的阶数计算如下:胃肠道我**σ

​ (35)

表二经典算法的比较分析。

转移概率矩阵计算如下:

⎧1 − α ⎪⎪⎪⎨α·w伊吉**/d 皮杰= ⎪⎪⎪⎩0 如果i=j如果i∼j, 否则*.* (36)

其中∼j表示两个节点是相邻节点。是范围(0,1)内的控制参数。该等式意味着LRW中的当前节点将具有停留在节点处的概率(1−α)和行走到相邻节点的概率。LRW将收敛到一个唯一的平稳分布,如下所示:α我我**αu

​ (37)

综合以上算法,PageRank、personalized PageRank、RWR和LRW在大型图上都是非常耗时的。二次外推很好地加快了PageRank的收敛速度。由于个性化PageRank中的个性化向量,对不同的用户更有意义。个性化PageRank和RWR有相似的形式。二部图[57]上的RWR收敛更快,但没有普遍性。相反,B琰LIN和K-dash在任何图上都有很快的收敛速度。由于K-dash中使用的LU分解并不像B\LIN中使用的SVD那样是一种近似方法,因此K-dash比B\LIN更精确地计算接近度。表II显示了这些算法之间的差异。

3.2 Algorithms Based on Quantum Walks

在本节中,我们将介绍一些基于上述两个量子行走模型的算法。我们可以发现量子游动和经典随机游动有一些不同的性质。

我们将根据算法使用的模型将算法分为两类。第一类是基于连续时间的量子行走,如量子决策树算法。另一种是基于离散时间的量子行走,如量子PageRank算法。

图2。Balancetree.WewanttofindthenodenamedexitbyClassicalRandom从入口开始的步行或量子步行。

3.2.1 Continuous Quantum Walk Based Algorithms

Fahri等人[10]以决策树算法为例,首次提出了连续量子行走的思想。他们选择了用概率规则系统地探索整棵树的方法。

将决策树节点看作Hilbert空间中的量子态。然后他们构造了一个决定量子系统时间演化的哈密顿函数。在哈密顿函数的基础上,作者提出了等式(23)中的酉时间演化算子,发现如果经典的基于随机游走的算法需要时间多项式才能达到水平,量子游走也可以实现是的,而且对于需要时间指数的经典算法,证明了它是可穿透的利用该量子算法,决策树对应的问题在多项式时间内是可解的。小时**nnn

Childs等人[9]构造了一个预言问题,这个问题可以通过亚指数时间内的量子行走来解决。他们首先在图2中引入一个由两个高度平衡的二叉树组成的图。然后他们通过随机选择左边的一片叶子来修改图形,并将其连接到图3中随机选择的右边的一片叶子上。经典随机游动或量子Gr公司n

图3。修改平衡树。我们想通过从入口开始的经典随机游走或量子游走来找到一个名为Exit的节点。

从入口走到出口。他们定义了一个基于邻接矩阵的哈密顿函数来在图上建立量子行走。ˆ的方程式为:小时克小时

(38)

节点的节点在哪里节点之间的边n节点是移动到下一个相邻节点的概率。证明了量子游动比任何经典的随机游动都具有指数级的优越性。然而,该算法只找到名为EXIT的节点,没有找到从入口到出口的路径。

3.2.2 Discrete Quantum Walk Based Algorithms

为了研究PageRank算法在量子网络中的行为,Paparo等人[60]提出了量子PageRank算法。他们给出了一类可容许的量子PageRank算法,而不是一个特定的定义。

作者利用了离散时间量子行走的思想。它们定义了硬币空间HH。硬币空间的定义类似于一维量子行走。c希尔伯特空间p

​ (39)

由于PageRank算法应用于图,作者将Hilbert空间定义为有向边空间:

​ (40)

其中表示图上的所有节点。下标1、2用于表示方向[60]。

作者还揭示了量子PageRank算法在复杂现实网络中的性质[61]。他们发现量子PageRank算法比经典PageRank算法更能揭示网络的基本拓扑结构。

考虑到数据库中的搜索问题,经典算法需要(N)步来寻找目标元素,其中i元素的数量。格罗弗[11] 提出了一种新的基于量子行走的算法来解决这个问题。事实证明O**不

该算法只需(√N)步就能找到相同的目标。受此影响,Shenvi等人[12]提出了一种基于离散量子行走的算法。它可以看作是一个离散的行走过程O

并实现了(√N)搜索时间。O

由于这些算法适用于不同的场景,因此很难对其性能进行评估。与经典的随机游走算法相比,量子游走算法的计算复杂度和收敛速度都有了很大的提高。量子行走的应用范围也更为广泛。此外,基于量子行走的算法在保持网络拓扑结构方面优于经典的基于随机行走的算法。虽然近年来对量子行走的研究有所增加[62]-[65],但从原理、机理和应用的角度来看,量子行走仍然值得探索。

4. APPLICA TIONS OF RANDOM WALKS

随机行走已成功应用于计算机科学的各个领域,如推荐系统、计算机视觉和网络嵌入。在这一节中,我们选择一些主要的应用来说明随机游动在这一节中的有效性和实用性。

4.1 Collaborative Filtering

协同过滤是一种通过收集许多用户的偏好来自动预测用户兴趣的方法。它假设两个在一个问题上有相同品味的人在其他问题上会有相同的兴趣。

许多文献记录了协同过滤的方法,成功地演示了贝叶斯方法、非参数方法、线性方法等,这些方法本质上是相同的。他们会根据自己的选择来匹配不同的人,并结合他们的经验来预测未来的选择。

Brand等人[15]引入了协作过滤的随机漫游视图。他们希望研究关系数据库关联图上的亲和力关系,找出客户下一步想要购买的产品。

图4示出了关联图的片段。研究了关联图上随机游动的期望行为,提出了一种新的基于余弦相关的相似性度量方法奥斯塔西纳兰多姆沃克。一个重要的随机游动视图的优点是它可以包含大量的上下文信息。通过交叉验证实验,证明了新测度比原测度具有更强的预测能力和抗干扰能力。

Fouss等人[16],[17]在电影合作推荐中也使用了随机游走。作者利用关系数据库的图形结构来计算集合中元素之间的相异性。他们比较了十种不同的评分算法。其中五个是基于随机游走:平均通勤时间(CT,正常和PCA为基础),平均

图4。关系数据库中客户产品关联图的示例。基于整个图上两个状态的余弦相关性,可以从随机游动的统计信息计算成对(客户)之间的亲和力。

首次通过时间(单向和返回),以及拉普拉斯矩阵的伪逆()。

它们介绍了计算关系数据库元素之间相似性的一般过程。作者以电影推荐为例,说明()与标准方法相比,几乎总是提供最好的结果。

Yildirim等人[18]提出了一种新的面向项目的算法,称为dr我是第一次来这里基于相似性的项目间转移概率。他们首先构造一个项目图,该图捕捉项目之间的相似性。然后,他们通过模拟图上的随机游走来计算每个用户项的秩值。排名值可以看作是用户和项目之间的评分。他们证明了他们的方法明显优于top-N算法[66],尤其是在训练数据稀疏的情况下。

协作过滤中最大的问题之一是Resnick提出的冷启动问题[67]。这意味着,对于那些只给ve评分的用户来说,很难进行协作过滤RY数量很少。尽管这是计量单位-基于方法[68],[69]试图解决的问题,精度不够好。

Jamalizetal[19]提出了解决这个问题的ModelCalledTrustWalker。它们结合了基于信任和基于项目的协作过滤方法来进行推荐。它不仅考虑了靶细胞的抑制作用,还考虑了类似物的抑制作用。

因此,信任网络中的用户会对源用户保持很强的信任,同时获得足够的评价,从而提高推荐的准确率。

4.2 Recommender System

推荐系统是信息过滤系统的一个子类,它试图预测用户对项目的评价或偏好。它通常使用三种方法来生成推荐列表:协作过滤、基于内容的过滤和混合过滤。

Gori等人[20]提出了ItemRank,这是一种基于随机游动的评分算法。它可以用来根据预期的用户偏好对产品进行排名。他们构建了电影的相关图。借助于相关图,它们可以传播用户的偏好。此过程类似于PageRank。因此,它可以被视为PageRank的一个有偏见的版本,设计用于推荐系统。

Gori等人[21]提出了基于随机游动的PaperRank算法来解决论文推荐问题。其结构类似于ItemRank[20]。他们利用引文图所表达的模型,为研究者找出与研究课题相关的有价值的论文。在ACM门户数字图书馆数据集上的实验证明了PaperRank的优异性能。

Xia等人[22]提出了一种称为CARE的方法,将作者关系和历史偏好结合起来,用于科学文章推荐。他们假设一些研究人员更喜欢搜索同一作者发表的文章来找到他们感兴趣的文章。作者根据合著者的关系信息建立了一个图表。然后利用随机游动和重新启动生成推荐列表。与一些基线算法相比,该算法在查准率、F1评分和查全率方面都有更好的表现。

学者合作在学术研究中是非常重要的,但要找到有价值的合作者是很费时的。Xiaetal[23]提出了基于随机游走的MVCWalkerMethod来寻找最有价值的合作者。作者使用三个学术因素来定义学术社交网络中的链接重要性。然后,他们在网络上执行随机游走并重新启动,以获得最有价值的合作者的推荐列表。

4.3 Link Prediction

网络中的链路预测是指如何预测网络中尚未通过网络信息连接的两个节点之间的链路的可能性。人们提出了许多方法来解决这个问题[70],[71]。LibenNowell等人[72]详细比较了链路预测中的不同方法,包括命中时间、PageRank和随机游动的其他变体。

上下班时间和上下班时间的计算非常耗时。为了解决这个问题,Sarkar等人[24]在链路预测任务中提出了通勤时间的截断变量。它利用了图的局部结构。然后,他们提出了一种称为GRANCH的算法来找出哪两个节点在不久的将来会有一条边。实验证明,GRANCH算法在保持算法性能的同时,减少了计算量和存储量。

同样,Liu等人[25]提出了两种基于局部随机游动的链路预测相似性指标:局部随机游动指标和叠加随机游动指标。在保持良好预测精度的同时,具有较低的时间复杂度。

Backstrom等人[26]提出了监督随机游动。它是一个有监督的学习任务,根据包含丰富节点和边缘属性的网络信息对节点进行排序。它的目的是学习分配边的强度的函数的参数,这样随机游走者就更有可能到达将来将创建新链接的节点。

链接预测还有助于研究人员发现miRNAs与疾病之间的潜在关系[27]。作者认为miRNA疾病异质网络是两个重叠的子网络:miRNA相似子网络和疾病相似子网络-网络。他们雇佣了随机化的人重新开始预测可能与疾病相关的miRNA候选基因。交叉验证和实例分析表明,该方法具有良好的预测性能。

4.4 Computer Vision

计算机视觉是一个跨学科的领域,研究如何使计算机从数字图像或视频中获得高层次的理解。它的任务包括获取、处理、分析和理解数字图像的方法,以及从现实世界中提取高维数据的方法。

Meila等人[28]提出了一种图像聚类和分割的方法基于随机漫步。作者关注两两(或基于相似度的)聚类和图像分割。他们将两两相似性看作马尔可夫随机游动中的边流,并研究了特征向量的性质和转移矩阵的值。

Gorelick等人[29]使用随机游动来描述图片的形状。对于每个内部像素,它们计算的值反映了从像素开始到达边界所需的平均时间。利用这些计算值,提取出轮廓的许多特征,如轮廓的局部结构、骨架、局部方向、凸部和凹部等。

Grady等人[30],[31]提出了一种新的多标签交互式图像分割算法。交互式图像分割是指用户必须手工标注图像中的某些像素。该算法可以计算随机游走者从一个未标记的像素到达预先标记的像素的概率。因此,通过以最大概率将每个像素分配给标签,从所有像素的标签产生良好的图像分割。但该算法存在一些问题,其中之一就是需要用户指定的种子。为了解决上述问题,Grady[32]提出将先验模型与能量最小化相结合,得到一种扩展的随机游走算法。它可以定位没有用户指定标签的断开连接的对象。

邱等[33]利用上下班时间的特性,提出了一种图像聚类和分割方法。利用图的离散格林函数,分析了上下班时间图像的切割。邱等人[34]也利用上下班时间来追踪运动。利用通勤时间作为邻近测度的主要目的是为了减小噪声对形状相互作用矩阵的影响。当面对形状交互矩阵上的噪声时,通勤时间是比原始邻近矩阵更为稳健的度量。他们使用拉普拉斯特征系统计算通勤时间。

Shen等人[7]提出了一种新的基于LRW算法的图像超像素分割方法。作者初始化种子位置并对输入图像运行LRW算法以获得每个像素的概率。然后利用概率的方法得到初始超像素的边界新算法可以分割出弱者边界和复杂的纹理区域非常好。Dong等人[35]提出了一种基于SubmarkovRandomWalk的交互式图像分割框架。它可以看作是一种传统的随机游走器,加入了一些新的辅助节点,使得框架更加灵活。在此框架下,作者设计了一种新的基于labelprior的subRW算法来解决细长物体的分割问题。

Li等人[36]提出了一种基于两个图模型上随机游动的视觉跟踪算法。图中的节点和边分别表示超像素和超像素之间的关系。该方法将目标零件间的结构信息和相似性度量融合到结构模型中,提高了跟踪精度。这是第一次将视觉跟踪视为马尔可夫随机游动[36]。

4.5 Semi-Supervised Learning

半监督学习是一类机器学习任务和技术。它有大量的标记数据用于训练的未标记数据量。由于人工工作量少,精度高,因此在理论和实践上都具有重要意义[37]。

Zhu等人[38]提出了一种基于随机游动的半监督学习方法。它们在连续的状态空间而不是离散的标签集中进行分类。该方法的直觉是,数据点应标记为与其相邻点相同。作者的策略是在图上使用一个实值函数:V→R,然后根据V→R分配标签。该函数提供了一致的概率语义。它是这种半监督分类方法的基础。实验结果表明,该方法利用了未标记数据的结构,提高了分类精度。fff

Szummer等人[39]发现部分标记的数据可能在子流形空间中。作者希望该方法能结合流形的结构和密度。基于这些考虑,他们提出了一个马尔可夫随机游走模型来对数据进行分类。研究[40]展示了如何将距离矩阵转化为马尔可夫过程,对图的构造有很大帮助。

当下列公式最大化时,它们使用标签对节点进行分类:jcc

​ (41)

其中| t(i | j)是从一个节点到另一个节点随机游走的概率,(c | i)可以通过两种技术来估计:期望最大化的最大似然(EM)和受约束的最大裕度。0k

这种方法中的参数也很重要。它表示确定随机游动平滑度的过渡次数。t**型

然而,选择一个合适的方法可能是棘手的和主观的。为了克服这个问题,Azran[41]提出了交会算法。t**型

作者还将数据点表示为一个图的节点,并采用随机游走视图进行分类。

与Szummer等人[39]的工作不同,交会算法中的标记点不传播,而是吸收随机游动的状态。每个未标记的数据被不同的标记点吸收的概率可以用来导出当过渡步骤增加到无穷大时的分布。

因此,交会算法不必费心选择一个好的参数值。t**型

4.6 Network Embedding

网络嵌入可以将节点或边编码为低维向量表示,并保持网络结构[73]。它是网络表示的一个很有前途的方向,可以用来提高下游任务的性能。

受Word2Vec[74]的启发,Perozzi等人[42]提出了一种新的方法,称为DeepWalk,用于学习网络中节点的潜在向量表示。DeepWalk使用截断随机游动来提取节点的局部信息。与语言模型相似,随机游动产生的节点序列可视为句子,网络中的节点与词汇中的单词相等。

PerozialsoExtendSkipGramandHierarchicalSoftMaxWord2Vec到DeepWalk,减少计算量,加快收敛速度。

Grover等人[43]发现目前的特征学习方法不能充分表达网络中连接模式的多样性。因此,他们提出了Node2Vec,这是一种新的学习节点特征表示的算法框架。提出了一种基于随机游动的灵活邻域采样策略。在以往的方法中,考虑到一个随机游动只是从一个节点游动到另一个节点,随机游动从一个节点到另一个节点的单步转移概率是基于边的权重(j,k)。但node2Vec表示非正规化跃迁概率不及物动词vj公司vj公司vk公司wjk公司pjk公司

as=αpq(i,k)w˙jk,和pjk**公司
⎧1 p 如果=0迪克
⎪⎩1q 如果=2迪克

其中是节点与节点之间最短路径的长度。返回参数,用于控制在漫游中重新访问节点的可能性。是输入输出参数[43]。迪克不及物动词vk公司**pq

实际上,宽度优先采样(BFS)和深度优先采样(DFS)的定义是一种折衷[43]。α-pq

4.7 Element Distinctness

元素区分问题是判断给定序列中的所有元素是否都是不同的。更准确地说,它可以描述为“给定一系列数∈[M],有∈M吗1*,x2,新席,XJ就这样席=xj[50]?“有一个简单的分类算法来解决这个问题(N)+O(N)比较。Buhrman等人[50]提出了一种加速的量子算法。他们的算法给出了计算量的上界(N3/4log(N))。非直瞄*O

Ambainis[51]改进了用(N2/3)求解元素清晰度的量子方法比较这种优化算法的直觉构造了图形,并转化为在图形中寻找标记顶点的元素清晰度问题图。为了有效地搜索标记的顶点,作者改进了Grover的量子搜索算法[11],[75]. 作者重用以前查询的信息,用(N2/3)比较代替Grover搜索算法中的(N)比较来搜索标记顶点。对于该算法的扩展,作者提出,如果我们想找到在中相等的数,我们可以得到一个基于量子行走的(Nk/(k+1))查询算法。OOOk**十1*,x2,新**O*

5 OPEN ISSUES

在这一部分,我们将介绍一些随机游动的主要问题。其中大多数是由日益增长的现实世界网络造成的。

5.1 Speed of Random Walk Algorithms

对于有节点和边的图,随机游走图核的时间复杂度至少为(n3)或(m2)[76]。在人工生成的图中,这种时间复杂度是可以接受的。但在现实网络中,由于节点和边的数量巨大,这是一场灾难。对于时间复杂度至少为(n2)的随机游走模型,这也是一个挑战。研究人员已经在处理这个问题。Kang等人[76]提出了时间复杂度为n2或m的ARK图核。这个图形内核有一个先决条件。图的内在秩必须低于图的阶。OOnOOO

Tongetal.[58]还解决了速度问题,并重新开始行走。带重启的随机游动算法查询速度慢或占用存储空间大。

作者利用了真实网络邻接矩阵的分块类社区结构和线性相关性。利用这两个性质,作者设计了B泷LIN,使重新启动的随机游动更快。这种方法不仅节省了大量的存储空间和计算时间,而且保持了良好的性能。

可以看出,提高随机游走算法速度的主要思路是获得近似计算,而不是精确计算。对于随机游动,我们仍然需要更精确的近似算法。

5.2Problem of Main-Memory Volume

所有的星形图和星形图的内存存储算法都是在整个图形可以放入主内存的消耗下进行的。但随着网络规模的迅速增长,这一条件已不能满足。其中一个解决方案是将图分成几个簇。

有研究为巨网络上的图划分和聚类提供了一些方法[77],[78]。最流行的方法之一是METIS[78]。由于巨网络问题越来越受到研究者的关注,有了一种更有效的图聚类算法和一种更好的方法,可以将随机游动应用到具有外部记忆的巨网络上[79]。作者称之为聚类方法RWDISK.RWDISK已被升级为图形的标签《数字书目与图书馆项目》(DBLP),Citeseer。但是这些方法对于庞大的图形仍然存在不可接受的时延。有两种方法可以解决这个问题,分区和使用外部内存。

5.3 Computation of Hitting and Commute Time

正如我们所提到的,邻近度量在网络分析和其他方面起着重要的作用。计算通勤时间的复杂度是(n3),这在大型真实图形中是禁止的。有一些通勤时间的近似值可以降低复杂性[15],[24]。但是我们应该小心这些近似的方法。它们不能表示现实世界中大型图的结构,也不能表示大型图中节点的连通性。O

Luxburg等人[80]已经证明,当随机几何图形(k-近邻图、-图和高斯相似图)足够大时,通勤时间可以用简单的公式来近似,具有很高的精度。更具体地说,通勤时间可以用1/du+1/dv表示,其中和分别表示顶点和顶点的度数。因此,近似只考虑两个节点的局部密度,而不考虑整个图的结构信息。作者给出了两种证明方法:一种是基于电网潮流参数的方法,另一种是基于谱参数的方法。这两种方法都证明了通勤时间的近似不考虑大图的全局性质。在这种情况下,近似通勤时间的有效性值得怀疑。大型图形中通勤时间的计算仍然是一个挑战。

6. CONCLUSION

本文从计算机科学的角度综述了随机游动,包括经典随机游动和量子游动。本文首先介绍了经典随机游动和量子游动的基本知识和一些算法。典型的随机游走算法是PageRank及其变体。文中还对RWR和LRW进行了评述。它们在应用于大型真实图形时非常耗时。发展了一些加速收敛的方法,如二次外推法、B_-LIN法、K-dash法等。然后讨论了基于量子行走的两类算法:基于连续量子行走的算法和基于离散量子行走的算法。比较了经典随机游动和量子游动,发现随着量子计算的发展,随机游动的量子观大大加快了随机游动算法的计算速度。

可以使用RandomWalk计算两个节点之间的概率,并提取网络拓扑。已经证明,随机游动在许多场景中扮演着重要的角色。我们探讨了随机游动在计算机科学领域的应用,包括协同过滤、计算机视觉、网络嵌入等。现有的基于随机游走的算法都是由巨型网络引起的,如收敛速度慢、存储容量不足等。该领域的进一步研究将对随机游动的理论和实际应用有很大的帮助。


大型图形中通勤时间的计算仍然是一个挑战。

6. CONCLUSION

本文从计算机科学的角度综述了随机游动,包括经典随机游动和量子游动。本文首先介绍了经典随机游动和量子游动的基本知识和一些算法。典型的随机游走算法是PageRank及其变体。文中还对RWR和LRW进行了评述。它们在应用于大型真实图形时非常耗时。发展了一些加速收敛的方法,如二次外推法、B_-LIN法、K-dash法等。然后讨论了基于量子行走的两类算法:基于连续量子行走的算法和基于离散量子行走的算法。比较了经典随机游动和量子游动,发现随着量子计算的发展,随机游动的量子观大大加快了随机游动算法的计算速度。

可以使用RandomWalk计算两个节点之间的概率,并提取网络拓扑。已经证明,随机游动在许多场景中扮演着重要的角色。我们探讨了随机游动在计算机科学领域的应用,包括协同过滤、计算机视觉、网络嵌入等。现有的基于随机游走的算法都是由巨型网络引起的,如收敛速度慢、存储容量不足等。该领域的进一步研究将对随机游动的理论和实际应用有很大的帮助。

参考文献:[1] F Xia, et al. “Random Walks: A Review of Algorithms and Applications.” IEEE Transactions on Emerging Topics in Computational Intelligence PP.99(2019):1-13.

Random Walks: A Review of Algorithms and Applications2020翻译相关推荐

  1. 网格分割算法(Random Walks)

    网格分割算法(Random Walks) 首先以一维随机游走(1D Random Walks)为例来介绍下随机游走(Random Walks)算法,如下图所示,从某点出发,随机向左右移动,向左和向右的 ...

  2. 图像处理(三)图像分割(1)Random Walks分割

    基于随机游走的图像分割算法 基于随机游走的图像分割算法是属于图论分割方法中的一种,这个算法比较偏,网上的paper比较少,刚开始学习找个资料都不容易,其实这个算法的原理就是通过求解一个邻接矩阵方程组, ...

  3. 【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

    知识图谱的概念于2012年由谷歌提出,这篇文章虽然发表于2010年,但文章中的对于数据的使用已经接近知识图谱了.文章提出的PRA算法是知识图谱推理的早期探索,在RWR(重启随机游走算法)的基础上进行了 ...

  4. 【每日一读】Sampling Multiple Nodes in Large Networks: Beyond Random Walks

    目录 简介 论文简介 ABSTRACT 1 INTRODUCTION 1.1 Our Contribution 1.2 Related Work 2 LOWER BOUND FOR RANDOM WA ...

  5. python三维随机游走轨迹模拟_用Python模拟随机游走(Random walks)

    什么是随机游走? 随机游走(random walk)也称随机漫步,随机行走等,是以随机的体例采纳连续步调的过程.然后,可以将其他条件应用于此描述,以为您的特定用例建立一个随机遍历.粒子的布朗运动,股票 ...

  6. Representation Learning: A Review and New Perspectives 综述翻译总结

    2012年的一篇关于表示学习的综述文章,至今引用近2000篇,翻译出来学习一下 之前看了其他的翻译,将其中的逻辑没有翻译出来,一头雾水,所以自己总结翻译一下,希望对大家有帮助 文中有几部分没有翻译,主 ...

  7. Jumping NLP Curves: A review of NLP research (翻译)

    最近翻阅了NLP的论文,发现了一篇高被引,特此翻译,以供参考(从文章第2部分开始) 论文原文下载地址:链接: https://pan.baidu.com/s/1e9b6StWSr7eIkPhvz2xu ...

  8. Graph Neural Networks: A Review of Methods and Applications(图神经网络:方法与应用综述)

    Graph Neural Networks: A Review of Methods and Applications 图神经网络:方法与应用综述 Jie Zhou , Ganqu Cui , Zhe ...

  9. Paper:《Graph Neural Networks: A Review of Methods and Applications—图神经网络:方法与应用综述》翻译与解读

    Paper:<Graph Neural Networks: A Review of Methods and Applications-图神经网络:方法与应用综述>翻译与解读 目录 < ...

最新文章

  1. 提交优化Oracle Tuning Log File Sync 等待事件的几种策略
  2. R语言数据可视化 ggplot2基础2 创建单图层的散点图 创建facet
  3. 阿里张磊:云计算生态价值点正迅速聚焦到“应用”上
  4. ajax请求是宏任务还是微任务_微服务-如何解决链路追踪问题
  5. python全栈开发学习_day1_计算机五大组成部分及操作系统
  6. Graph Embedding及其在知乎的实践(附pdf下载链接)
  7. Kotlin入门(6)条件分支的实现
  8. 山东自考c语言程序设计停考了吗,山东省自考教育类停考专业遗留问题的通知...
  9. GB28181-2016系统相关技术介绍
  10. 珍惜平时一点一滴,这几个值得跟进学习的阿里、滴滴、微软超级牛人的公众号!...
  11. Java笔记:Statement和PreparedStatement的区别
  12. mysql数据库p_PbootCMS Sqlite数据库转Mysql数据库教程
  13. 计算机网路实验四 IP协议分析
  14. 计算机网络速成【应用层】
  15. php用ckeditor无法上传大图片,php ckeditor上传图片文件大小限制修改
  16. NFS服务器的配置与管理
  17. SAP MM ME56不能为审批后的PR分配货源? 2
  18. CPU中的八个通用寄存器
  19. 通达信7.12服务器文件,通达信金融终端_尘缘整合_V7.12
  20. 高并发量网站解决方案

热门文章

  1. bzoj 1415 [Noi2005]聪聪和可可
  2. 利用DPCM编码进行图像压缩
  3. can差分线阻抗_差分阻抗
  4. 服务器如何防御攻击?
  5. 数字图像处理知识点梳理——第十章 图像分割
  6. Arduino uno控制蜂鸣器播放音乐(以《大鱼》为例)
  7. 数字IC设计 - 数字集成电路基础
  8. 俗话说:十赌九输。因为大多数赌局的背后都藏有阴谋。不过也不尽然,有些赌局背后藏有的是:“阳谋”。
  9. 带你了解Google搜索引擎的竞价排名是怎样实现的?
  10. 你与阿米巴经营之间只差了一个“中国式” 胡八一