原文链接：https://blog.csdn.net/Mrong1013967/article/details/115330139

HeteSim：异构网络中相关性度量的通用框架

摘要

相似性搜索是许多应用中的一个重要功能，它通常侧重于度量同一类型对象之间的相似性。然而，在许多场景中，我们需要测量具有不同类型的对象之间的相关性。随着异构网络研究的兴起，对不同类型对象的相关性度量变得越来越重要。本文研究了异构网络中的相关搜索问题，其任务是度量异构对象（包括具有相同类型或不同类型的对象）的相关性。提出了一种新的度量方法HeteSim，该方法具有以下特点：（1）一致性度量：可以在一个统一的框架内度量同一类型或不同类型对象之间的关联性；（2）路径约束性度量：基于两个对象之间的搜索路径，通过遵循一个序列来定义对象对之间的关联性半度量测度：HeteSim具有一些良好的性质（如自极大性和对称性），这些性质对许多数据挖掘任务至关重要。分析了HeteSim的计算特点，提出了相应的快速计算策略。实证研究表明，HeteSim能够有效地评价异构对象之间的相关性。

一、简介

相似性搜索是广泛应用中的一项重要任务，如web搜索[1]和产品推荐[2]。相似性搜索的关键是相似性度量，它评估对象对之间的相似性。对于传统的分类和数值数据类型，如Jaccard系数和余弦相似性，相似性度量已经得到了广泛的研究。也有一些关于利用网络中的链路信息来度量节点相似性的研究，如Personalized PageRank[3]、SimRank[4]和PathSim[5]。传统的相似性度量研究主要集中在同一类型的对象上。也就是说，被测量的对象具有相同的类型，例如“文档到文档”、“网页到网页”和“用户到用户”。对于不同类型物体的相似性度量研究很少。也就是说，被测量的对象是不同类型的，例如“作者到会议”和“用户到电影”。这是合理的。不同类型物体的相似性有点违背我们的常识。此外，与同类对象的相似性可以在同质情况下（如同一特征空间或同质链接结构）进行度量不同，不同类型对象的相似性更是难以定义。

然而，不同类型对象的相似性不仅有意义，而且在某些场景中也很有用。例如，作者J.F.naugton与SIGMOD的关系比KDD更密切。青少年可能更喜欢电影《哈利波特》，而不是《肖申克的救赎》。此外，在许多应用中需要对不同类型的对象进行相似性度量。例如，在推荐系统中，我们需要知道用户和电影之间的关系，才能做出准确的推荐。在自动轮廓提取应用中，我们需要测量不同类型对象的相关性，如作者和会议、会议和组织等。特别是随着异构信息网络研究的出现[5]，[6]，研究不同类型对象之间的关联性不仅越来越重要，而且是可行的。异构信息网络是指包含多类型对象和表示不同关系的多类型链接的逻辑网络[7]。例如，书目网络包括作者、论文、会议、术语及其表示它们之间关系的链接。很明显，异构信息网络无处不在，是现代信息基础设施的重要组成部分[7]。因此，在这样的网络中提供对不同类型对象的相关搜索功能是非常必要的，这是许多应用的基础。由于不同类型的对象共存于同一网络中，因此可以通过链接结构来度量它们的相关性。

本文研究了异构信息网络中的相关搜索问题。关联搜索的目的是有效地度量异构对象（包括具有相同类型或不同类型的对象）之间的关联性。与相似性搜索只度量同类型对象之间的相似性不同，关联性搜索度量的是异构对象之间的相关性，而不局限于同类型对象。与信息检索领域中的关系检索[8]、[9]不同，这里的关联搜索是在异构网络上进行的，而异构网络是由对象的元数据构成的。此外，基于以下原因，我们认为一个理想的相关性度量应该满足对称性。（1）对称度量在许多学习任务中更为通用和有用。虽然对称性在查询任务中是不必要的，但是对于许多重要的任务，如聚类和协同过滤，对称性是必不可少的。此外，它也是度量的必要条件。（2）对称度量在许多应用中更有意义，特别是对于异构对象对的相关性。例如，在一些应用程序中，我们需要回答这样的问题，比如谁对会议SIGIR的重要性与J.F.naugton对SIGMOD的重要性相似。通过比较对象对之间的相关性，我们可以推断出它们的相对重要性。然而，它只能通过对称测度来实现，而不能通过非对称测度来实现。可以通过图1所示的示例来解释。对于对称测度，我们可以推断W.B.Croft1对SIGIR的重要性与J.F.Naughton2对SIGMOD的重要性相同，因为它们的关联度很接近。假设我们知道J.F.诺顿是SIGMOD中一位有影响力的研究者，我们可以得出结论，W.B.克罗夫特也是SIGIR中一位有影响力的研究者。然而，我们不能从如图1（b）所示的不对称度量中推断出相对重要性信息。从作者与会议、会议与作者的关系中，我们会得出相互矛盾的结论。

尽管异构网络中的关联搜索有着重要的价值和意义，但到目前为止还很少有人对其进行研究。它面临着以下研究挑战。（1）异构网络比传统的同构网络复杂得多。在异构网络中，不同类型的对象和链接共存于一个网络中，具有不同的语义。作为图2（b）所示的书目示例（更多细节见第V.A节），它包括作者、论文、术语和会议类型。“作者论文”是指作者撰写的论文，而“论文会议”是指在会议上发表的论文。如果不考虑类型和语义的差异，混合不同类型的对象来度量相似度是没有意义的。我们可以发现，通过一系列对象类型之间的关系连接两个对象的搜索路径，体现了丰富的语义信息[5]。基于不同的搜索路径，两个对象的相关性可能完全不同。例如，作者与会议的关系应根据“作者-论文-作者-论文-作者-论文-会议”路径和“作者-论文-作者-论文-会议”路径的不同而有所不同，即作者在会议上发表论文与合作作者在会议上发表论文的关系。因此，一个理想的相关性度量应该是路径依赖的，因为这样的度量可以捕获路径下的语义并基于不同的路径返回有意义的值。（2）对于异构对象，很难设计一个统一的、对称的关联度量。在异构网络中，连接同一类型对象的路径通常是对称的，路径长度是偶数，因此根据对称路径设计对称度量并不困难，正如PathSim[5]所做的那样。然而，连接不同类型对象的路径是不对称的，路径长度可能是奇数。在这种情况下，设计一个对称的相关性度量是不容易的。对于这两种情况，设计一个统一的相关性度量更具挑战性。

受两个对象被相关对象引用时是相关的这一直觉的启发，我们提出了一个通用的框架HeteSim来评估异构网络中异构对象的相关性。HeteSim是一种基于路径的相关性度量方法，能够有效地捕捉搜索路径的微妙语义。基于成对随机游走模型，HeteSim统一处理任意搜索路径，保证了HeteSim的对称性。另一个好处是HeteSim可以用相同的方法评估具有相同或不同类型对象的相关性。此外，HeteSim是一个半度量度量。换句话说，HeteSim满足非负性、不可分辨的同一性和对称性。这意味着HeteSim可以用于许多学习任务（如聚类和协作过滤）。我们还考虑了HeteSim的计算问题，提出了四种快速计算策略。大量的实验验证了HeteSim的有效性。作为一种通用的关联度量，HeteSim通过四个实例说明了其在异构网络知识发现中的优势和通用性：自动提取对象轮廓、通过对象对的相对重要性进行专家查找、基于路径语义的关联搜索和基于语义的电影推荐。HeteSim在机器学习任务（即查询和聚类）中也显示了它的潜力，在这些任务中，HeteSim优于其他成熟的相似性度量。此外，大量实验验证了HeteSim快速计算策略的重要性。

二相关工作

与相关性搜索最相关的工作是相似性搜索。这里我们简要地总结一下这些工作。相似性搜索已经被很好地研究了很长一段时间。这些研究大致可以分为两类：基于特征的方法和基于链接的方法。基于特征的方法根据对象的特征值（如余弦相似度、Jaccard系数和欧氏距离）来度量对象的相似度。k近邻也广泛应用于相似度量[10]，[11]，其目的是根据数值特征上定义的相似性来寻找top-k近邻。基于特征相似性，top-k相似对搜索算法（即top-k-join）考虑元组之间的相似性[12]。这种方法不考虑对象之间的链接关系，因此不能应用于网络数据。

基于链接的方法基于对象在图中的链接结构来度量对象的相似性。非对称相似性度量个性化PageRank3]通过重新启动随机行走来评估从源对象到目标对象的概率。它扩展到在线查询[13]、[14]和top-k答案[15]的可伸缩计算。SimRank[4]是一个对称的相似性度量，它通过两个对象的邻居的相似性来评估它们的相似性。由于其计算复杂性，许多后续研究都是为了加速这种计算[16]，[17]。SCAN[18]通过比较两个对象的近邻集来度量它们的相似性。最近，Jin等人提出了RoleSim，通过自守等价来度量节点对的角色相似性[19]。这些方法只考虑同一类型的对象，不适用于异构网络。ObjectRank[20]将基于权限的排序应用于标签图中的关键字搜索，PopRank[21]提出了一种与领域无关的对象级链接分析模型。尽管这两种方法注意到异构关系会影响相似性，但它们没有考虑包含不同类型对象的路径的不同语义，因此也无法度量异构网络中对象的相似性。

近年来，异构数据的相关性研究应运而生。Wang等人[22]提出了一个从异构数据中学习相关性的模型，而他们的模型更侧重于分析异构网络的上下文，而不是网络结构。Fouss等人[23]基于随机游走的Markovchain模型，设计了一个具有良好性质和解释力的相似度量ECTD。不幸的是，由于缺乏路径约束，ECTD无法捕捉到异构网络中的微妙语义。Sun等人[5]考虑到由不同类型对象构成的元路径的语义，提出了基于对称路径的PathSim来度量相同对象的相似性。然而，许多有价值的路径是不对称的，不同类型对象之间的相关性也是有意义的。PathSim不适合这些条件。在信息检索领域，Lao和Cohen[9]，[24]提出了一种路径约束随机游走（PCRW）模型来度量由丰富的科学文献元数据构造的有向图中的实体邻近性。虽然PCRW模型可以用来度量不同类型对象之间的相关性，但是PCRW模型的非对称性限制了它的应用。在我们的HeteSim定义中，用户可以基于任意的搜索路径来度量异构对象的相关性。HeteSim的优点（如对称性和自最大性）使它适合于更多的应用。

三、初步

异构信息网络是一种特殊类型的信息网络，它包含多种类型的对象或多种类型的链接。

定义1：信息网络。给定一个由一组实体类型和一组关系组成的模式，信息网络被定义为一个有向图G=（V，E），它具有一个对象类型映射函数和一个连接类型映射函数。每个对象 $v \in V$ 属于一个特定的对象类型每个连接 $e \in E$ 属于一个特定的关系，当对象类型或关系类型时，该网络称为异构信息网络，否则称为同质信息网络。

在信息网络中，我们区分对象类型和关系类型。作为网络的模板，网络模式描述对象类型和对象类型之间存在的关系。对于A型到B型之间存在的关系R，表示为A和B是关系R的源类型和目标类型，分别表示为R.S和R.T。对于，逆关系 $R^{-1}$ 自然保持不变。通常，R不等于 $R^{-1}$ ，除非R是对称的，这两种类型相同。

实例1：书目信息网络是典型的异构信息网络。ACM数据集的网络模式（见第V.A节）如图2(a)所示。它包含来自七种实体的对象：论文（P）、作者（A）、从属关系（F）、术语（T）、主题（S）、地点（V）和会议（C）（会议包括多个地点，例如KDD包括KDD2010、KDD2009等等）。存在连接不同类型对象的链接。链接类型由两个对象类型之间的关系定义。例如，作者和论文之间存在着表示写作或按关系写作的联系，地点和论文之间存在着表示出版或按关系出版的联系。图2(b)和(c)分别显示了DBLP数据集和IMDB电影数据的网络模式（见第V.A节）。

与同构网络不同，异构网络中的两个对象可以通过不同的路径连接，这些路径具有不同的含义。例如，在图2(a)中，作者和会议可以通过“作者论文会场会议”（APVC）路径、“作者论文主题论文会场会议”（APSPVC）路径等连接。这两条路径下的语义是不同的。APVC路径意味着由作者撰写的论文在会议上发表，而APSPVC路径意味着与作者论文主题相同的论文在会议上发表。显然，不同路径下不同的语义会导致不同的结果。APVC路径下的关联性强调作者参与的会议，APSPVC路径下的关联性强调发表与作者论文主题相同的论文的会议。例如，Christos Faloutsos的大部分论文都发表在KDD、VLDB和SIGMOD上。然而，与他的论文主题相同的论文可能会在广泛的会议上发表，如ICDM、SDM和CIKM。因此，在异构网络中，对象的关联性依赖于搜索路径。形式上，我们将元搜索路径定义为关联路径。

定义2：关联路径。关联路径P是在模式上定义的路径，并且以的形式表示，其定义了 $A_{1}$ 类型和 $A_{l+1}$ 之间的复合关系。路径P的长度是P中关系的个数，即l。

为了简单起见，如果同一对类型之间没有多重关系，我们也可以使用表示关联路径的类型名称：。我们说，网络G中 $a_{1}$ 和 $a_{l+1}$ 之间的具体路径 $p=(a_{1}a_{2}\cdot \cdot \cdot a_{l+1})$ 是相关路径p的路径实例，如果每个 $a_{i}$ 、和每个链路属于p中的关系 $R_{i}$ ，则可表示为。关联路径是P的反向路径，定义了P定义的逆关系。同样，我们将 $p^{-1}$ 的反向路径实例定义为P的反向路径，在G中，如果由P定义的关系R是对称的（即P等于），如APA和APCPA。两个相关路径和在 $A_{l}$ 等于 $B_{1}$ 时才可确定，且连接路径写为，等于。一个简单的可解释的例子是AP和P V可以连接到路径AP V。

四、 HETESIM：一个统一对称的关联度量

A.基本思路

在许多领域中，相似对象更可能与其他相似对象相关。例如，相似的研究人员通常发表许多相似的论文；相似的顾客购买相似的商品。因此，如果两个对象被相似的对象引用，则它们是相似的。这种直觉也适用于异构对象。例如，研究人员与研究人员发表论文的会议更相关；客户对客户通常购买的品牌更忠诚。尽管SimRank[4]中也应用了类似的思想，但它仅限于同构网络。当我们将这一思想应用于异构网络时，它面临着以下挑战。（1） 异构对象的关联性是路径约束的。关联路径不仅捕获语义信息，而且对行走路径进行约束。因此需要设计一种基于路径的相似度度量方法。（2）应为任意路径设计均匀对称的度量。对于给定的路径（对称或非对称），该度量可以用一个分数来评估异构对象对（相同或不同类型）的相关性。在下一节中，我们将详细说明这些挑战及其解决方案。

B.基于路径的相关性度量

与同构网络不同，异构网络中的路径具有语义，使得对象对的关联性依赖于给定的关联路径。根据相似对象与相似对象相关的基本思想，提出了一种基于路径的相关性度量方法：HeteSim。

定义3：HeteSim：给定一条关联路径，两个对象s和t（s∈R1.s和t∈Rl.t）之间的HeteSim得分为：

其中 $O(s|R_{1})$ 是基于关系 $R_{1}$ 的s， $I(t|R_{l})$ 是基于关系 $R_{l}$ 的t的近邻.

当s没有任何外邻居（即）或t没有任何内邻居（即，）时，我们无法推断出s和t之间的任何关联，因此我们将它们的关联值定义为0。特别是我们认为同一类型的对象具有自关系（表示为I关系），每个对象都只与自身有自关联。显然，一个对象与我的关系本身是相似的。因此，其相关性测度可定义如下：

定义4：基于自我关系的HeteSim：基于自我关系I的两个相同类型对象s和t之间的HeteSim是：

其中δ（s，t）=1，如果s和t相同，或者δ（s，t）=0。

等式（1）表明，的计算需要迭代(s,t)沿路径（s沿路径和t对路径）的所有对，并总结这些对的相关性。然后，我们用s的外邻居和t的内邻居的总数对其进行归一化，即s和t之间的关系是s的外邻居和t的内邻居之间的平均关系，这个过程一直持续到s和t沿着路径相遇。与SimRank[4]类似，HeteSim也是基于成对随机游走，同时考虑了路径约束。正如我们所知，SimRank测量了两个随机冲浪者在同一个节点相遇的时间[4]。相比之下，度量了当s沿着路径走，而t逆着路径走时，s和t在同一节点相遇的可能性。

C.关联路径分解

然而，源对象s和目标对象t可能不会沿着给定的路径P相遇。对于同一类型对象的相似性度量，相关路径通常是等长的，甚至是对称的，因此源对象和目标对象将在中间对象处相遇。然而，对于不同类型对象的关联度量，关联路径通常是奇数长度。在这种情况下，源对象和目标对象将永远不会在同一个对象上相遇。以APVC路径为例，沿着路径的作者和反对路径的会议永远不会在同一个对象中相遇。因此，原HeteSim算法不适用于奇长相关路径。为了解决这一难题，一个基本思想是将奇数长度的路径变换为偶数长度的路径，从而使源对象和目标对象总是能够在同一个对象上相遇。因此，可以将任意路径分解为两条等长路径。

当相关路径的长度l为偶数时，源对象（沿路径）和目标对象（对路径）将在中间位置的中间类型对象处相遇，因此相关路径P可分为两条等长路径和，即，其中，。

当路径长度l为奇数时，源对象和目标对象将在关系处相遇。例如，基于APSPVC路径，源对象和目标对象经过两步之后将在SP关系处相遇。为了使源对象和目标对象在同一类型对象上相遇，我们可以在原子关系之间添加一个中间类型的对象E，同时保持和之间的关系。然后新路径变成，长度为l+1，一个偶数。在前面的例子中，路径变成APSEPVC，其长度现在是偶数。源对象和目标对象将在中间位置上的中间类型对象M=E处相遇。因此，新的关联路径P′也可以分解为两条等长路径和。

定义5：关联路径分解。任意相关路径可分解为两条相等的路径和（即），其中和。M和mid的定义如上所述。

显然，对于对称路径，等于。例如，关联路径P=AP CP A可以分解为和。对于相关路径APSPVC，我们可以在SP中添加中间类型对象E，从而使路径成为APSEPVC，因此和。

下一个问题是，我们如何将中间类型的对象E添加到奇数长度路径中和之间的原子关系R中。为了包含原来的原子关系，我们需要使R关系成为两个新关系的组合。为此，对于关系R的每个实例，我们可以添加一个E实例来连接关系实例的源对象和目标对象。图3（a）中示出了一个示例，其中中间类型对象E沿着每个路径实例添加在原子关系AB之间。

定义6：原子关系的分解。对于原子关系R，我们可以在R.S和R.T之间添加一个对象类型E（称为边对象）。因此，原子关系R被分解为 $R_{O}$ 和 $R_{I}$ ，其中 $R_{O}$ 表示R.S和E之间的关系， $R_{I}$ 表示E和R.T之间的关系。对于每个关系实例r∈R，一个实例e∈E连接r.S和r.T。路径r.S→e和e→r.T分别是 $R_{O}$ 和 $R_{I}$ 的实例。

很明显，分解具有以下性质，其证明见附录A。
性质1。原子关系R可以分解为 $R_{O}$ 和 $R_{I}$ ，，这种分解是唯一的。

基于此分解，具有原子关系R的两个对象的关联度可计算如下：

定义7：基于原子关系的HeteSim：基于原子关系R（s∈R.s和t∈R.t）的两个不同类型对象s和t之间的HeteSim是：

很容易发现HeteSim(s，t | I)是HeteSim(s，t | R)的一个特例，因为对于自关系I，和。定义7意味着HeteSim可以通过计算两个不同类型对象相互影响的平均值，直接测量两个具有原子关系R的对象之间的关联性。

实例2：图3（a）示出了原子关系分解的示例。将AB关系分解为AE和EB关系。此外，关系AB是AE和EB的组成，如图3（b）所示。图3（c）中示出了两个HeteSim示例。我们可以发现，异质性恰恰反映了事物的关联性。以 $a_{2}$ 为例，虽然 $a_{2}$ 与 $b_{2}$ 、 $b_{3}$ 、 $b_{4}$ 等连接，但由于 $b_{3}$ 只与 $a_{2}$ 连接，因此与 $b_{3}$ 更接近。这一信息正确地反映在基于AB路径的 $a_{2}$ 的HeteSim得分中：(0,0.17,0.33,0.17)。

我们还发现，在HeteSim中，物体和物体本身的相似性不是1。以图3（c）右图为例，a2与自身的关联度为0.33。这显然是不合理的。在下一节中，我们将对异质性进行规范，使关联性测度更加合理。

D.异象的正常化

首先，我们介绍了给定任意关联路径的任意两个对象之间的HeteSim的计算。

定义8：转移概率矩阵。对于关系， $W_{AB}$ 是A型和B型之间的相邻矩阵。 $U_{AB}$ 是 $W_{AB}$ 沿行向量的归一化矩阵，它是基于关系R的A→B的转移概率矩阵。 $V_{AB}$ 是 $W_{AB}$ 沿列向量的归一化矩阵，它是基于关系 $R^{-1}$ 的B→A的转移概率矩阵。

很容易证明转移概率矩阵具有以下性质。证据见附录A。

性质2。 $U_{AB}=V'_{BA}$ 和 $V_{AB}=U'_{BA}$ ，其中 $V'_{BA}$ 是 $V_{BA}$ 的转置。
定义9：可达概率矩阵。给定网络G=（V，E）遵循网络模式，路径的可达概率矩阵PM被定义为（为简单起见，PM）。PM(i，j)表示目标 $i \in A_{1}$ 在路径P下到达目标 $j \in A_{l+1}$ 的概率。

根据HeteSim的定义和性质2，基于关联路径， $A_{1}$ 和 $A_{l+1}$ 中的对象之间的关联是

上述公式表明，基于路径P的 $A_{1}$ 和 $A_{l+1}$ 的相关性是两个概率分布的内积，即 $A_{1}$ 沿路径到达中间型对象M， $A_{l+1}$ 沿路径到达M。对于 $A_{1}$ 和 $A_{l+1}$ 中的两个实例a和b，它们基于路径P的相关性为

式中，表示中的第a行。

我们已经说过，HeteSim需要正常化。相同对象的相关性为1是合理的，因此HeteSim可以标准化如下：

定义10：HeteSim的正常化。基于相关路径P的两个对象a和b之间的归一化HeteSim是：

事实上，归一化HeteSim是源对象a和目标对象b到达中间类型对象M的概率分布的余弦，其范围为0到1。图3（d）显示了标准化的HeteSim分数。显然，规范化的HeteSim更为合理。规范化是HeteSim的一个重要步骤，具有以下优点。（1）归一化HeteSim具有良好的性质。下面的属性4表明HeteSim满足不可分辨的恒等式。（2）它有很好的解释。归一化HeteSim是表示可达概率的两个向量的余弦。正如Fouss等人指出的[23]，节点向量之间的角度比节点之间的距离更具预测性。在下一节中，HeteSim是指标准化的HeteSim。

E.HeteSim的特性

HeteSim具有良好的性能，这使得它在许多应用中非常有用。这些特性的证明见附录A。

特性3：对称：

性质3显示了HeteSim的对称性质。尽管PathSim[5]也具有类似的对称属性，但只有当路径是对称的并且a和b具有相同类型时，它才成立。HeteSim不仅对于对称路径（注意对于对称路径P等于）而且对于非对称路径具有更一般的对称特性.

特性4。自极大值：HeteSim(a,b | P)∈[0，1]。HeteSim(a,b | P)等于1当且仅当等于。

属性4表明HeteSim受到很好的约束。对于对称路径P（即），等于，因此HeteSim(a,a | P)等于1。如果我们将两个对象（即dis(s,t)）之间的距离定义为dis(s,t)=1−HeteSim(s,t)，则同一对象的距离为零（即dis(s,s)=0）。因此，和合论满足了不可分辨的同一性。请注意，这是一个不可分辨的一般身份。对于不同类型的两个对象，如果它们在中间类型对象上具有相同的概率分布，则它们的HeteSim得分也为1。这是合理的，因为它们基于给定的路径具有相似的结构。

由于HeteSim服从非负性、不可分辨恒等式和对称性，我们可以说HeteSim是一个半度量测度[25]。由于基于路径的度量，HeteSim不服从三角形不等式。半度量测度有许多优点，可以广泛应用于许多领域[25]。

特性5。连接到SimRank。对于基于模式S=（{a，B}，{R}）的二部图G=（V，E），假设SimRank中的常数C为1，

其中和。这里HeteSim是非标准化版本。

这个性质揭示了SimRank和HeteSim的联系。SimRank总结了两个对象在经过所有可能的步骤后的相遇概率。HeteSim只计算沿着给定关联路径的相遇概率。如果相关路径探索了两个对象之间所有可能的元路径，那么基于这些路径的HeteSim之和就是SimRank。所以我们可以说HeteSim是SimRank的路径约束版本。通过关联路径，HeteSim可以精细地评估异构对象的相似性。这一性质也意味着HeteSim比SimRank更有效，因为HeteSim只需要计算给定关联路径上的相遇概率，而不是所有可能的元路径。

F.讨论

让我们分析一下计算的时空复杂性。假设一类对象的平均大小为n，有T类对象，则HeteSim的空间要求为来存储相关矩阵。设d是基于关系 $R_{i}$ 和 $R_{j}$ 的所有对象对（s，t）上的平均值。对于给定的l长度相关路径，所需时间是，因为节点对（即n²）沿相关路径计算它们的相关度。对于SimRank，同时迭代计算所有类型（即（Tn）²）中节点对的相似性，因此其空间复杂度为O(T²n²)，时间复杂度为O(k(T²d)(T n)²)，即），其中k是迭代次数。所以计算HeteSim的复杂度要比SimRank小得多。

在这里，我们讨论如何选择关联路径。有几种方法可以做到这一点。（1）用户可以根据自己的领域知识和经验选择合适的路径。（2）监督学习可用于自动确定相关路径的重要性。在信息检索领域，Lao和Cohen[24]提出了一种可学习的接近度度量，其中接近度由简单的“路径专家”的加权组合来定义。通过标记训练数据，学习算法可以推断出路径的权值。类似的策略也可用于路径选择。（3）最近，Sun等人[26]将元路径选择和用户引导信息结合起来用于异构网络中的聚类。类似的用户引导信息也可以应用于HeteSim中相关路径的选择。

相似性度量有很多种，其中大部分基于三种基本策略[5]：（1）路径计数策略度量连接源对象和目标对象的路径实例数；（2）随机游走（RW）策略度量从源对象到目标对象的随机游走概率；（3）成对随机游动（Pairwise random walk，PRW）策略度量从源对象和目标对象出发到达相同中间对象的成对随机游动概率。由于对称性和任意路径约束，本文采用了PRW模型。虽然RW模型也可以通过基于路径和的可达概率的组合来满足对称性，但它对于对称路径是冗余的，并且缺乏良好的可解释性。对于PRW模型，当关联路径长度为奇数时，不可避免地会遇到源对象和目标对象不相交的问题。为了解决这个问题，可以采用一些可选的策略，例如分配会议对象类型。基于以下优点，本文采用路径沉积策略。（1）它有一个统一的框架来评估相同或不同类型对象对任意路径的相关性。（2）它提供了一种简单而有效的方法来评估基于原子关系的两个不同类型对象的相关性（参见定义7).

进一步比较了表一中六个已建立的相似度量，分别对异构网络（Heteim、PathSim和PCWR）和三种同质网络的相似度量（P-PageRank、SimRank和RoleSim）进行了比较。虽然这些相似性度量都是通过网络结构来评价节点的相似性，但它们具有不同的属性和特征。异构网络的三种度量都是基于路径的，因为异构网络中的元路径体现了语义，简化了网络结构。基于RW模型的两种度量（即P-PageRank和PCRW）不满足对称性。由于满足三角不等式，Rolesi是度量，而HeteSim、PathSim和SimRank是半度量。

五、实验

在实验中，我们用四个案例研究和两个学习任务验证了HeteSim在三个数据集上的有效性。

A.数据集

实验中采用了三种异构信息网络。

ACM数据集：ACM数据集于2010年6月从ACM数字图书馆3下载。ACM数据集来自14个具有代表性的计算机科学会议：KDD、SIGMOD、WWW、SIGIR、CIKM、SODA、STOC、SOSP、SPAA、SIGCOMM、MobiCOMM、ICML、COLT和VLDB。这些会议包括196个相应的会场会议记录（例如，KDD会议包括12个会议记录，如KDD'10、KDD'09等）。这个数据集有1.2万篇论文，1.7万名作者，1.8万名作者。在去掉论文标题和摘要中的停止词之后，我们得到了1.5万个出现在超过1%的论文中的术语。该网络还包括73个主题，这些论文在ACM类。ACM数据集的网络架构如图2（a）所示。

DBLP数据集[27]：DBLP数据集是从DBLP网站收集的一个子网络，涉及数据库、数据挖掘、信息检索和人工智能四个研究领域的主要会议，自然形成四个类。该数据集包含14K篇论文、20个会议、14K位作者和89k个术语，总链接数为17K。在数据集中，4057位作者，所有20个会议和100篇论文都被标注为四个研究领域之一。网络架构如图2（b）所示。

电影数据集[28]：IMDB电影数据来自互联网电影数据库5，包括电影、演员、导演和类型。从电影数据构造电影异构网络，其模式如图2（c）所示。电影数据包括1.5K部电影、5K演员、551名导演和112种类型。

B.案例研究

在本节中，我们通过四个任务的案例研究来展示HeteSim的特点：自动对象分析、专家发现、关联搜索和语义推荐。

1） 任务1：自动对象分析：我们首先在自动对象分析任务中研究了我们的方法对不同类型相关性度量的有效性。如果我们想知道一个对象的轮廓，我们可以测量该对象与我们感兴趣的对象的相关性。例如，我们想知道克里斯托斯法鲁索斯的学术概况。可以通过测量Christos Faloutsos与相关对象（如会议、附属机构、其他作者等）的相关性来解决该问题。表II显示了ACM数据集上各种类型的顶级相关对象列表。AP V C路径显示了他积极参加的会议。请注意，KDD和SIGMOD是Christos Faloutsos参加的两个主要会议，这在他的主页中有提到。从路径APT中，我们可以得到他的研究兴趣：数据挖掘、模式发现、可伸缩图挖掘和社会网络。利用aps路径，我们可以发现他的研究领域，表现为ACM主题：数据库管理（H.2）和数据存储（E.2）。根据AP A路径，HeteSim找到了最重要的合著者，其中大部分是他的博士生。另一个有趣的例子见附录B。

2） 任务2：专家发现：在这种情况下，我们希望通过专家发现任务来验证HeteSim的有效性，以反映对象对的相对重要性。我们知道，通过比较对象对的关联性，可以揭示对象对的相对重要性。假设我们知道某个领域的专家，这里的专家查找任务是通过其他领域的专家的相对重要性来查找他们。表三显示了ACM数据集上六对“会议作者”的不同方法返回的相关性得分。基于APVC和CVPA路径定义了会议与作者的关联性，这两种路径具有相同的语义：作者在会议中发表论文。由于对称特性，HeteSim为两条路径返回相同的值，而PCRW为这两条路径返回不同的值。假设我们熟悉数据挖掘领域，并且已经知道C.Faloutsos是KDD领域一位有影响力的研究者。比较这些HeteSim分数，我们可以发现在其他研究领域有影响力的研究人员，即使我们不太熟悉这些领域。J.F.诺顿、W.B.克罗夫特和A.古普塔应该分别是西格莫德、西格尔和苏打的有影响力的研究者，因为他们的HeteSim得分与C.法洛索斯非常相似。此外，我们还可以推断，罗思和陈彦可能分别是SIGIR和SIGCOMM的积极研究者，因为他们的HeteSim分数适中。事实上，C.Faloutsos、J.F.Naughton、W.B.Croft和A.Gupta是他们研究社区排名第一的作者。罗思和陈彦是年轻的教授，他们在各自的研究领域都做了很好的工作。然而，如果相关性度量不是对称的（例如，PCRW），那么在比较这些相关性得分时很难判断哪些作者更具影响力。例如，严晨和SIGCOMM的PCRW得分是APVC路径中最大的。然而，当考虑相反的路径（即CVPA路径）时，该值是最小的。附录C中的定量实验表明，与PCRW相比，HeteSim能更准确地揭示作者会议对的相对重要性。

3） 任务3：基于路径语义的相关性搜索：如前所述，基于路径的相关性度量可以捕获路径的语义。在这个相关搜索任务中，我们将通过比较三种基于路径的度量（HeteSim、PCRW和PathSim）和SimRank来观察路径的重要性和语义捕获的有效性。这项任务是根据AP V CV P A路径，即在同一会议上发表论文的作者，找出与Christos Faloutsos相关的前10位作者。通过忽略对象的异构性，我们直接在整个网络上运行SimRank，从不同类型对象混合在一起的排名结果中选出前十名作者。比较结果如表四所示。乍一看，我们可以发现，三个基于路径的措施都返回研究人员具有类似的声誉与克里斯托斯略有不同的顺序。然而，SimRank的结果完全违背了我们的常识。我们认为SimRank性能不好的原因是它只考虑了链接结构而忽略了链接语义。在异构网络中，不同类型的对象连接在一起。如果忽略链接语义，对不同类型的链接一视同仁，就会充满噪音。通过选择有用的关系序列，元路径避免了复杂结构带来的噪声。此外，元路径体现了关系序列的语义。因此，元路径是异构网络的基本分析工具。

另外，让我们分析三种基于路径的度量返回的结果的细微差异。PathSim发现了类似的同行作者，比如Philip Yu和Jiawei Han。它们在数据挖掘领域有着相同的声誉。对PCRW来说，奇怪的是，与克里斯托斯·法鲁索斯最相似的作家不是他自己，而是查鲁·C·阿加瓦尔和贾维汉。这显然是不合理的。我们推测，在Christos Faloutsos参加的会议上，Charu C.Aggarwal和Jiawei Han发表了大量的论文，因此Christos Faloutsos对Charu C.Aggarwal和Jiawei Han的可达概率比他本人更高。赫特西姆的结果有点不同。最相似的作家是斯里尼瓦桑·帕塔萨拉西和阎锡峰，而不是菲利普·俞正声和韩嘉伟。让我们重温路径AP VCVP A的语义：作者在同一会议上发表论文。图4显示了沿着路径APVC从作者到会议的可达概率分布。很明显，Srinivasan Parthasarathy和Xifeng Yan关于会议的论文的概率分布更接近Christos Faloutsos，因此基于相同的会议出版物，它们应该更类似于Christos。虽然俞敏洪和韩嘉伟与C.Faloutsos享有相同的声誉，但他们的论文在不同的会议上发表的范围更广。因此，根据APVCVP A路径，他们不是与C.Faloutsos最相似的作者。因此，我们的HeteSim更准确地捕捉了路径的语义。附录D中的另一个例子进一步说明了HeteSim捕获相关路径语义的能力。

4） 任务4：语义推荐：在这个案例研究中，我们展示了在推荐系统中应用HeteSim的潜力。推荐系统的一个重要目标是根据用户的意图推荐产品。理想的推荐系统应该能够捕捉不同用户意图的微妙之处。以电影数据集为例。假设“M”代表电影，“T”代表电影类型。“A”和“D”分别代表演员和导演。如果用户希望找到与《钢铁侠》演员相同的电影，可以在推荐系统中使用MAM路径。对于喜欢与《钢铁侠》类型相同的电影的用户，可以使用路径MTM。推荐结果如表五所示。结果表明，HeteSim可以根据不同的路径推荐不同的电影。MAM路径推荐与电影《钢铁侠》共用演员的电影，如《追风筝的人》和《晚安》。虽然前四部推荐电影（除了《钢铁侠》本身）都只有一个与《钢铁侠》相同的演员，但《追风筝的人》的演员较少，所以得分较高。MTM路径推荐与《钢铁侠》类型相同的电影，如《不可思议的绿巨人》、《少年变种海龟》和《繁殖》。“不可思议的绿巨人”与“钢铁侠”有着更为常见的类型，因此它排名第一。更有趣的是，基于相关路径，HeteSim可以推荐不同类型的对象。例如，用户可能喜欢与演员“西尔维斯特·史泰龙”的电影类型相同的电影。可采用AMTM路径。结果显示在表五的最后一列。由于“西尔维斯特·史泰龙”在许多有关拳击和体育的电影中扮演主角，HeteSim推荐这类电影，如《洛奇》和《百万美元宝贝》。遵循这一思想，我们设计了一个基于语义的推荐系统HeteRecom[28]。

C.查询任务性能

查询任务将验证HeteSim在异构对象查询搜索中的有效性。由于PathSim不能度量不同类型对象之间的关联性，因此本实验只比较了HeteSim和PCRW。在DBLP数据集上，我们基于CPA路径来度量会议和作者之间的接近度。对于每一次会议，我们根据相关作者的测量分数对他们进行排名。然后根据作者标签绘制前100名作者的ROC曲线（当作者标签和会议标签相同时，为真，否则为假）。之后，我们计算AUC（Area Under ROC Curve）得分来评估排名结果的表现。请注意，DBLP数据集上的所有会议和一些作者都标有四个研究领域之一（见第V.A节）。分数越大意味着表现越好。我们评估了9个代表性会议的表现，其AUC分数如表六所示。我们可以发现，HeteSim在所有9个会议中都始终优于PCRW。结果表明，所提出的HeteSim方法比非对称相似性度量PCRW更适合于邻近查询任务。

D.群集任务的性能

由于HeteSim的对称性，它可以直接应用于聚类任务。为了评估它的性能，我们将HeteSim与五个成熟的相似性度量进行了比较，包括两个基于路径的度量（即PathSim和PCRW）和三个同质度量（即SimRank、RoleSim和P-PageRank）。这些度量使用相同的信息来确定对象之间的成对相似性。我们评估了DBLP数据集的聚类性能。主要包括三个任务：基于CPAPC路径的会议聚类、基于APCPA路径的作者聚类和基于P-AP-CP路径的论文聚类。对于非对称度量（即PCRW和P-PageRank），可通过基于路径P和P-1的相似矩阵的平均来获得对称相似矩阵。对于RoleSim，它应用于路径P构造的网络中。对于SimRank和P-PageRank，它们应用于路径PL构造的子网络中（注意，实验中的三条路径是对称的）。例如，对于CPAPC路径，从路径CPA导出的二部图MCA可以用于SimRank和P-PageRank度量。然后，基于不同度量返回的相似矩阵，我们应用归一化割[29]进行聚类。群集数设置为4。NMI准则（归一化互信息）[30]用于评估会议、作者和论文的聚类性能。NMI介于0和1之间，越高越好。在实验中，P-PageRank、SimRank和RoleSim的阻尼因子分别设置为0.9、0.8和0.1。

表七总结了100次运行的平均聚类精度结果。我们可以发现HeteSim在两个任务（作者和论文聚类）上取得了最好的性能，在会议聚类任务上取得了第三名的成绩。总之，它在三种类型的聚类精度的加权平均方面表现最好。PCWR和P-PageRank的一般结果表明，尽管两个随机游走过程的组合可以构造对称的相似性度量，但简单的组合不能生成良好的相似性度量。RoleSim的目标是检测角色相似度，与结构相似度略有不同，因此在这些聚类任务中性能较差。此外，我们还记录了所有度量的相似度计算的运行时间。由于篇幅限制，我们只在表VII的最后一列显示了作者集群任务的代表性运行时间。我们可以发现HeteSim和PCWR的运行时间最小，因为它们只需要沿路径计算一次矩阵乘法。SimRank和P-PageRank中的迭代计算使它们的运行时间更长。RoleSim中的邻域匹配过程具有很高的时间复杂度，这使得它非常耗时。实验表明，HeteSim不仅在同类对象的相似性度量上有很好的表现，而且作为一种高效聚类的相似性度量方法也有潜力。

六、快速计算策略与实验

HeteSim对时间和空间的计算要求很高。在大规模的信息网络中，在线查询是负担不起的。因此，一个主要的策略是离线计算相关矩阵，并用这些矩阵进行在线查询。对于常用的关联路径，关联矩阵可以提前具体化。在线查询将非常快，因为它只需要定位矩阵中的行和列。然而，实现所有常用路径也需要花费大量的时间和空间。因此，本文提出了四种快速计算关联矩阵的策略。此外，实验验证了这些策略的有效性。

A.HeteSim的计算特点

HeteSim的计算包括两个阶段：矩阵乘法（表示为MUL，即和的计算）、相关性计算（表示为REL，即的计算和归一化）。为了分析HeteSim的计算特性，我们通过实验观察了这两个相位在不同路径上的运行时间。

基于ACM数据集（见第V.A节），我们选择了四条不同长度的路径（l）： $(AP A)^{l}$ 、 $(APCPA)^{l}$ 、 $(APSPA)^{l}$ 和 $(TPT)^{l}$ 。l表示路径重复次数，范围从1到5。我们根据这些路径记录了HeteSim不同阶段的运行时间，如图5所示。我们首先观察图5（a）中MUL的运行时间。不同的路径有不同的运行时间。随着路径长度的增加，由于需要乘法的矩阵越来越多，矩阵乘法的运行时间不断增加。然后我们考虑图5（b）中REL阶段的运行时间。除与图5（a）相同的观察外，REL的运行时间受长度l的影响很大，即当l为2和4时， $(APCPA)^{l}$ 和 $(APSPA)^{l}$ 的REL运行时间显著增加。让我们以 $(APCPA)^{l}$ 为例来分析原因。当l为1、3和5时，源节点和目标节点将沿着 $(APCPA)^{l}$ 路径在中间节点C处相遇，因此相关性计算为。然而，当l为2和4时，相关性计算是。由于A的尺寸比C大得多，的运行时间比长得多。相似的原因使 $(TPT)^{l}$ 有相反的波动。此外，当矩阵变得稠密时，REL所花费的时间不再增长。因此其增长率逐渐降低。对于 $(AP A)^{l}$ 路径，A和P的维数很接近（#A 17K和#P 12K），因此对于不同的路径长度，其运行时间没有明显的差异。另外，可达概率矩阵始终保持稀疏，使得 $(AP A)^{l}$ 的运行时间小于其它路径的运行时间。

图5（c）和（d）显示了这两个阶段的运行时间与总运行时间的比率。一方面，它说明了REL阶段主导了HeteSim的运行时间。另一方面，MUL的比率随着路径长度的增加而增加。从这些实验中，我们可以总结出HeteSim计算的两个特点。（1） 相关性计算是主要的耗时阶段。这意味着矩阵乘法的加速可能不会显著减少HeteSim的运行时间，尽管这种策略被广泛用于加速SimRank[4]和PCWR[24]。（2） 矩阵的维数和稀疏性对HeteSim算法的效率有很大的影响。

B.快速计算策略

虽然不能直接减少相关计算阶段的运行时间，但可以通过调整矩阵维数和保持矩阵稀疏来加快HeteSim的计算速度。基于上述思想，我们设计了以下四种策略。

1）动态规划策略：矩阵乘法服从联想性。而且，不同的计算序列具有不同的时间复杂度。动态规划策略（DP）利用联想特性改变矩阵乘法的顺序。DP的基本思想是分配具有高计算优先级的低维矩阵。对于路径HeteSim的期望最小计算复杂度可由下式计算，计算顺序由i记录。

利用O（l²）复杂度的动态规划方法，可以很容易地求解上述方程。运行时间可以省略，因为l比矩阵维数小得多。

相关路径中可能有许多重复的子路径。显然，这些重叠子路径只需计算一次。例如，通过计算矩阵APT一次，可以得到APTPA的结果。在矩阵乘法过程中，DP策略保留了矩阵的计算序列和相应的结果。对于一个新的计算序列，如果以前计算过，则可以直接使用相应的结果。因此，复用策略进一步加快了矩阵乘法。注意，DP策略只加速多阶段（即矩阵乘法），并且不会改变相关结果，因此DP是一种信息无损策略。

2）截短策略：截短策略是基于去掉那些不太重要的节点上的概率不会显著降低性能的假设，这已经被许多研究所证明[24]，[31]。这种策略的一个优点是保持矩阵稀疏。稀疏矩阵大大减少了空间和时间的消耗。截断策略的基本思想是在随机游动的每一步中增加一个截断步长。在截断步骤中，当相关值小于阈值ε时，将这些节点的相关值设置为0。静态阈值通常用于许多方法（例如，参考文献[24]）。然而，该算法存在以下缺点：对于元素都具有高概率的矩阵，它可能不截断任何元素；对于元素都具有高概率的矩阵，它可能会截断任意一个，并且对于所有元素概率都很低的矩阵，它可能会截断大多数节点。由于查询任务中的k对象通常都是最为关注的，因此阈值ε可以设置为每个搜索对象的k相关值。对于尺寸为M×L的相似矩阵，k可以动态调整如下。

其中W是顶部对象的数量，由用户决定。动态调整的基本思想是，对于超对象类型（即L较大），k缓慢增加。W和β决定截断水平。较大的W或β将导致较大的k，这意味着更密集的矩阵。确定每个目标的前k个相关值代价很大，因此我们可以通过整个矩阵的前kM值来估计该值。此外，最高kM值可以由原始矩阵中具有比率γ的样本数据来近似。γ越大，运行时间越长，逼近精度越高。总之，截断策略是一种信息丢失策略，它以较小的精度代价保持矩阵稀疏。另外，估计阈值ε需要额外的时间。

3）混合策略：如上所述，DP策略可以加速MUL阶段，而截断策略可以通过保持稀疏矩阵间接加速REL阶段。因此，可以设计一种混合策略来结合这两种策略。对于多阶段，采用DP策略。在获得和之后，添加截断策略。与上述截断策略不同，混合策略只截断和。混合策略利用了DP和截断策略的优点。这也是一种信息丢失策略，因为采用了截断策略。

4）蒙特卡罗策略：蒙特卡罗方法（montecarlo method，MC）是一类通过重复随机抽样来估计结果的计算算法。它已用于计算矩阵乘法的近似值。Fogaras等人[13]应用montecarlo算法来计算近似的个性化PageRank。最近，Ni等人[24]在路径约束随机游走模型的上下文中测试了montecarlo抽样策略的有效性。

在这项研究中，我们应用MC策略来估计和的价值。的值可以由步行者沿着路径P从a访问节点b的次数的归一化计数来近似。

C.快速计算实验

我们在ACM数据集上验证了快速计算策略的效率和有效性。使用四个路径: $(AP A)^{l}$ 、 $(APCPA)^{l}$ 、 $(APSPA)^{l}$ 和 $(TPT)^{l}$ 。 l表示路径重复的次数，范围从1到5。采用了四种快速计算策略和原始方法(即基线)。截断过程中的参数设置如下:顶对象数W为200，β为0.5，γ为0.005。MC策略中的步行者(即K)数量为500。记录所有策略的运行时间和准确性。在精度评估中，以原方法得到的关联矩阵作为基线。准确性是每个策略获得的前100个对象的召回标准。所有实验都是在具有2.13 GHz英特尔至强8核处理器和64 GB内存的机器上进行的。

图6显示了四种策略在不同路径上的运行时间和准确性。这些策略的运行时间如图6 (a)-(d)所示。我们可以观察到，DP策略几乎与基线具有相同的运行时间。只有当多相流阶段主导整个运行时间时(例如，和)，它才能加速异质结构计算。截断和混合策略的情况并非如此，截断和混合策略显著地加速了HeteSim计算，并且在大多数情况下具有接近的加速比。除了AP A路径，MC策略在大多数情况下都是四种策略中加速比最高的。然后，让我们从图6 (e)-(h)观察它们的准确性。DP策略的精度始终接近1。对于大多数路径，混合策略实现了第二性能。MC策略的准确性对于大多数路径来说也很高，而它在不同的路径上波动。显然，截断策略在大多数情况下精度最低。

正如我们已经注意到的，动态规划是一种信息无损的策略，它只会加速多阶段规划阶段。此外，对于大多数路径来说，MUL阶段不是主要的耗时部分。因此，动态规划策略以接近1的精度显著地加速了故障树。截断策略是一种保持矩阵稀疏的信息丢失策略，因此可以有效地加速HeteSim。这就是为什么截断策略具有高加速比但精度低的原因。混合策略结合了动态规划和截断策略。因此它的加速比接近截断策略。混合策略只在随机行走的最后一步进行截断，减少了信息损失。说明其精度高于截断策略。我们知道，MC策略的本质是反复随机抽样。为了达到高精度，高维或稀疏矩阵需要更多的walkers(即K较大)。在我们的实验中，固定步行者(即K为500)使得MC策略在某些条件下精度较差。例如，在图6 (h)中，对于，相关性计算是。P的高维数和均匀分布导致了MC策略的低精度。

为了清楚地说明这些策略对异构计算两个阶段的影响，图7给出了一个 $(APCPA)^{l}$ 典型的运行时示例。显然，发展伙伴关系战略确实大大加快了多国部队阶段，但对REL阶段没有影响。相反，由于稀疏矩阵和估计阈值所花费的额外时间，截断策略比MUL阶段的基线慢。然而，由于保留了稀疏矩阵，截断策略大大加速了REL相位。与截断策略相比，多载波策略不仅加速了REL相位，而且有利于密集矩阵上的多载波相位。

根据以上分析，这些策略适用于不同的路径和场景。对于非常稀疏的矩阵(如 $(AP A)^{l}$ )和低维矩阵(如)，所有策略都不能显著提高效率。然而，在这些条件下，可以在不应用任何快速计算策略的情况下快速计算异质结。对于计算开销较大的密集矩阵(如)和高维矩阵(如)，截断、混合和多中心策略可以有效提高混合矩阵的效率。特别地，混合策略和MC策略的加速比高达100，而精确度损失很小。如果多路径阶段是路径的主要耗时部分，那么动态规划策略也可以在不损失准确性的情况下大大加快速度。矩阵运算策略具有很高的效率，但对于高维矩阵，其精度可能会下降。所以需要通过平衡效率和效果来设置合适的K。

七.结论

在本文中，我们研究了在异构网络中度量异构对象(包括相同类型或不同类型的对象)相关性的相关性搜索问题。我们提出了一个通用的相关性度量，称为HeteSim。作为一种路径约束度量，HeteSim可以在一个统一的框架中度量同类型和不同类型对象的相关性。此外，HeteSim是一种半度量度量，可以在许多应用中使用。大量的实验验证了异构对象相关度评价的有效性和高效性。

未来的工作有一些有趣的方向。首先，可以探索更多的方法来度量异构对象的相关性，如路径计数和读写策略。其次，由于本文提出的快速计算策略都是内存中的方法，因此异构系统的并行计算方法是一个值得探索的课题。最后，如何选择和加权不同的元路径也是异构网络的重要问题。

【论文翻译】HeteSim：异构网络中相关性度量的通用框架相关推荐

【论文翻译】异构网络的影响与相似性
异构网络的影响与相似性摘要在社会网络研究中,社会影响最大化和实体相似性是两个重要的正交课题.在同质网络上,社会影响最大化研究试图确定一个初始影响集,使信息传播最大化,而相似性研究则侧重于设计有意义 ...
【论文翻译】异构信息网络中的深层集合分类
异构信息网络中的深层集合分类摘要在过去十年中,集体分类引起了相当大的关注,在这十年中,一组实例中的标签是相互关联的,应当集体推断,而不是独立地推断.传统的集体分类方法主要集中在开发简单的关系特征( ...
【论文翻译】异构信息网络挖掘的活动边缘中心多标签分类
异构信息网络挖掘的活动边缘中心多标签分类摘要异构信息网络的多标签分类在社会网络分析中受到了新的关注.本文提出了一个以活动边缘为中心的多标签分类框架,用于分析具有三个独特特征的异构信息网络.首先,我 ...
【论文翻译】GoogleNet网络论文中英对照翻译--（Going deeper with convolutions）
[开始时间]2018.09.25 [完成时间]2018.09.26 [论文翻译]GoogleNet网络论文中英对照翻译--(Going deeper with convolutions) [中文译名] ...
论文笔记——HDD算法：异构网络中信息扩散的深度学习方法
HDD算法发表在knowledge-Based Systems上的一篇文章.有许多现实世界的复杂系统与多类型相互作用的实体,可以被视为异构网络,包括人类连接和生物进化.这类网络的主要问题之一是预测信 ...
【论文翻译】VGG网络论文中英对照翻译--（very deep convolutional networks for large-scale image recognition）
[开始时间]2018.09.23 [完成时间]2018.09.24 [论文翻译]VGG网络论文中英对照翻译--(very deep convolutional networks for large-s ...
【文献阅读】异构网络中的联邦优化——FedProx
本文是FedProx的论文,值得一看. 由于本文之前有简单看过一次,这次就不细读,就只读其中比较重要的部分也就是PedProx的实现和收敛证明. 定义 1:(-不精确解) 对于一个函数 ,其中 .我 ...
【电信学】【2019.03】5G异构网络中的移动性管理
本文为澳大利亚埃迪斯科文大学(作者:Mohammad Arifin Rahman Khan)的硕士论文,共91页. 近年来,由于智能手机.平板电脑和笔记本电脑等便携式设备的普及,移动数据流量呈指数级增 ...
【论文翻译】异构信息网络的领域自适应分类
异构信息网络的领域自适应分类摘要异构信息网络(heterogeneousinformationnetworks,HINs)是一种普遍存在的结构,它能够描述复杂的关系数据.由于HINs的复杂性,很难 ...

【论文翻译】HeteSim：异构网络中相关性度量的通用框架

HeteSim：异构网络中相关性度量的通用框架

摘要

一、简介

二相关工作

三、初步

四、 HETESIM：一个统一对称的关联度量

A.基本思路

B.基于路径的相关性度量

C.关联路径分解

D.异象的正常化

E.HeteSim的特性

F.讨论

五、实验

A.数据集

B.案例研究

C.查询任务性能

D.群集任务的性能

六、快速计算策略与实验

A.HeteSim的计算特点

B.快速计算策略

C.快速计算实验

七.结论

【论文翻译】HeteSim：异构网络中相关性度量的通用框架相关推荐

最新文章

热门文章

【论文翻译】HeteSim：异构网络中相关性度量的通用框架

HeteSim：异构网络中相关性度量的通用框架

摘要

一、简介

二 相关工作

三、 初步

四、 HETESIM：一个统一对称的关联度量

A.基本思路

B.基于路径的相关性度量

C.关联路径分解

D.异象的正常化

E.HeteSim的特性

F.讨论

五、实验

A.数据集

B.案例研究

C.查询任务性能

D.群集任务的性能

六、 快速计算策略与实验

A.HeteSim的计算特点

B.快速计算策略

C.快速计算实验

七.结论

【论文翻译】HeteSim：异构网络中相关性度量的通用框架相关推荐

最新文章

热门文章

二相关工作

三、初步

六、快速计算策略与实验