SHINE 一个用于特定领域实体与异构信息网络链接的通用框架

摘要

由多种类型的互联对象组成的异构信息网络正变得越来越流行，例如社交媒体网络和书目网络。在异构信息网络中，将从非结构化文本中检测到的命名实体提及与其对应的实体进行链接的任务对于信息网络群体问题具有重要的现实意义。由于网络中存在的名称模糊和知识有限，这项任务具有挑战性。大多数现有的实体链接方法侧重于将实体与维基百科链接，不能应用于我们的任务。在这篇文章中，我们提出了SHINE+，一个将网络自由文本中的命名实体与异构信息网络链接起来的通用框架。我们提出了一个概率链接模型，它将实体流行度模型和实体对象模型统一起来。由于信息网络中包含的实体知识不足，我们提出了一种知识种群算法，通过利用高置信度链接模型映射的提及上下文信息来迭代丰富网络实体知识，从而提高链接性能。在两个真实的异构信息网络(即DBLP和IMDb)上的实验结果证明了我们提出的框架与基线相比的有效性和效率。

1导言

由于现实世界的物理和抽象数据对象都通过不同的关系连接在一起，形成了不同的异构信息网络，因此涉及大量多类型对象的异构信息网络变得普遍而普遍。例如，在一个书目数据集中，论文(P)、作者(A)、出版地点(V)、标题术语(T)等多种类型的对象，以及写作、出版和包含等多种类型的关系相互联系在一起，提供了丰富的信息，形成了异构的信息网络。然而，异构网络中的对象名称可能是不明确的:相同的文本名称可能指几个不同的实体。如图1所示的例子，在DBLP网络中，对象名“Wei Wang”可以指119个不同的作者，包括SUNY奥尔巴尼大学的“Wei Wang”、中国复旦大学的“Wei Wang”、加州大学洛杉矶分校的“Wei Wang”和澳大利亚UNSW的“Wei Wang”。在IMDb电视网中，对象名“克里斯·埃文斯”可以指因扮演超级英雄角色“美国队长”而出名的美国演员、著名的英国节目主持人或其他一些名为“克里斯·埃文斯”的演员。

图1。将Web文档中提到的实体与DBLP书目网络链接的说明。从Web文档中检测到的命名实体以粗体显示；DBLP网络中的候选实体显示在右侧；真实映射实体带下划线。

虽然存在许多大规模的异构网络，但其中包含的信息是有限的。例如，DBLP网络中不存在作者之间的顾问关系。此外，随着世界的发展，新的事实出现了，并在网络上以数字方式表达出来。因此，用新提取的事实(例如实体之间的关系)填充现有的异构信息网络变得越来越重要。然而，将从信息提取系统导出的新提取的事实集成到现有的异构信息网络中不可避免地需要一种系统来将与提取的事实相关联的实体提及映射到它们在异构信息网络中的对应实体。例如，我们可以从图1的网络文档中提取作者名“Wei Wang”和组织名“加州大学洛杉矶分校”之间的渐变关系。在将此关系填充到DBLP网络之前，我们需要将此关系中的作者名“Wei Wang”映射到其真正的映射作者(即加州大学洛杉矶分校的“Wei Wang”)，因为在DBLP网络中有119个不同的作者具有相同的名称“Wei Wang”。

另一方面，在某种程度上，一些异构信息网络可以被视为特定领域的知识库[2]。例如，在计算机科学(或娱乐)领域，DBLP(或IMDb)网络比维基百科包含更多有趣和多样的知识。在这种情况下，我们可以将此任务视为一种特定于领域的实体链接。在我们的任务中，我们着重于链接出现在特定领域的非结构化网络文本中的实体提及，这与异构信息网络属于同一领域。因此，该任务有利于连接非结构化文档和半结构化异构信息网络，便于信息检索和问答等任务。大多数问答系统利用其支持的知识库来给出用户问题的答案。回答诸如“加州大学洛杉矶分校的Wei Wang教授在西格蒙德发表了多少论文？”，系统应该首先利用实体链接技术将查询的“Wei Wang”映射到加州大学洛杉矶分校的教授，而不是例如澳大利亚UNSW大学的教授；然后它直接从DBLP网络检索她的西格蒙德论文的数量。

传统的实体链接方法主要侧重于将文本中的实体提及与维基百科或维基百科衍生知识库中的相应实体相链接(如YAGO [3])，并且很大程度上依赖于与维基百科相关联的特殊功能[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]。具体来说，它们依赖于嵌入在维基百科文章[4]，[5]，[6]，[9]，[10]，[11]，[12]，[13]，[14]，基于维基百科的语义相关度度量[6]，[7]，[8]，[10]，[11]，[12]，[16](例如，基于维基百科链接的度量[17])，以及维基百科中的一些特殊结构[4]，[5]，[6]，[8]在本文中，我们改为研究在异构信息网络中链接网络文本中的实体的问题。异构信息网络没有这些与维基百科相关的特定功能。因此，这些传统的实体链接方法不能应用于我们的任务。例如，在这些先前的方法[4]、[5]、[6]、[7]、[9]、[11]、[13]、[14]中的一个基本步骤是定义与候选实体相关联的维基百科文章和所提到的实体周围的文本之间的上下文相似性度量，而对于DBLP网络中的每个作者实体，我们没有她的描述性文章，并且不能计算上下文相似性度量。此外，在许多现有的实体链接方法[6]、[7]、[8]、[10]、[11]、[12]、[16]中，基于维基百科链接的度量[17]已被用于计算映射实体之间的主题一致性。然而，这一衡量标准是基于维基百科文章之间的超链接结构，不能用于计算DBLP或IMDb网络中实体之间的主题一致性。

为了解决这个问题，我们提出了一个概率链接模型，它将实体流行度模型和实体对象模型相结合。实体流行度模型是独立于上下文的，并且捕捉实体的流行度。例如，一个名为“Wei Wang”的著名教授发表了许多论文，通常被认为比一个名为“Wei Wang”的学生更受欢迎，他发表的论文很少。

实体对象模型捕捉实体的文本上下文中出现多类型对象的概率。在异构信息网络中，多类型对象通过不同类型的关系或关系序列连接，形成一组元路径[18]。元路径是由不同对象类型之间的一系列关系组成的路径(即元级的结构路径)。不同的元路径意味着不同的语义，这可能导致不同的对象分布。例如，在书目网络中，A-P-A是表示作者和她的合著者之间的关系的元路径，而A-P-V表示作者和她论文发表的地点之间的关系。从一个作者沿着元路径A-P-A开始的随机漫步可能会为该作者生成共同作者的分布，而元路径A-P-V可能会为该作者导致场所的分布。于是出现了一个问题:哪些元路径对实体链接任务更重要？我们模型的估计问题是确定哪些元路径(或它们的加权组合)用于特定的实体链接任务。很难要求用户明确指定这种复杂元路径的权重。为了解决这个问题，提出了一种有效的权重学习算法，该算法基于期望最大化算法自动学习元路径的最合适权重，而不需要任何标注的训练数据。对于任意异构信息网络的不同元路径集，我们的概率链接模型可以自动学习合适的元路径权重，这使得我们的模型具有足够的通用性和灵活性，以适应各种类型的异构网络。

如上所述，现有信息网络中包含的实体知识是有限的。在某些情况下，信息网络不能提供足够有用的知识来帮助正确链接实体提及。例如，当提到“陈科”的实体出现在文本中时，“利物浦大学的陈科正在给学生们做报告。”，现有的实体链接方法无法将其与DBLP正确链接，因为DBLP网络没有作者的附属机构信息。为了解决这个问题，我们提出了一种知识填充算法，通过利用从出现高置信度链接提及的文本中提取的上下文信息来迭代地丰富网络实体知识。随后，链接模型可以利用丰富的实体知识来更准确地链接实体提及。例如，有另一个实体在某些文本中提到“陈科”，该实体被链接模型以高置信度链接。在其周围环境中，“利物浦大学”由知识群体算法提取，以增加其在DBLP网络中相应的实体知识。然后，这种丰富的实体知识可以被链接模型利用来正确地链接前述的“陈科”。

该知识群体算法联合执行实体链接和实体知识群体，使这两项任务相辅相成。到目前为止，这两个任务是分开调查的。第五节介绍的实验结果验证了该算法显著提高了实体链接的准确性。此外，知识群体算法的思想可以应用于其他实体链接任务或模型，并且可以激励对将这两个任务相结合的进一步研究，以获得更有意义的、令人感兴趣的成果。

贡献。本文的主要贡献总结如下。

我们是第一个探索将实体与异构信息网络联系起来的问题的人，并提出了一个通用的无监督框架SHINE+来有效地解决这个问题。
我们提出了一个概率链接模型，它将实体流行度模型和实体对象模型统一起来。为了解决模型估计问题，提出了一种基于em算法的权值学习算法，在不需要任何标注训练数据的情况下学习元路径权值。
提出了一种知识群体算法，利用高可信度链接模型映射的提及上下文来迭代丰富网络实体知识。该算法联合进行实体链接和实体知识群体，并使二者相辅相成。
为了验证SHINE+的有效性和效率，我们在两个真实的异构信息网络(即DBLP和IMDb)和三个人工标注的网络文档集合上进行了实验。实验结果表明，SHINE+在准确性方面明显优于基线，并且具有很好的扩展性。

本文的其余部分组织如下。第2节介绍了一些背景概念和贯穿全文的形式符号。第三节介绍了概率链接模型，第四节介绍了知识群体算法。第5节介绍了实验结果，第6节讨论了相关工作。最后，我们在第7节总结了本文。

2预备知识和符号

在本节中，我们首先介绍异构信息网络中的一些概念。接下来，我们定义了将网络文本中的实体与异构信息网络链接的任务(与HIN链接的实体)。

HIN: heterogeneous information network 异构信息网络

2.1异构信息网络

异构信息网络G是一个具有多种对象类型和多种链接类型的信息网络[1]，[18]。

定义1(异构信息网络)。异构信息网络被定义为有向图G=(V,Z)，其中V为对象集，Z为链接集。每个对象 v∈V 都属于一个特定的对象类型T，每个链接 z∈Z 都属于一个特定的关系类型R，而且，对象类型的数量 |{T}|> 1，关系类型的数量 |{R}|> 1。

DBLP书目网络是一个典型的异构信息网络，包含五类对象:论文(P)、作者(A)、出版地点(V)、标题术语(T)和出版年份(Y)。作者和论文之间的联系是通过写作和不写作的关系来实现的，在出版场所和论文之间通过出版和不发表、论文和标题之间的术语由包含和不包含组成、发表论文和发表论文的年代之间的出版与不出版关系，图2a示出了DBLP网络的网络模式(即，网络的元级描述)。网络2(参见图2b中的模式)也是一个异构信息网络，包含七种类型的对象:演员(Ac)、传记术语(B)、电影(Mv)、电影标题(MT)、情节关键字(K)、角色(C)和导演(Di)。在异构信息网络中，两个对象可以通过不同类型的关系或关系序列连接，形成一组元路径，定义如下。

定义2(元路径)。元路径p是在给定网络G的网络模式上定义的路径，以的形式表示，它在对象类型 $T_{1}$ 和 $T_{l+1}$ 之间，定义了一个复合关系，其中 $\circ$ 表示关系上的组合运算符。

元路径p也可以描述为一系列关系(用表示)，或者对象类型的序列(用表示)，为简单起见，如果同一对对象类型之间不存在多重关系，则为1。元路径p的长度是p中的关系数。例如，在IMDb网络中，Ac-B是长度为1的元路径，表示演员和她所拥有的传记术语之间的关系，Ac-Mv-Di是长度为2的元路径，表示演员和她所表演的电影的导演之间的关系。

2.2与HIN的实体链接

根据任务设置，我们取(1)一组非结构化Web文档(用D表示)，(2)给定文档D中识别的命名实体提及(用M表示)，(3)一个异构信息网络G作为输入。每个网络文档d∈D都应该与异构信息网络G属于同一个领域；否则，文档d与信息网络没有任何共同的知识，这使得实体链接没有意义。例如，如果我们链接到DBLP网络，网络文档d∈D应该属于计算机科学领域CS，如计算机科学研究人员的主页、计算机科学系网站上的新闻文章、计算机科学讲座/研讨会介绍页面等。从文档d中检测到的每个实体m∈M是一个命名实体的令牌序列（或表面形式），该命名实体可能与异构网络G中的实体相链接。E是异构网络G中的实体集合，其具有与实体提及M的类型相同的对象类型。E中的每个实体由e表示。通常，实体集E是网络G中对象集V的子集(即，E⊂V)。例如，如果我们想将网络文本中的作者姓名提及与DBLP网络联系起来，实体集E应该是DBLP网络中作者类型的对象集。在这里，我们正式声明实体与HIN链接的任务如下。

定义3(与HIN链接的实体)。给定从网络文档集合D和异构信息网络G中检测到的命名实体提及集M，目标是在异构信息网络G中为文档D中的每个实体提及集m∈M识别映射实体e∈E。

为了说明，我们显示了与HIN链接的实体任务的运行示例。

示例1(实体与HIN链接)。在这个例子中，我们考虑用图1所示的HIN链接实体的任务。图1的网络文档中的命名实体提及“Wei Wang”需要与其在DBLP书目网络中的参考作者相链接。根据图1，在DBLP网络中总共有119个不同的候选作者实体。对于这个例子中提到的命名实体“Wei Wang”，我们应该输出它的真实映射作者实体(即加州大学洛杉矶分校的“Wei Wang”)，在图1中用下划线标出。

在本文中，由于范围有限，我们假设异构信息网络G包含所有命名实体提及m的所有映射实体。

3概率链接模型

在这一节中，我们提出了一个概率链接模型来处理实体与HIN链接的任务。给定从文档d∈D检测到的命名实体提及m∈M，我们想在异构信息网络中找到它最可能的映射实体e∈E。这导致了下面的推理问题。

问题1(推论)。给定一个出现在文档d中的命名实体m，计算

即给定文档d中实体提及m的最可能映射实体e

根据公式(1)，给定一个在d中提到m的命名实体，我们可以如下找到它的映射实体e:

我们假设集合M×D×E上有一个潜在的分布P，因此，我们的目标是建立模型P(m,d,e)。一个实体提到m的概率可以表示为下面的公式(这里我们假设m和d是独立的，给定e):

映射实体e应该具有表面形式m的名称，并且我们表示可以由名称m指代的实体，作为实体名称m的候选实体。为简单起见，我们假设观察每个候选实体e的名称m的概率P(m|e)相同，并且定义为常数η，其中0<η≤1.例如，给定图1中所示的名为“Wei Wang”的119个作者实体中的每一个，我们假设观察“Wei Wang”作为她的名字的可能性是相同的。在这个合理的假设下，完整的模型可以表示为

其中e是实体提及m的候选实体。如公式(4)所示的这种概率链接模型主要由两部分组成:

(1)实体流行度模型P(e)捕获实体e的流行度，它是在不知道任何上下文信息的情况下观察出现在文档中的实体e的可能性。

(2)实体对象模型P(d|e)表示观察文档d作为实体e的文本上下文的概率。

下面，我们在3.1节中给出实体流行度模型，在3.2节中给出实体对象模型。我们在第3.3节中介绍了模型估计方法。

3.1实体流行度模型

我们观察到，异构信息网络中的每个实体都有不同的流行度。异构信息网络中的一些实体显然比其他实体更普遍。比如一个叫“Rakesh Kumar”的教授，他发表了很多论文，通常被认为比一个名字和“Rakesh Kumar”一样的发表的论文很少的博士学生更受欢迎。

大多数先前的实体链接系统使用维基百科文章语料库中的实体频率来估计实体的受欢迎程度[6]、[7]、[8]、[9]、[11]。然而，这种方法不能应用于我们的实体与HIN链接的任务。异构信息网络中的实体通过不同的关系连接在一起，一个实体在网络中的受欢迎程度取决于其他连接实体的可见性。例如，在DBLP书目网络中，一个作者的受欢迎程度取决于一些特征，例如她的合著者的受欢迎程度、她的出版数量以及她论文出版地点的权威性。

正如我们所知，PageRank [19]是一种通用的网络节点重要性度量，对于许多任务来说相当成功。这里，我们利用网络中一个实体的PageRank分数来表示它的受欢迎程度。为了简单起见，我们在离线计算PageRank分数时忽略了网络G中的对象类型(计算PageRank的详细方法可以参见我们之前的论文[20])。由于PageRank算法是在网络G中的整个对象集V上计算的，所以我们关注实体在E中的受欢迎程度，E是V的子集。对于每个实体e∈E，让pr(e)是它的PageRank分数。我们的实体流行度模型如下估计实体e的流行度P(e):

为了说明，我们在表1中显示了示例1中每个候选实体的实体流行度P(e)。从表1的结果可以看出，作者实体“Wei Wang”在UCLA的受欢迎程度(即1.08*10-5)在所有候选人中是最高的，这表明作者“Wei Wang”在UCLA是候选实体集中相对于实体提及“Wei Wang”最受欢迎的实体，这与我们的直觉一致，而作者“Wei Wang”在DBLP刚刚发表了一篇论文，具有最低的实体受欢迎度(即4.180*10-7).可以看出，实体流行度模型适当地表达了候选实体的流行度。

3.2实体对象模型

实体对象模型P(d|e) 捕获了观察文档d作为实体e的文本上下文的概率。也就是说，如果实体e频繁出现在文档d的上下文中，它将分配一个高概率，如果实体e很少出现在文档d的上下文中，它将分配一个低概率。

由于我们正在处理涉及大量多类型对象的异构信息网络，我们假设文档d由来自异构信息网络的各种多类型对象v‘组成，并且给定实体时对这些不同对象的观察是独立的。在示例1中，如图1所示，实体提及“Wei Wang”的网络文档由作者类型的对象(即，理查德·蒙茨)、地点类型的一些对象(例如，西格蒙德、西格德、BCB、VLDB等)组成。一些术语类型的对象(如计算机、数据、挖掘、生物信息学、计算等。)，以及一个年类型的对象(即1999)。第5.1节介绍了识别文档中多类型对象的方法。

然后，在假设文档d由来自异构信息网络的各种多类型对象v‘组成，并且在给定实体e的情况下对这些不同对象v的观察是独立的情况下，实体对象模型P(d|e)可以表示为概率P(v|e)的乘积，这类似于单一程序语言建模[21]。因此我们有

从公式(6)中，我们可以看到实体对象模型捕获了多类型对象v出现在实体e的文本上下文中的概率。分布P(v|e)编码观察对象的概率，该概率可以从关于异构信息网络中实体e的关联网络中估计。例如，关于在UCLA的实体“Wei Wang”，观察地点物体SIGMOD的概率应该高于观察地点物体VLDB的概率，因为在UCLA的作者“Wei Wang”在SIGMOD会议上发表的论文(即六篇论文)比在DBLP举行的最大会议(即一篇论文)要多得多。

图3示出了示例1中具有最高实体流行度的三个候选实体(即，UCLA的“Wei Wang”、澳大利亚UNSW的“Wei Wang”和中国复旦大学的“Wei Wang”)的实体对象模型的部分，该实体对象模型是使用元路径约束随机漫步生成的(其定义在公式(9)中给出)。从图3中，我们可以看到，在给定实体UCLA “Wei Wang”的图1中观察的网络文档d的概率P(d | UCLA的“Wei Wang”) 可能显著高于概率P(d | 中国复旦大学的“Wei Wang”)和概率P(d | 澳大利亚UNSW的“Wei Wang”)，因为观察出现在文档d中的大多数代表性对象(例如，作者对象理查德·蒙茨、地点对象SIGKDD和BCB、术语对象数据，采矿，生物信息学，和年对象1999)给定的实体UCLA“Wei Wang”高于观察这些对象的概率给定的其他两个候选实体。

从图3中，我们还可以看出，由于稀疏数据问题，观察给定实体的某个对象的概率等于0(例如，观察给定中国复旦大学的实体“Wei Wang”的作者对象理查德·蒙茨的概率P(理查德·蒙茨 | 中国复旦大学的“Wei Wang”))。这导致公式(6)中概率的乘积等于零。为了避免这个问题，我们使用一个通用的对象模型来进一步平滑P(v|e)。

在形式上，给定作为实体e的文本上下文的文档d，每个对象从两个对象模型的混合中随机抽取:实体特定的对象模型，它是关于实体e的对象的分布，并且可以使用元路径约束的随机行走来生成(其定义在公式(9)中给出)，以及域的通用对象模型，它独立于实体e并且可以从整个集合中估计。因此，我们可以进一步将实体对象模型P(d|e)定义为

其中是一个平衡两个部分的参数(即实体特定的对象模型和域的通用对象模型)。域的通用对象模型可以通过计算文档集中出现的多类型对象的频率来学习。识别文档中多类型对象的方法在第5.1节中介绍。

在异构信息网络中，一个对象可以通过多个元路径链接到许多不同类型的对象。不同的元路径意味着不同的语义，这可能导致对象上相当不同的分布。因此，我们探索元路径来引导异构网络上的随机行走。在本文中，我们建议使用元路径约束的随机行走[22]来估计实体特定的对象模型。形式上，让元路径，每个关系 $R_{k}$ 都是二元关系。我们定义；如果对象v’和对象v通过关系 $R_{k}$ 链接；否则。我们还定义了，它是通过关系 $R_{k}$ 与对象v‘链接的一组对象。给定元路径，以与实体e相同的对象类型开始，我们定义，即观察对象v给定实体e和元路径p的分布，如下。首先，如果元路径p是空路径，我们定义

如果是非空路径，则，并定义

其中，是通过关系 $R_{l}$ 与对象v’链接的对象数量。这个定义(公式(9))是递归形式的，称为元路径约束随机行走，即从实体e开始沿着元路径p的随机行走。给定每个元路径，我们可以使用公式(9)计算每个实体的观察对象的分布。

例如，给定DBLP的元路径A-P-V，相对于加州大学洛杉矶分校的实体“Wei Wang”，观察地点对象SIGMOD的概率是0.0536，而观察地点对象VLDB或地点对象SIGMETRICS的概率在DBLP网络中是相同的(即0.00893)，因为加州大学洛杉矶分校的作者“Wei Wang”在SIGMOD会议上发表了六篇论文，并且分别在VLDB会议和SIGMETRICS会议上仅发表了一篇来自DBLP网络的论文。此外，给定元路径A-P-A-P-V，相对于加州大学洛杉矶分校的实体“Wei Wang”，观察地点对象VLDB的概率(即0.00863)比观察DBLP的地点对象西格玛特斯的概率(即0.00471)高得多，因为加州大学洛杉矶分校的作者“Wei Wang”的合著者在VLDB会议上发表的论文比西格玛特斯会议多得多。可以看出，不同的元路径可能意味着不同的语义，这可能导致对象上相当不同的分布。

因此，需要了解特定实体链接任务的每个元路径的相对重要性。为了量化每个元路径p的重要性，我们给每个元路径p一个元路径权重wpe。给定一组元路径，实体特定对象模型pevv可以是沿着每个元路径p观察对象v给定实体e的概率的加权和。我们定义实体特定对象模型pevv如下:

其中。较大的 $w_{p}$ 表示相对于实体链接任务，元路径p的重要性较高。我们把元路径权向量定义为，注意，在这个模型中，我们不考虑负的 $w_{p}$ ，这意味着不考虑对实体链接过程有负面影响的关系， $w_{p}$ =0的极端情况意味着这个元路径中的关系与实体链接过程完全无关。

应该提供一组元路径作为该模型的输入，这些元路径从与实体e相同的对象类型开始，可能对实体链接任务有用。我们将这个元路径的输入集定义为MP。这些元路径可以根据用户的专家知识来确定，或者通过使用标准遍历方法(例如BFS(广度优先搜索)算法)从与实体e具有长度约束的相同对象类型开始遍历网络模式来确定。将关系传播到远程邻居的非常长的元路径可能没有太多有意义的语义含义[18]，并且在实体链接中不是很有用。我们在实验中使用的元路径见第5.2.2节。

请注意，元路径集合MP中每个元路径p的元路径权重wp是我们的模型中唯一需要学习的参数。我们的模型的估计问题可以解决如下。

问题2(估计)。给定异构信息网络G和在给定文档集合D中识别的一组命名实体提及M，确定最大化观察文档集合D中命名实体提及M的可能性的参数(即，每个元路径p的元路径权重 $w_{p}$ )。

一旦我们学习了该模型，我们就可以根据公式(2)将实体提及与异构信息网络链接起来。在下一节中，我们将介绍模型估计方法(即权重学习算法)。

3.3权重学习算法

给定一组在给定文档集合D中识别的命名实体提及M，我们希望估计参数(即，每个元路径p的元路径权重wp)，这些参数最大化观察文档集合D中这些命名实体提及M的可能性。因此，我们希望

我们有

其中公式（4）给出P(m,d,e)，然后，我们得到

由于这个目标函数是难以直接优化的和形式的乘积，我们定义了一个隐藏的随机变量π(m,d,e) .对于每个三元组(m,d,e)，将它的形式简化如下

那么我们的优化函数可以写成

现在我们可以迭代地应用期望最大化方法来优化这个目标函数。在初始化步骤，我们假设参数的一些初始值(即给元路径权向量 $\vec{W}$ 一些初始值).

E-Step。在期望步骤中，使用参数的当前值，我们可以使用以下公式找到隐藏变量的期望值:

如公式(4)中，实体e被定义为实体提m的候选实体，因此，对于文档d中的每个实体提m，我们维护一个候选实体集(用 $E_{m}$ 表示)，并假设与其他实体链接的概率为0。因此，对于每个给定的提及文档元组，可以通过迭代候选实体集 $E_{m}$ 中的每个候选实体来计算该表达式。

M-Step。在最大化步骤中，我们使用值f(m,d,e)=E(π(m,d,e)).在E步骤中计算，并找到最大化以下功能的参数wp:

我们可以看到第一个Product不涉及 $w_{p}$ 的参数，也不依赖于这些参数。因此，我们只需要找到最大化以下函数的最佳参数 $w_{p}$ :

通过获得上述目标函数的对数，我们得到目标函数:

通过代入公式(7)和(10)，公式(19)的目标函数可以推导为

我们使用梯度下降法来解决这个优化问题。梯度下降的基本思想是找到方向(梯度)，以便目标函数向上攀升，并通过迭代更新向量 $\vec{W}$ 中的元路径权重 $w_{p}$ 向该方向迈出一小步。具体来说，它是一种迭代算法，更新公式如下

其中， $\alpha$ 是学习速率，它决定了向增加方向的步长，通常设置为足够小的数值，以保证目标函数J的增加。 $w_{p}$ 的偏导数可导出为

在使用公式(21)更新元路径的权重的每次迭代之后，我们归一化元路径权重以满足约束点。

这个学习算法总结在算法1中。总的来说，它是基于期望最大化方法的迭代算法。元路径权重 $w_{p}$ 的优化包含梯度下降算法的内部循环(第9-15行)。该学习算法通过最大化观察给定文档集合D中命名实体提及M的可能性，可以自动学习元路径的权重，而不需要任何带注释的训练数据，这使得我们的框架SHINE+无监督。

我们分析了该学习算法的时间复杂度。形式上，对于内梯度下降算法，时间复杂度为，其中 $t_{1}$ 迭代次数， $|M|$ 为M中实体提及次数， $|E_{m}|$ 为实体提及M的候选实体数， $|V_{d}|$ 为出现提及M的文档d中涉及的对象数， $|\overrightarrow{W}|$ 是元路径的数量。整个学习算法的时间复杂度为其中t是电磁算法的迭代次数。所以我们可以看到，内梯度下降算法消耗了整个学习算法的大部分运行时间。虽然我们不知道这种电磁学习算法在终止之前可能运行的迭代次数的上限，但在我们的实验中，我们观察到它收敛很快，通常只需要几次迭代。而且，作为 $|E_{m}|$ ， $|V_{d}|$ ， $|\overrightarrow{W}|$ 通常是小常数，这种权重学习算法和内部梯度下降算法的运行时间与M中实体提及的数量成线性关系，这已经被我们在5.3节中所示的实验所证实。当M中实体提及的数量巨大时，我们的权重学习算法就变得有些昂贵。当时，我们可以使用对大规模学习问题非常有效的随机梯度下降方法，该方法在每次迭代中对实体提及的子集进行采样，并且仅在这些采样的实体提及的基础上更新参数 $w_{p}$ [23]。然后，我们的权重学习算法的运行时间与样本实体提及的数量成线性关系。

4知识群体算法

在许多情况下，信息网络不能提供足够有用的实体知识来帮助实体链接模型做出正确的链接决策。丰富信息网络中的实体知识以提高实体链接性能是非常必要的。为了解决这个问题，我们提出了一种知识群体算法，在不需要任何标记数据的情况下，迭代地丰富网络实体知识。具体来说，我们首先运行实体链接模型来链接数据集中的实体提及。在链接过程之后，我们的知识群体算法将链接模型映射的每个具有高置信度的提及视为黄金映射提及。对于每一个黄金映射提及，我们的知识群体算法将从其出现文本中提取的上下文信息添加到信息网络中，以丰富相应的实体知识。在随后的迭代中，链接模型可以利用添加的实体知识来更准确地链接相同的实体提及集。然后，可以生成一组新的黄金映射提及，并且可以将新的实体知识添加到信息网络中。这个迭代过程将继续，直到没有新的实体知识被添加。可以看出，该算法联合进行实体链接和实体知识群体，使二者相互促进。在本文中，我们选择的链接模型是第3节中介绍的概率链接模型。

首先，我们为链接模型映射的每个提及定义一个置信度得分，类似于[24]中使用的技术。在我们的概率链接模型中，概率P(m,d,e).从参考特定实体e(由公式(4)计算)的文档d中检测到的实体提及m表示链接置信度。然而，以这种方式计算的概率可能非常小，不容易解释。我们考虑将这些计算出的概率转换成标准化的置信度得分。具体来说，对于每个三元组P(m,d,e)，其归一化置信度NS(m,d,e)计算如下

直观地说，如果候选实体集中某个实体的最高得分远远大于其他候选实体的得分，则一个提及m由一个具有高置信度的实体链接模型 $E_{m}$ 映射。因此，我们将文档d中每个提及m的置信度得分CS(m)定义为其候选实体集的最高得分

我们考虑置信度得分大于阈值γ∈(0,1)的提及；正如黄金地图提到的。

一旦发现了黄金映射提及，剩下的问题是如何丰富链接模型可以轻松利用的相应实体知识。一种直观的方法是使用黄金映射提及出现的文本来构建信息网络中相应实体的基于术语的表示。这种方法适用于许多实体链接系统，这些系统利用基于术语的表示来描述知识库中存在的实体。这种著名的实体链接系统包括AIDA [7]，Illinois Wikifier[11]，Kulkarni e等人[6]，和Cucerzan[5]。因此，要注意的是，本文开发的知识群体算法可以与这些实体链接系统中的任何一个一起工作，以增加实体知识并增强链接能力。

在我们的概率链接模型中，实体特定对象模型(公式(10))以对象分布的形式对信息网络中存在的实体知识进行编码，并使用元路径约束随机行走(公式(9))生成。为了使我们的链接模型容易地利用丰富的实体知识，我们向网络中添加了两种新类型的对象(即文档(Dc)和文档对象(DO))。这里，文档的对象类型意味着出现黄金映射提及的文档，文档对象的对象类型意味着构成文档的对象，因为我们假设每个文档由来自异构信息网络的各种对象组成。与黄金映射提及类型相同的对象之间存在链接，并且文档之间存在关系与否，文档和文档对象之间由包含和不包含的关系。将黄金映射提及的对象类型与这两种新的对象类型连接起来的元路径称为人口元路径。当我们将作者(或演员)的名字提到与DBLP(或IMDb)网络联系起来时，人口元路径是A-Dc-DO(或Ac-Dc-DO)。为了利用丰富的实体知识来链接提及，我们将人口元路径添加到概率链接模型所使用的元路径集合MP中。对于每个黄金映射提及，我们将该提及出现的文档及其文档对象添加到信息网络中。通过这种方式，我们将丰富的实体知识表示为使用元路径约束的随机漫步沿着种群元路径生成的对象的分布。然后，我们的链接模型可以使用权重学习算法自动生成元路径，这使得我们的模型无缝地考虑了用于实体链接的丰富的实体知识。

算法2中描述了知识群体算法。注意，在算法2的第一次迭代中，算法1在不使用丰富的实体知识的情况下学习元路径权重，因为那时没有文档或文档对象被添加到信息网络中，并且给定总体元路径的对象分布是空的。在接下来的迭代中，算法1通过利用丰富的实体知识来学习元路径权重。

我们提出的框架SHEEN+首先利用知识群体算法(算法2)来丰富实体知识，直到没有新的实体知识加入到信息网络中。然后SHINE+运行学习算法(算法1)，通过利用丰富的实体知识来学习最终的元路径权重。最后，SHINE+输出最终链接结果用户公式(2)。

5实验研究

为了评估我们的框架SHINE+的有效性和效率，我们在这一部分给出了一个彻底的实验研究。我们首先在第5.1节描述实验设置，然后在第5.2节研究SHEEN+的有效性。在第5.3节中，我们评估了SHINE+的效率和可扩展性。在第5.4节中，我们研究了参数对SHINE+性能的影响。最后，我们给出了一个知识群体算法的案例研究。所有的程序都是用JAVA实现的，所有的实验都是在一个2.67 GHz CPU，48 GB内存，64位Windows的服务器上进行的。

5.1实验设置

据我们所知，对于与HIN链接的实体任务，没有公开可用的基准数据集。在本文中，我们选择了两个真实的异构信息网络(即DBLP网络和IMDb网络)作为底层异构信息网络，并将网络文档中的作者/参与者名称与DBLP/IMDb网络中相应的作者/参与者实体进行链接。对于DBLP网络，我们创建了两个黄金标准的网络文档数据集。对于IMDb网络，我们创建了一个黄金标准的网络文档数据集。我们使这三个数据集在网上可供将来的研究使用。3实体链接的注释任务包括生成与信息网络属于同一领域的测试网络文档，检测其中提到的命名实体，并识别它们在网络中存在的相应映射实体。

我们下载了2013年3月版本的DBLP数据集，并根据图2a中的网络模式构建了DBLP网络。这个DBLP网络包含超过120万作者，210万论文和7 K个地点(会议/期刊)。论文标题中的术语由大小为667的停用词列表过滤，并由波特词干分析器进行词干分析。4我们最终获得了大约408个术语。根据我们的任务设置，网络中要链接的实体应该被消除歧义。DBLP网络有一些高度模糊的作者名字(如“Wei Wang”、“Eric Martin”等)。)已经被消除歧义(即，确定出版记录中的哪些作者姓名指的是同一作者实体)，并且这些模糊的姓名后面跟着一个空格字符和一个四位数(例如，“Wei Wang0010”和“埃Eric Martin 0001”)以唯一地表示每个不同的作者[25]。此外，我们将DBLP网络与[26]中使用的公开可用数据集的作者歧义消除结果相结合，以创建部分消除歧义的DBLP网络，该数据集包含110个作者姓名和他们的黄金标准歧义消除结果。

对于IMDb网络，我们下载了它的2015年1月版本，并根据图2b中的网络模式构建了它。这个IMDb网络包含超过260万名男女演员、330万部电影、30万名导演和350万个角色。演员传记和电影情节关键词中的术语也会被过滤掉。IMDb网络中的演员已经被消除了歧义，这些模棱两可的名字后面是一个空格字符和括号中的罗马数字(例如，, Chris Evans (V)和d Peter Alexander (XIV))，以唯一地表示每个不同的演员。

为了生成出现提及的测试网络文档，我们关注与底层信息网络(即DBLP或IMDb网络)属于同一领域的网络文档。给定任何网络文档，我们可以开发一个高度精确的分类器来预测它是否属于与DBLP或IMDb网络相同的领域。由于本文的主要重点是研究我们的实体链接框架的有效性，我们考虑开发这样的分类器作为我们任务的正交努力，并选择查询网络搜索引擎(即谷歌)为每个网络生成一个测试文档集合D。我们通过包括随机选择的模糊作者/演员姓名，以及一些领域代表性短语(如“计算机科学”、“数据库”、“演员”、“电影”等)来形成网络搜索查询。).每个返回的网络文档，连同与该文档中不明确的作者/参与者名称相关的所有候选实体，被呈现给注释者，并且包含涉及存在于DBLP/IMDb网络中的实体的不明确名称的文档被收集。这产生了DBLP网络的709个网络文档的集合，我们称之为DBLP数据集，以及IMDb网络的561个网络文档的集合，我们称之为IMDb数据集。

除了利用搜索引擎生成数据集，我们还从一些计算机科学/欧洲经委会部门、实验室和会议的网站上收集了大量特定领域的网络文档。我们过滤掉了DBLP网络中不包含不明确作者姓名的文档，因为我们可以直接输出明确作者姓名的链接结果，而无需实体链接。从剩余的网络文档中，我们手动注释了400个文档，这些文档包含不明确的作者姓名，涉及DBLP网络中存在的实体。我们称这个数据集为DBLP2数据集。上面介绍的三个数据集中的每个网络文档都有一个需要链接的作者/参与者名称。

为了生成每个作者/演员名字提及的候选实体，我们使用基于作者/演员提及的名字和网络中的作者/演员实体之间的字符串比较的方法。对于每个测试的网页文档，我们首先提取文章的完整文本，并移动作者/演员名字本身。因为我们假设每个网络文档d由来自异构信息网络的各种多类型对象v组成，所以对于DBLP的测试网络文档，我们使用基于字典的精确匹配方法在其中识别作者类型的对象和地点类型的对象，而对于IMDb的测试网络文档，我们使用相同的匹配方法在其中识别演员类型的对象、导演类型的对象、人物类型的对象和电影标题类型的对象。为简单起见，当使用上述方法识别这些对象时，我们认为所有对象名称都是明确的(即，认为相同的对象名称代表相同的对象)。对于DBLP的测试网络文档，我们使用正则表达式来识别年份类型的对象。文档中所有剩余的术语(删除所有标点符号)都由一个停止词列表过滤并进行词干分析。我们将这些词干术语视为各种术语类型的对象集。

在第5.4节中，我们在三个数据集中评估了θ从0.1变化到0.9，γ从1 - 10-1到1-10-11精度是如何变化的。在其他实验中，参数θ设为0.2，阈值γ设为1-10-9。公式(21)中的学习率决定了向递增方向的步长。当α变得太大时，梯度下降算法将无法收敛。在所有实验中，α设置为0.000003。为了评估SHINE+的性能，本文采用了评估度量精度，其计算方法是正确链接的实体提及数除以所有提及的总数。本节介绍的所有操作都被视为预处理。

5.2有效性研究

在这一部分，我们研究了我们的框架SHINE+在不同配置下的有效性，并将其与几个基线进行了比较。

5.2.1基线

由于之前没有任何工作涉及到实体与HIN链接的任务，所以我们在本文中创建了四个基线。第一种(POP)是基于实体流行度的方法。在以前的实体链接系统[7]，[8]，[11]，[27]中已经发现实体流行度的特征非常有用。在这种持久性有机污染物基线方法中，我们使用第3.1节中介绍的实体流行度模型(公式(5))来估计每个候选实体的流行度。在每个实体提及的所有候选实体中，受欢迎程度最高的实体被认为是该实体提及的映射实体。

第二条基线(VSim)是基于向量相似度的方法。在这个VSim方法中，我们为提到的每个实体构造了一个上下文向量，为每个候选实体构造了一个概要向量。具体来说，对于每个实体提及，我们使用不同类型的对象集，这些对象集组成文档，其中实体提及似乎构建了上下文向量。对于每个候选作者实体，我们从部分消除歧义的DBLP网络中获取了她的所有出版记录，并将她出版物中不同类型的对象(即她的合著者、地点、标题术语和出版年份)添加到简档向量中。对于每个候选演员实体，我们从IMDb网络获得她的所有电影记录和传记，并将不同类型的对象(即，她的传记术语、合作演员、电影标题、电影导演、角色和电影情节关键词)添加到简档向量中。然后我们为每个提及实体对测量两个向量的余弦相似性。最后，具有最高相似性的实体被认为是实体提及的映射实体。这些向量中的项目可以用TF或TF-IDF来加权，我们分别将相应的方法定义为VSimTFand和VSImidFree。

第三条基线(Tradi)利用了实体流行度和上下文相似性的特征，类似于大多数传统实体链接系统的主要思想[28]。具体来说，它将流行度乘以来自上述两个基线的向量相似度，作为最终的score foreachtiate-实体对。得分最高的实体作为实体提及的映射实体输出。由于基线VSim的两种不同的术语加权策略，基线Tradi也有两个版本(即TradiTFand和TradiIDF)。

第四条基线是我们在以前的论文[20]中提出的框架。与本文提出的SHINE+框架相比，SHINE框架没有利用知识群体算法来丰富网络实体知识，而是利用概率链接模型(第3节)进行实体链接。

5 . 2 . 2 SHINE+框架

用于实体与DBLP网络链接的元路径包括:A-P-A、A-P-V、A-P-T、A-P-Y、A-P-A-P-A、A-PV-P-A、A-P-A-P-V、A-P-T-P-V、A-P-A-P-T、A-P-V-P-T，其中有4条长度为2的元路径和6条长度为4的元路径。为了分析不同元路径集的有效性，我们参考了我们的SHINE+框架，该框架仅利用四个长度为2的元路径作为SHINE+部分，并且参考了我们的SHINE+框架，该框架利用所有十个元路径作为SHINE+全部。用于与IMDb网络链接的元路径包括:Ac-B、Ac-Mv-Ac、Ac-MvMT、Ac-Mv-Di、Ac-Mv-C和Ac-Mv-K。其中，有一个长度为1的元路径和五个长度为2的元路径。我们还将仅利用长度为1的元路径的SHINE+称为SHINE+部分，将利用所有六个元路径的SHINE+称为SHINE+全部。对于基线SHINE，我们称之为以同样的方式利用不同的元路径集。

表2显示了在DBLP1、DBLP2和IMDb数据集上所有方法的实验结果。除了准确性，我们还显示了所有方法的正确链接实体提及的数量。从结果中，我们可以看到我们提出的框架SHINE+all在三个数据集上显著优于所有基线方法(配对t检验，p < 0:05)，这表明了我们框架的有效性。我们还可以看到SHINEall和SHINE+part分别显著优于SHINEall和SHINE part方法(p < 0:05)，这意味着SHINE+框架中的知识填充算法有效地丰富了网络实体知识，大大提高了实体链接的准确性。此外，从表2中还可以看出，利用所有元路径的SHINE+all和SHINEallthat方法在三个数据集上分别显著优于SHINE+part和SHINEallthat)。越有用的元路径，实体链接的准确性越好，这与我们的直觉是一致的，因为我们的链接模型可以通过利用更多有用的元路径从信息网络中获得关于候选实体的更多相关知识。

5.3效率和可伸缩性研究

在本节中，我们使用DBLP1、DBLP2和IMDb数据集上实体提及集的不同子集来研究SHINE+的可伸缩性。图4绘制了权重学习算法(算法1)中的EM算法的一次迭代和内部梯度下降算法的一次迭代的平均运行时间，在三个数据集上实体提及集的大小不同。从结果中我们可以看出，EM算法和内部梯度下降算法的一次迭代的平均运行时间与数据集中实体提及的数量大约成线性关系，这与第3.3节中描述的算法1的时间复杂度分析一致。该评估展示了SHEEN+的可扩展性。

图5描绘了在三个数据集上实体提及集的大小不同的情况下SHINE+的准确性性能。我们可以看到，我们提出的框架SHEEN+all可以在不同大小的数据集上实现相对稳定和高精度，这证明了我们框架的鲁棒性。SHEEN+可以通过最大化观察给定文档集合中命名实体提及的可能性来自动学习元路径权重。在各种实体提及集上，虽然学习的元路径权重不同，但我们框架的最终实体链接精度是稳定和高的，这意味着SHEEN+可以根据不同的实体链接任务选择最合适的元路径。

5.4敏感度分析

为了更好地理解我们提出的框架的性能特征，我们进行了敏感度分析，以了解参数θ和γ对SHINE +性能的影响。公式(7)中的θ平衡了两个部分(即实体特定的对象模型和域的通用对象模型)。图6显示了SHINE+all在三个数据集上的性能，参数u从0.1变化到0.9。从图6中绘制的趋势可以看出，当θ∈[0.1,0.5]时，在DBLP1、DBLP2和IMDb数据集上，SHINE+Alli获得的精度分别大于0.965、0.955和0.975。因此，我们可以说，当u在0.1到0.5之间变化时，SHINE+的性能对参数θ不是很敏感。

算法2中阈值γ∈(0,1),控制金色贴图提及的质量。阈值越接近1.0，黄金映射提及被正确映射的可能性越大。图7显示了阈值γ从1- $10^{-1}$ 变化到1- $10^{-11}$ 的SHINE+all的性能。查看三个数据集。如图7所示，当γ值较大时，我们获得了更好的性能。当γ≥1- $10^{-5}$ 、SHINE+在三个数据集上获得的精度相当稳定和高，并且对参数γ不敏感。

5.5知识群体算法的案例研究

为了说明知识群体算法(算法2)的有效性，我们展示了在图8中的三个数据集上，我们的SHEEN+all方法的性能如何随着算法2的迭代次数而变化。从这个图中，我们可以看到算法2在对DBLP1数据集进行五次迭代以及对DBLP2和IMDb数据集进行四次迭代后终止。它表明，实体链接的准确性随着迭代次数的增加而增加，因为更多的迭代将更多有用的实体知识带入信息网络。此外，随着迭代次数的增加，链接精度的增加速度会减慢。

表3显示了几个实体的丰富的实体知识的一部分，其被表示为在使用沿着群体元路径的元路径约束随机行走生成的对象上的分布。每个对象(词干对象)后括号内的数字代表其概率。我们可以看到，我们的知识种群算法可以为实体链接提供补充知识，尤其是对于网络中不是很有名、信息不充分的实体。例如，关于DBLP的“陈科0002”实体，“imag，model，mathemat，comput，applic”表示他的研究兴趣，而“利物浦，cmit，prof”对应于他的附属机构和他的职称。对于IMDb的实体“彼得·亚历山大(14)”来说，“nbc，todai，comment，report”表明他是NBC的记者，以每日直播《今日》而闻名，“starl，alison，abc7”描述了他配偶的信息。所有这些实体知识都不包含在DBLP或IMDb网络中，而是在相应提及的网络文档中提供。我们提出的知识群体算法可以发现它，并将其丰富到网络中，从而帮助实体链接。

6相关工作和讨论

近年来，维基百科等知识共享社区的出现和信息提取技术的发展促进了大规模机器理解知识库的自动构建。知识库包含关于世界实体、它们的语义类以及它们的相互关系的丰富信息。这类值得注意的努力包括DBpedia [29]，YAGO [3]，Freebase [30]，ReadWebb[31]和Probase [32]。

大多数传统的实体链接方法侧重于将实体与维基百科或维基百科衍生的知识库(例如，YAGO) [4]，[5]，[6]，[7]，[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16])进行链接，并且在很大程度上依赖于与维基百科相关联的特殊功能(例如，维基百科文章或基于维基百科的相关性度量)，这些功能已在第1节中介绍过。其中一些系统利用概率方法。具体来说，Kulkarni等人[6]从基于SVM的局部上下文相似性监督学习器开始，并使用概率图形模型结合候选实体的成对文档级主题一致性对其进行建模。韩和孙[9]提出了一个生成概率实体提及模型，它综合了三种类型的知识(即流行知识、名称知识和上下文知识)。在我们的SHINE+中，我们提出了一个概率链接模型，它将实体流行度模型和实体对象模型统一起来。有关实体链接技术的更多信息，您可以参考我们的调查论文[28]。

最近，已经提出了一些工作来处理特定领域实体链接问题。潘特尔和富克斯曼[33]将搜索引擎查询与大型产品目录中的实体相关联，达尔维等人[34]利用推文的地理方面从列表中推断推文和餐馆之间的匹配。D'souza和Ng [35]在生物医学文本(如临床报告)中将疾病提及与生物医学本体论中的相应概念相关联。我们的任务不同于这些现有的实体链接问题，并且没有以前的方法可以用来解决它。

由于信息网络(如书目网络)中的对象(或实体)名称本质上是模糊的，因此在这些网络的名称歧义消除任务中已经取得了相当大的进展[26]、[36]、[37]、[38]、[39]。给定网络中出现的一组实体名称，任务是确定哪些实体名称引用相同的底层实体。本质上，这个任务是将网络中引用相同实体的实体名称聚集到一个簇中，这不同于本文所述的实体链接任务。关于作者姓名消歧方法的综合调查，你可以参考调查论文[40]。

7结论

在本文中，我们研究了实体与异构信息网络的链接问题，并提出了一个通用的无监督框架SHINE+来解决这个问题。我们提出了一个概率链接模型，它将实体流行度模型和实体对象模型结合起来，将文本中的实体与网络链接起来。为了进一步提高实体链接性能，我们提出了一种知识群体算法，该算法利用链接模型的结果迭代地丰富网络实体知识。在两个真实的异构信息网络(即DBLP和IMDb)和三个人工标注的网络文档集合上的实验结果表明，与基线相比，SHINE+能够输出更准确的链接结果，并且是高效和可扩展的。我们未来的工作将考虑其他领域的实体链接，如生物医学领域和音乐领域。此外，开发更有效的实体链接技术也是未来研究的一个有前途的方向。

【论文翻译】SHINE 一个用于特定领域实体与异构信息网络链接的通用框架相关推荐

吴恩达亲述：如何高效阅读论文，开启一个新的领域！
AI 圈的朋友应该都知道吴恩达的大名,为了防止一些萌新还不知道,本菌这里先做一个简要的介绍. 吴恩达(英文名:Andrew Ng),是斯坦福大学计算机科学系和电子工程系教授,人工智能实验室主任,人 ...
Maplab：一个用于视觉惯性建图和定位研究的开源框架
摘要鲁棒且精确的视觉惯性估计是当今机器人领域的重要挑战.能够用先验地图(prior map)进行定位(localize)并获得准确且无漂移的姿态估计,可以推动该系统的适应性.然而,目前大多数可用的解 ...
【论文分享】通过图神经网络明确捕捉实体提及的关系，用于特定领域的命名实体识别
[ACL 2021] Explicitly Capturing Relations between Entity Mentions via Graph Neural Networks for Doma ...
论文翻译——一种用于产品生命周期管理的产品信息建模框架
A product information modeling framework for product lifecycle management Article in Computer Aided ...
【论文分享】一个用于现代cpu的多正则表达式匹配器：Hyperscan: A Fast Multi-pattern Regex Matcher for Modern CPUs
题目:Hyperscan: A Fast Multi-pattern Regex Matcher for Modern CPUs 链接:https://arxiv.org/abs/2102.11165 ...
【论文翻译】HCGN：面向集体分类的异构图卷积网络深度学习模型
HCGN:面向集体分类的异构图卷积网络深度学习模型摘要集合分类是研究网络数据的一项重要技术,旨在利用一组具有复杂依赖关系的互联实体的标签自相关性.随着各种异构信息网络的出现,集合分类目前正面临着来 ...
论文翻译：A Comprehensive Survey on Graph Neural Networks
论文翻译:图神经网络综合研究 arXiv:1901.00596v1 文章目录论文翻译:图神经网络综合研究 1 引言 2 定义 3 分类和框架 3.1 GNN的分类 3.2 框架 4 图卷积网络 4. ...
计算机领域相关属术语,基于语义规则和关联规则的特定领域中文术语字典的构造...
杜翠凤陈雍君沈文明李建中 [摘要]针对当前特定领域中文术语字典构建工程量巨大.自动化程度低的问题,提出一种基于语义规则和关联规则的特定领域的中文术语字典构造方法,以提高构造中文术语字典的智能 ...
毕业论文翻译，将论文翻译成英文需要多久?
近期,英文论文翻译的需求很大,涉及毕业论文翻译.科技论文翻译.医学论文翻译等.那么,针对不同的论文翻译,翻译公司一般需要多久? 业内人士指出,将论文翻译成英文需要多久? 一般由多种因素决定的.比如论文 ...

【论文翻译】SHINE 一个用于特定领域实体与异构信息网络链接的通用框架