一篇关于实体链接的小综述

每天给你送来NLP技术干货！

来自：AI自然语言处理与知识图谱

作者：大林

一、任务定义

首先，我们要明确实体链接(Entity Linking, EL)是什么，它的目标是什么，这将有助于建立我们以目标为导向的混乱思维模式，所谓以终为始，来自《高效能人士的七个习惯》，推荐阅读，非广告。实体链接是将文本中的一个片段序列经过各种规则/模型等方法链接到知识图谱中的实体(Entity)，这个片段序列用术语称之为 Mention。看了一些文章，EL 在这部分有一个混淆的点，EL 其实包含实体识别(Entity Recognition, ER)和实体消歧(Entity Disambiguation, ED)两部分，但是现在的很多研究都淡化了实体识别这一部分，而是默认在给定实体识别结果(即 Mention)的基础之上将其链接到知识图谱或者知识库中，但是严格来讲，EL 是包含了实体识别和实体消歧两阶段的，如下图参考。

二、通用方法论

自从2015年以来，基于神经网络的实体链接方法已经开始跃跃欲试，至今已经层出不穷。最开始很简单的方法会将实体链接视为一个多分类任务，但是面对上亿级别实体的知识图谱，无论是性能还是效果上面都不尽如研究者们的心声，后来慢慢的演变采用候选排序的方法将其简化，并慢慢的成为了一套通用的实体链接方法，后面很多的研究都是在其中的某个环节进行改善与提升，下图展示了 EL 的一个通用的体系架构。

通用的体系架构分为两个基本的步骤，实体识别 + 实体消歧。

1、实体识别模型：实体识别模型识别出给定文本中的Mention，如上图所示的 Scott Young。

2、实体消歧模型：链接到知识图谱中的一个实体，这部分又进一步的拆分为了候选实体生成(Candidate Generation)和实体排序模型(Entity Ranking)。候选实体生成是生成 Mention 可能链接的 Top 实体；实体排序模型是根据文本信息、上下文信息、Mention信息计算 Mention 与Top个实体的得分并排序。了解推荐的同学会对这部分十分熟悉，类似推荐系统中的召回、粗排、精排阶段。

划重点： 看到这里，有的大佬会提出一个问题？？？文本变幻莫测、博大精深，mention 一定会在知识图谱中找到一个合适的实体链接吗？？？是的啊，特别是一些垂直领域图谱，或者刚刚处于初步阶段的知识图谱是不能够完全覆盖领域的所有实体的，再或者说，即使是上亿级别实体的知识图谱，也会存在那么万分之一无法链接的可能性吧，是的吧，要不然需要知识图谱补全这个任务干什么，有道理！！！这也就是实体链接中的一个问题点，Unlinkable Mention Prediction，我们先留个问号，继续往下。

我们接下来简单了解一下：

Candidate Generation:

EL 类似于 WSD 任务，因为它解决了词汇歧义。然而在 WSD 中，单词的每个意义都可以在 WordNet 中明确定义，而在 EL 中，图谱中没有提供 mention 和实体之间如此精确的映射，mention 会链接到图谱中的任一个Entity，从而效率、性能、效果上面都不好把控。因此，候选实体的产生在 EL 中有相当重要的作用，实际上是对图谱中上亿 Entity 的初步过滤，类似推荐系统中的第一步：召回。

候选的产生主要有三类方法：（1）单词表面的匹配(硬匹配) （2）配词典(别名) (3) 先验概率计算。

1、单词的匹配是采用类似编辑距离、BM25、n-gram、normalization等，能够解决一些，但是能够明显的想到会有很多的case、比如一些缩写 BAT、TMD、Big Blue(ps: 蓝色巨人、指的是IBM)。

2、词典(Name Dictionary)的方法是最常用的：构建{mention：entity}的词典。使用图谱中的数据构建一个别名的字典，可以采用维基百科消歧/重定向页面，可以采用人工配别名、也可以采用同义词等方法。这方法，只要功夫下的够，召回指定足够强，哈哈。ps: 不要以为这都是人工的工作，也有很多技术的，针对不同的 EL 场景，要用什么构建方法也是不一样的，具体事情具体分析。

3、采用先验概率计算的方式：预先计算 mention 和实体之间的先验概率p(e|m)。许多研究利用维基百科实体的超链接计算mention 和 entity 的先验概率。另一个被广泛使用的选项是 CrossWikis，可以利用网页抓取数据中 mention 实体链接的频率，应用很广。

Entity Ranking：

候选实体产生之后就要考虑实体排序的问题了，看哪个实体是最适合mention的。

实体排序会考虑一些特征，比如mention的信息表达、entity 的信息表达，获取两者信息的方法大同小异，但是又并不相同。

(a) mention表示： mention 是在文本中获取到的，可以获取到mention的上下文信息，这绝对是可以加以利用的，而且上下文信息能够给予实体消歧更多信息，利好实体消歧。这里面主要的一些方法像lstm、自注意力、transformers、bert等都是有在用的。

(b) 实体表示： 1、使用非结构化文本学习算法，如基于共现统计和词嵌入word2vec。2、利用图谱中实体之间的关系，采用图嵌入方法获取实体和关系表示，比如随机游走的DeepWalk和基于翻译的TransE系列。3、BERT及其变种等一系列深度编码

实体排序：计算mention表示和实体表示之间的相似度、点积、余弦。结合其他特征做最终的决策，比如图特征 (entity embedding、relation)、mention上下文信息、距离信息（Point-wise、Pair-wise、List-wise）、LinkCount信息。

无法链接问题：Unlinkable Mention Prediction

上文已经提到会存在mention是无法链接到图谱实体的情况，针对这种情况，主要有几种方法。

1、阈值：可以人为设置一个阈值，低于这个阈值就被人为是不可链接的，则将其置为NIL。

2、引入NIL实体：在排序阶段，加入额外的 NIL实体，参与到实体排序打分的过程，不可链接的mention将这个作为最佳匹配。

3、分类判别：单独训练一个mention和 entity 的二分类器，在实体排序之后采用分类模型于判定是否为不可链接实体。

三、方法论进阶

上面是介绍了实体链接通用处理问题的框架，但是单一的框架无法处理多元复杂的业务场景，会存在诸多的问题，也就会衍生出各种各样的魔改框架，就像BERT之后的各种魔改，何时才是尽头？？？

主要有几类改进的方法，这里简单阐述。

1、联合学习模型

上文的实体链接的通用框架将实体识别和实体消歧两个任务采用pipline的方式，大多数人会想到，pipline方式的有一定的缺陷，任务之间属于依赖关系，pipline的方式有可能错误传播，且两者之间的信息交互很难，所以将两个任务联合建模、共同学习是一个思路，这里面有采用堆栈的LSTM方式、有的采用端到端的建模、还有采用生成式建模的方式。参考[2,3,4]。

2、利用全局 Context 信息

实体链接通用框架中会利用到 mention 的上下文 context 信息，这里面的context信息严格来讲又可以细分: 局部 or 全局。利用局部信息是采用每个 mention 的周围上下文进行实体消歧，而全局方法考虑了上下文中出现的多个实体之间的语义一致性，在这种情况下，一个实体的消歧决策受到上下文中为其他实体所做的决策的影响，实体之间的消歧是相互依赖、相互影响的。

3、领域特性

这个问题，老生常谈了，不同的领域所拥有的资源是不一样的，在一些资源匮乏的领域，当我们需要大量的标注数据训练神经网络模型，就显得很难受，需要大量的人力物力标注数据。当然这个问题可以通过一些基于无监督和半监督的模型来解决，最近出现了一些新的研究方法，比如基于远程学习和基于 zero-shot 方法的解决方案，特别是 zero-shot 技术在 EL 新领域的适应性上别有风趣，后面有时间专门看下这部分，感兴趣的可以去看看[5,6]

4、跨语言特性

在很多任务中，英语的可用标记数据与其他语言可用的数据量有明显的对比，在实体链接任务中也是如此，采用跨语言的方式解决低资源语言资源欠缺的问题是一种常见的手段。跨语言的实体链接方法通过利用来自高资源语言领域的监督数据来克服对一些低资源语言缺少标注数据的问题。并且有很多采用 zero-shot技术来做跨语言实体链接预测，并有很大的效果。参考[7,8]。

四、有哪些应用方法与前景

实体链接主要有几类应用，简单看下~

1、知识图谱 (Knowledge graph population)

实体链接对于知识图谱的补全与完善具有重要的作用，文本与知识图谱中的实体是否能够链接，还是会新增一个实体对于知识图谱的壮大有着至关重要的作用。

2、数据挖掘 (Text Mining)

实体链接能够将挖掘出来的模糊性 mention 链接到专业术语上面，特别是在医学领域，由于医学术语的可变性、医学本体的复杂性以及医学领域标注资源的稀缺，模糊性问题对医学文本处理尤为重要，目前已经有很多 EL 的工具用在医学领域。另外，实体链接已经广泛应用在社交网络和热点媒体新闻的挖掘。

3、信息检索 (Information retrieval)

实体链接在信息检索领域也被广泛应用，EL 能够利用文本额外的语义信息来补充检索结果，以解决查询的模糊性，增加准确性。

4、问答 (Question Answering)

实体链接在问答系统中可以说是刚需了，用户问题描述链接到实体后，通过查询知识库中对应的答案，将问题与知识库进行匹配，会找到满足最符合问题所对应的答案返回。

5、表示学习

这是一个方向，将实体链接与迁移学习结合，训练新的预训练语言模型，可以利用知识库中的实体以及其他信息，从而提升预训练模型的效果，比如ERNIE[9]。

五、总结

本文梳理了实体链接任务的一个脉络，包括实体链接任务的定义，包含实体识别和实体消歧两大部分，也介绍了实体链接通用的解决框架，包括其中的问题，特别是NIL问题，除通用的框架外，还有很多魔改的框架，包括联合学习、全局信息、zero-shot、跨语言学习等，最终介绍了实体链接在知识图谱、文本挖掘、信息检索、知识问答以及预训练语言模型中的应用。

参考资料

Neural Entity Linking: A Survey of Models Based on Deep Learning
Joint learning of named entity recognition and entity linking
Investigating entity knowledge in BERT with simple neural end-to-end entity linking.
Autoregressive Entity Retrieval
Zero- shot entity linking by reading entity descriptions.
Scalable zero-shot entity linking with dense entity retrieval
Overview of TAC-KBP2015 tri-lingual entity discovery and linking
Neural cross-lingual entity linking
ERNIE: Enhanced Representation through Knowledge Integration

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！