一、实体链接的定义、意义和基本任务

在命名实体识别(Named Entity Recognition)任务中,我们通常把一段token序列认定为一个实体,但严格来说这并不准确,这应该被称为一个提及(Mention),意思是这一段序列提及了某一个实体。所谓的**实体连接(Entity Linking)**就是在给定文本和其中提及了实体的序列后,明确这些序列提及的是图谱/知识库中的哪一个实体(或不存在这样的实体)。

实体链接是一个典型的上游任务,在很多任务中都非常重要:信息抽取、信息检索、内容分析、QA、知识库扩充等。这些任务都需要以文本中的Mention的确切的、唯一的语义为前置条件,而这就是实体链接的核心意义。

用形式化的语言对实体链接进行表述:对于一个上下文文段C={t1,t2,...,tn}C=\{t_1,t_2,...,t_n\}C={t1,t2,...,tn},已知其中包含有可能指向某些实体的提及M={m1,m2,...,mk}M=\{m_1,m_2,...,m_k\}M={m1,m2,...,mk},在给定一个图谱或知识库G=(V,E)G=(V,E)G=(V,E)的情况下,求得每个提及在图谱或知识库中对应的实体,即得到(m1,e1),...,(mk,ek)(m_1,e_1),...,(m_k,e_k)(m1,e1),...,(mk,ek)结果,其中ei∈(V⋃{NIL})e_i∈(V\bigcup \{NIL\})ei(V{NIL})VVV表示图谱或知识库中的已有实体,NILNILNIL表示没有对应的实体。

实体链接的本质可以理解为Mention与已有实体之间的相似度判断问题,但是由于一般情况下已有实体的数量非常大,一个个去比较计算的效率非常低,因此实体链接划分成两阶段:

  1. 第一阶段是候选实体生成(Candidate Entities Generation),从海量的实体中得到潜在实体的子集,以降低第二阶段的计算量;
  2. 第二阶段是对候选实体进行相似性排序(Candidate Entities Ranking),由于某些Mention可能并没有相对应地实体,所以这个阶段也存在**不可链接提及预测(Unlinkable Mention Prediction,候选实体中没有与mention相似的实体)**的问题。

二、候选实体生成CEG

候选实体生成的任务是在给定上下文文段C={t1,t2,...,tn}C=\{t_1,t_2,...,t_n\}C={t1,t2,...,tn},,已知其中包含有可能指向某些实体的提及M={m1,m2,...,mk}M=\{m_1,m_2,...,m_k\}M={m1,m2,...,mk},以及一个图谱或知识库G=(V,E)G=(V,E)G=(V,E)的情况下,求得每个提及在图谱或知识库中对应的实体列表Em={e1m,e2m,...ekm}E^m=\{e_1^m,e_2^m,...e_k^m\}Em={e1m,e2m,...ekm}

这部分与推荐系统的召回部分类似,追求尽量高的召回率并减小候选对象的数量级。一般而言候选实体生成有三类方法:

1. 基于词典的方法(Name Dictionary based methods)

大量实体链接任务使用wiki类的知识库,其天然拥有许多高质量的相关特征,如实体页面、wiki的重定向页面(表征了一个实体的不同别名)、消歧页面(一个名称指向不同实体)、实体描述中的加粗文字(可能是实体的一个别名)等,通过对海量wiki页面的处理,可以构造一个巨大的词典,词典<k, v>中的k表示一个名称,v表示名称可能指向的实体

在已有一个词典映射的情况下,对每一个mention进行查表时有两种匹配模式:

  • 精确匹配:即名称与mention完整匹配才生效,
  • 部分匹配:有多种定义方法,如词典名称是mention的子集、名称与mention的首字母全部相同、或基于词典名称和mention的相似度进行阈值过滤。

2. 基于先验概率的方法(Prior Probabilities based methods)

除了显式地以词典方式映射之外,也可以基于wiki的高质量特征计算得到实体与mention之间的先验概率p(e∣m)p(e|m)p(em),该方法本质上也可以看做是基于词典方法的拓展。

3. 基于局部文档表层形式膨胀的方法(Surface Form Expansion from the local document)

这个方法专用于首字母缩略词的处理上,具有两个阶段:

  • 第一阶段是启发式方法:特定模板的匹配(如部分文章的缩略词会以括号的形式将其全称附加在后面),全文NGram匹配(去除停用词后对全文的NGram序列进行首字母匹配),全文中此mention是其他mention的substring时认为存在缩略关系,基于搜索引擎返回的web data;
  • 第二阶段是有监督学习方法,在启发式方法得到的候选词中判断其confidence score进行过滤。

4. 基于搜索引擎的方法

使用Google API或wikipedia search API对wikipedia站内的相关词进行检索,再对得到的结果进行一定程度的过滤。

三、候选实体排序CER

候选实体生成的任务是在给定上下文文段C={t1,t2,...,tn}C=\{t_1,t_2,...,t_n\}C={t1,t2,...,tn},,已知其中包含有可能指向某些实体的提及M={m1,m2,...,mk}M=\{m_1,m_2,...,m_k\}M={m1,m2,...,mk},一个图谱或知识库G=(V,E)G=(V,E)G=(V,E),以及每个提及可能对应的实体列表Em={e1m,e2m,...ekm}E^m=\{e_1^m,e_2^m,...e_k^m\}Em={e1m,e2m,...ekm}的情况下,求得每个提及可能对应的实体{e^1,e^2,...,e^k}\{\hat e_1,\hat e_2,...,\hat e_k\}{e^1,e^2,...,e^k},其中e^i∈Ei⋃{NIL}\hat e_i∈E_i \bigcup \{NIL\}e^iEi{NIL}

候选实体排序任务本质上就是对mention和候选实体进行相似度判定,这个任务可以拆分成三个部分:一是如何表征mention;二是如何表征实体;三是如何判定相似度并作出选择。

1. 如何表征mention

Mention的表征通常与上下文Context一同出现,例如“苹果”这一Mention单独出现时我们很难判定是表示食物还是科技公司,但如果以“他吃了一个苹果”作为补充信息,则可以比较容易判断这是一个食物。

对于Mention和Context的表征,早期采用一些简单的语言模型如词袋(Bag of Word, BoW)模型,例如使用上下文文档内高TF-IDF值的词作为Mention的补充语义等,通常使用one hot vector作为编码,其过于稀疏,且不具备直接语义计算的能力。

在Word2Vec时代,开始使用Bi-LSTM对Mention和Context的原始word embedding序列进行语义编码,同时使用mention内的semantic word embeddings求平均或attention加权求和的方式得到mention embedding。

当前处于后BERT时代,各种基于预训练语言模型的方法成为主流。各种得到Mention Embedding的方法区别主要在于使用哪些向量、使用什么加权方法,如使用special token embedding(在mention前后加上特殊标记,使用这两个位置的embedding加权平均)、mention token sequence pooling(直接使用mention内部各个token的embedding,采用max pooling或mean pooling)、使用attention对mention token sequence进行加权求和等。

2. 如何表征实体

对于实体的表征,我们首先需要考虑有哪些可以使用的信息源(特征),由于大部分任务都是在针对wiki类的知识库,可以大概将可用特征分为:实体-实体链接(即实体间关系,Ontological Relations),实体-Mention链接(wiki页面中常见的“别名”等实体与mention相对应的先验关系),实体描述、实体页面标题、实体类型等。

早期的实体表征主要使用实体描述、实体页面标题、类型等文本类数据,使用与mention表征相似的方法对实体进行表征。但这样的方法没有充分利用实体之间的关系,因此基于图的方法开始引入。基于图的方法利用实体-实体链接和实体-mention链接构造成图,使用word2vec/预训练语言模型将实体描述等文本信息处理成实体原始向量,使用DeepWalk或其他Graph Embedding的方法处理得到包含全局结构信息的实体表征。

3. 如何判定相似度并作出选择

如果我们认定mention和实体的表征都是有效的低维稠密表征向量,则我们可以简单地使用向量内积或cosine距离来作为相似度度量,即

s(m,ei)=ym→⋅yei→orcos(ym→⋅yei→)=ym→⋅yei→∣∣ym→∣∣⋅∣∣yei→∣∣s(m,e_i)=\overrightarrow{y_m}·\overrightarrow{y_{e_i}} \;\; or\; \; cos(\overrightarrow{y_m}·\overrightarrow{y_{e_i}})=\frac{\overrightarrow{y_m}·\overrightarrow{y_{e_i}}}{||\overrightarrow{y_m}||·||\overrightarrow{y_{e_i}}||}s(m,ei)=ym

yei

orcos(ym

yei

)=ym

yei

ym

yei

在计算得到相似度后,可以简单地使用softmax函数得到条件概率分布

P(ei∣m)=exp⁡(s(m,ei))∑j=1kexp⁡(s(m,ej))P(e_i|m)=\frac{\exp(s(m,e_i))}{\sum_{j=1}^k\exp(s(m,e_j))}P(eim)=j=1kexp(s(m,ej))exp(s(m,ei))

而如果我们已知通过实体-mention或者主题一致性得到的先验概率f(ei,m)f(e_i,m)f(ei,m),则最终输出可以表示为
Ψ(ei,m)=ϕ(P(ei∣m),f(ei,m))\Psi(e_i,m)=\phi(P(e_i|m),f(e_i,m))Ψ(ei,m)=ϕ(P(eim),f(ei,m))
其中的概率融合函数可以使用简单的FFN,也可以使用attention加权的方式。

四、不可链接提及预测

一些提到的参考实体可能在KG中没有,例如,维基百科上没有关于斯科特·杨作为斯坦豪斯缪尔板球俱乐部的板球运动员的条目。因此,如果提到出现在特定的环境中,EL系统应该能够预测参考文献的缺失,这被称为NIL预测任务。主要有四类处理方法:

  1. 直接忽略。早期的偷懒做法。

  2. 启发式方法。也就是模板匹配式的方法。

  3. 阈值法。即设定一个分类置信度阈值,如果最有可能的实体置信度低于阈值,则将其置为NIL。

  4. NIL标签法。在CER阶段,添加一个NIL的实体,参与到实体排序的过程。

  5. 监督学习法。即单独设置一个二分类模型,用于判定是否不可链接。

五、存在的挑战

大部分任务存在的共性挑战是标注数据不足的问题。实体链接任务只在很有限的几个领域内有相对高质量的标注数据,因此如何能够做到充分利用标注数据甚至于不需要标注数据完成实体链接是当前存在的一个重要挑战。目前有两方面的解决方案:Distant Learning和Zero-shot Learning。Distant Learning与关系抽取任务中的distant superviced思想相似,使用一些surface matching的启发式规则生成部分带噪声的远程监督数据集,并在此基础上进行弱监督学习。另一方面Zero-shot learning的核心思想是在标注数据充足的领域(Domain)训练得到具有普适性的特征,并使用尽量少的新领域信息完成领域迁移。

另一个存在的挑战是跨语言的实体链接问题。由于部分语言的相关语料库数据非常少,实体-mention之间的先验信息也很少,所以从候选实体生成到实体排序阶段都非常有挑战。跨语言的实体链接方法试图充分利用不同语言的相同实体之间的wiki链接信息来实现尽量准确的跨语言链接。当前的跨语言实体链接方法大多严重依赖于预训练的跨语言语言模型,试图将不同语言的表征约束同一个向量空间中,再使用同样的方法进行实体排序。

图充分利用不同语言的相同实体之间的wiki链接信息来实现尽量准确的跨语言链接。当前的跨语言实体链接方法大多严重依赖于预训练的跨语言语言模型,试图将不同语言的表征约束同一个向量空间中,再使用同样的方法进行实体排序。

参考Yuhwa Choong

Neural Entity Linking 方法与进展相关推荐

  1. 医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

    一.动机 论文:https://arxiv.org/abs/2012.08844 代码:https://github.com/tigerchen52/Biomedical-Entity-Linking ...

  2. 论文笔记 Medical Entity Linking using Triplet Network

    一.动机 实体链接(Entity Linking)或者标准化(Normalization)的目标是将文本中发现的mention链接到知识库中的标准实体.在医疗领域,疾病词的实体链接难度在于缩写.同义词 ...

  3. 时态知识图谱补全的方法及其进展

    点击上方蓝字关注我们 时态知识图谱补全的方法及其进展 申宇铭, 杜剑峰 广东外语外贸大学信息科学与技术学院,广东 广州 510420 摘要:时态知识图谱是将时间信息添加到传统的知识图谱而得到的.近年来 ...

  4. Combining Word and Entity Embeddings for Entity Linking

    Combining Word and Entity Embeddings for Entity Linking 论文地址:https://perso.limsi.fr/bg/fichiers/2017 ...

  5. Improving Entity Linking by Modeling Latent Relations between Mentions

    Improving Entity Linking by Modeling Latent Relations between Mentions 论文地址:https://aclanthology.org ...

  6. 基于机器视觉的表面缺陷检测方法研究进展(2022最新)

    参考文献:基于机器视觉的表面缺陷检测方法研究进展-赵朗月 声明 此文章仅为作者阅读学习记录,如有错误欢迎指正交流,如果对你有帮助还望点赞支持,谢谢! 文章目录 声明 摘要 1.传统图像处理方式 2.基 ...

  7. Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记

    Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记 阅读文献笔记 1 引言 1.1 动机 1. 网络数据的 ...

  8. 机器推理系列文章概览:七大NLP任务最新方法与进展

    作者 |  段楠,唐都钰,周明 来源 | 微软研究院AI头条(ID: MSRAsia) 导读:自然语言处理的发展进化带来了新的热潮与研究问题,研究者们在许多不同的任务中推动机器推理(Machine R ...

  9. 图像语义分割方法研究进展

    全监督学习的图像语义分割方法研究进展 简介 1 全监督学习的图像语义分割方法 1.1 基于全卷积的图像语义分割方法 1.2 基于编码器解码器结构的图像语义分割方法 1.3 基于注意力机制的图像语义分割 ...

最新文章

  1. 使用PlanAhead查看Virtex-7系列FPGA的底层架构
  2. python 代码-代码的重试机制(python简单实现)
  3. python004 二 Python开发入门、数据类型概述、判断吧语句、while循环
  4. AI数学基础之:概率和上帝视角
  5. 支付宝 android 2.3,app被拒记录-2.3-包含支付宝
  6. php ioc容器,PHP 在Swoole中使用双IoC容器实现无污染的依赖注入
  7. Win7系统电脑怎么设置桌面壁纸全屏显示
  8. godot常用的一些概念、组件(整理于官方教程)
  9. 磁盘分区助手一键迁移操作系统——易我分区大师
  10. Android 真实简历
  11. 1-十八烷基-3-三乙氧基丙基硅烷咪唑溴盐离子液体([ODTIm]Br)修饰Fe3O4磁性纳米颗粒
  12. 直播软件系统搭建技术分享
  13. 反垃圾邮件系统|基于Springboot+vue 实现反垃圾邮件系统
  14. 从《欲望都市》到《绝望主妇》 美剧的疯狂
  15. win10强效杀毒去捆绑
  16. Linux - UAC USB声卡
  17. 企业人事管理系统V0.2.0
  18. IntelliJ IDEA官网打不开的问题
  19. AP热点设置与STA连接路由器设置
  20. 文字游戏之恶搞拆字造句

热门文章

  1. 大数据数据名词:PV、IPV、UV等
  2. Coursera TensorFlow 基础课程-week3
  3. linux使用FIO测试磁盘的iops
  4. AbstractUser
  5. 匕首线切割图纸下载_匕首击剑简介
  6. 阿里云学生服务器官网入口
  7. android dlna uri,DLNA 在自己的APP 中添加投屏功能
  8. google编程规范
  9. gRPC python实现文件上传,以及使用流式通信上传超大文件
  10. 开着音箱骑车上下班有感