每天给你送来NLP技术干货!


来自:AI自然语言处理与知识图谱

作者:大林

一、任务定义

首先,我们要明确实体链接(Entity Linking, EL)是什么,它的目标是什么,这将有助于建立我们以目标为导向的混乱思维模式,所谓以终为始,来自《高效能人士的七个习惯》,推荐阅读,非广告。实体链接是将文本中的一个片段序列经过各种规则/模型等方法链接到知识图谱中的实体(Entity),这个片段序列用术语称之为 Mention。看了一些文章,EL 在这部分有一个混淆的点,EL 其实包含实体识别(Entity Recognition, ER)和实体消歧(Entity Disambiguation, ED)两部分,但是现在的很多研究都淡化了实体识别这一部分,而是默认在给定实体识别结果(即 Mention)的基础之上将其链接到知识图谱或者知识库中,但是严格来讲,EL 是包含了实体识别和实体消歧两阶段的,如下图参考。

二、通用方法论

自从2015年以来,基于神经网络的实体链接方法已经开始跃跃欲试,至今已经层出不穷。最开始很简单的方法会将实体链接视为一个多分类任务,但是面对上亿级别实体的知识图谱,无论是性能还是效果上面都不尽如研究者们的心声,后来慢慢的演变采用候选排序的方法将其简化,并慢慢的成为了一套通用的实体链接方法,后面很多的研究都是在其中的某个环节进行改善与提升,下图展示了 EL 的一个通用的体系架构。

通用的体系架构分为两个基本的步骤,实体识别 + 实体消歧。

1、实体识别模型:实体识别模型识别出给定文本中的Mention,如上图所示的 Scott Young。

2、实体消歧模型:链接到知识图谱中的一个实体,这部分又进一步的拆分为了候选实体生成(Candidate Generation)和实体排序模型(Entity Ranking)。候选实体生成是生成 Mention 可能链接的 Top 实体;实体排序模型是根据文本信息、上下文信息、Mention信息计算 Mention 与Top个实体的得分并排序。了解推荐的同学会对这部分十分熟悉,类似推荐系统中的召回、粗排、精排阶段。

划重点: 看到这里,有的大佬会提出一个问题 ??? 文本变幻莫测、博大精深,mention 一定会在知识图谱中找到一个合适的实体链接吗???是的啊,特别是一些垂直领域图谱,或者刚刚处于初步阶段的知识图谱是不能够完全覆盖领域的所有实体的,再或者说,即使是上亿级别实体的知识图谱,也会存在那么万分之一无法链接的可能性吧,是的吧,要不然需要知识图谱补全这个任务干什么,有道理!!!这也就是实体链接中的一个问题点,Unlinkable Mention Prediction,我们先留个问号,继续往下。

我们接下来简单了解一下:

Candidate Generation:

EL 类似于 WSD 任务,因为它解决了词汇歧义。然而在 WSD 中,单词的每个意义都可以在 WordNet 中明确定义,而在 EL 中,图谱中没有提供 mention 和实体之间如此精确的映射,mention 会链接到图谱中的任一个Entity,从而效率、性能、效果上面都不好把控。因此,候选实体的产生在 EL 中有相当重要的作用,实际上是对图谱中上亿 Entity 的初步过滤,类似推荐系统中的第一步:召回

候选的产生主要有三类方法:(1)单词表面的匹配(硬匹配) (2)配词典(别名)  (3) 先验概率计算。

1、单词的匹配是采用类似 编辑距离、BM25、n-gram、normalization等,能够解决一些,但是能够明显的想到会有很多的case、比如一些缩写 BAT、TMD、Big Blue(ps: 蓝色巨人、指的是IBM)。

2、词典(Name Dictionary)的方法是最常用的:构建{mention:entity}的词典。使用图谱中的数据构建一个别名的字典,可以采用维基百科消歧/重定向页面,可以采用人工配别名、也可以采用同义词等方法。这方法,只要功夫下的够,召回指定足够强,哈哈。ps: 不要以为这都是人工的工作,也有很多技术的,针对不同的 EL 场景,要用什么构建方法也是不一样的,具体事情具体分析。

3、采用先验概率计算的方式:预先计算 mention 和实体之间的先验概率p(e|m)。许多研究利用维基百科实体的超链接计算mention 和 entity 的先验概率。另一个被广泛使用的选项是 CrossWikis,可以利用网页抓取数据中 mention 实体链接的频率,应用很广。

Entity Ranking

候选实体产生之后就要考虑实体排序的问题了,看哪个实体是最适合mention的。

实体排序会考虑一些特征,比如mention的信息表达、entity 的信息表达,获取两者信息的方法大同小异,但是又并不相同。

(a) mention表示: mention 是在文本中获取到的,可以获取到mention的上下文信息,这绝对是可以加以利用的,而且上下文信息能够给予实体消歧更多信息,利好实体消歧。这里面主要的一些方法像lstm、自注意力、transformers、bert等都是有在用的。

(b) 实体表示: 1、使用非结构化文本学习算法,如基于共现统计和词嵌入word2vec。2、利用图谱中实体之间的关系,采用图嵌入方法获取实体和关系表示,比如随机游走的DeepWalk和基于翻译的TransE系列。3、BERT及其变种等一系列深度编码

实体排序:计算mention表示和实体表示之间的相似度、点积、余弦。结合其他特征做最终的决策,比如图特征 (entity embedding、relation)、mention上下文信息、距离信息(Point-wise、Pair-wise、List-wise)、LinkCount信息。

无法链接问题:Unlinkable Mention Prediction

上文已经提到会存在mention是无法链接到图谱实体的情况,针对这种情况,主要有几种方法。

1、阈值:可以人为设置一个阈值,低于这个阈值就被人为是不可链接的,则将其置为NIL。

2、引入NIL实体:在排序阶段,加入额外的 NIL实体,参与到实体排序打分的过程,不可链接的mention将这个作为最佳匹配。

3、分类判别:单独训练一个mention和 entity 的二分类器,在实体排序之后采用分类模型于判定是否为不可链接实体。

三、方法论进阶

上面是介绍了实体链接通用处理问题的框架,但是单一的框架无法处理多元复杂的业务场景,会存在诸多的问题,也就会衍生出各种各样的魔改框架,就像BERT之后的各种魔改,何时才是尽头???

主要有几类改进的方法,这里简单阐述。

1、联合学习模型

上文的实体链接的通用框架将实体识别和实体消歧两个任务采用pipline的方式,大多数人会想到,pipline方式的有一定的缺陷,任务之间属于依赖关系,pipline的方式有可能错误传播,且两者之间的信息交互很难,所以将两个任务联合建模、共同学习是一个思路,这里面有采用堆栈的LSTM方式、有的采用端到端的建模、还有采用生成式建模的方式。参考[2,3,4]。

2、利用全局 Context 信息

实体链接通用框架中会利用到 mention 的上下文 context 信息,这里面的context信息严格来讲又可以细分: 局部 or 全局。利用局部信息是采用每个 mention 的周围上下文进行实体消歧, 而全局方法考虑了上下文中出现的多个实体之间的语义一致性,在这种情况下,一个实体的消歧决策受到上下文中为其他实体所做的决策的影响,实体之间的消歧是相互依赖、相互影响的。

3、领域特性

这个问题,老生常谈了,不同的领域所拥有的资源是不一样的,在一些资源匮乏的领域,当我们需要大量的标注数据训练神经网络模型,就显得很难受,需要大量的人力物力标注数据。当然这个问题可以通过一些基于无监督和半监督的模型来解决,最近出现了一些新的研究方法,比如基于远程学习和 基于 zero-shot 方法的解决方案,特别是 zero-shot 技术在 EL 新领域的适应性上别有风趣,后面有时间专门看下这部分,感兴趣的可以去看看[5,6]

4、跨语言特性

在很多任务中,英语的可用标记数据与其他语言可用的数据量有明显的对比,在实体链接任务中也是如此,采用跨语言的方式解决低资源语言资源欠缺的问题是一种常见的手段。跨语言的实体链接方法通过利用来自高资源语言领域的监督数据来克服对一些低资源语言缺少标注数据的问题。并且有很多采用 zero-shot技术来做跨语言实体链接预测,并有很大的效果。参考[7,8]。

四、有哪些应用方法与前景

实体链接主要有几类应用,简单看下~

1、知识图谱 (Knowledge graph population)

实体链接对于知识图谱的补全与完善具有重要的作用,文本与知识图谱中的实体是否能够链接,还是会新增一个实体对于知识图谱的壮大有着至关重要的作用。

2、数据挖掘 (Text Mining)

实体链接能够将挖掘出来的模糊性 mention 链接到专业术语上面,特别是在医学领域,由于医学术语的可变性、医学本体的复杂性以及医学领域标注资源的稀缺,模糊性问题对医学文本处理尤为重要,目前已经有很多 EL 的工具用在医学领域。另外,实体链接已经广泛应用在社交网络和热点媒体新闻的挖掘。

3、信息检索 (Information retrieval)

实体链接在信息检索领域也被广泛应用,EL 能够利用文本额外的语义信息来补充检索结果,以解决查询的模糊性,增加准确性。

4、问答 (Question Answering)

实体链接在问答系统中可以说是刚需了,用户问题描述链接到实体后,通过查询知识库中对应的答案,将问题与知识库进行匹配,会找到满足最符合问题所对应 的答案返回。

5、表示学习

这是一个方向,将实体链接与迁移学习结合,训练新的预训练语言模型,可以利用知识库中的实体以及其他信息,从而提升预训练模型的效果,比如ERNIE[9]。

五、总结

本文梳理了实体链接任务的一个脉络,包括实体链接任务的定义,包含实体识别和实体消歧两大部分,也介绍了实体链接通用的解决框架,包括其中的问题,特别是NIL问题,除通用的框架外,还有很多魔改的框架, 包括联合学习、全局信息、zero-shot、跨语言学习等,最终介绍了实体链接在知识图谱、文本挖掘、信息检索、知识问答以及预训练语言模型中的应用。

参考资料

  1. Neural Entity Linking: A Survey of Models Based on Deep Learning

  2. Joint learning of named entity recognition and entity linking

  3. Investigating entity knowledge in BERT with simple neural end-to-end entity linking.

  4. Autoregressive Entity Retrieval

  5. Zero- shot entity linking by reading entity descriptions.

  6. Scalable zero-shot entity linking with dense entity retrieval

  7. Overview of TAC-KBP2015 tri-lingual entity discovery and linking

  8. Neural cross-lingual entity linking

  9. ERNIE: Enhanced Representation through Knowledge Integration

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

一篇关于实体链接的小综述相关推荐

  1. 实体链接在小布助手和OGraph的实践应用

    1 问题背景 精准直达的知识问答能力对营造小布"懂知识.更懂你"的形象非常重要.在语音助手场景,经常会出现一词多义或者口语化表达等问题.例如:李白出装,李白的诗,播放李白.第一李白 ...

  2. 实体链接在OPPO小布助手和OGraph的实践应用

    1 问题背景 精准直达的知识问答能力对营造小布"懂知识.更懂你"的形象非常重要.在语音助手场景,经常会出现一词多义或者口语化表达等问题.例如:李白出装,李白的诗,播放李白.第一李白 ...

  3. AAAI2020 | SNERL:抛开mention级别的监督,实体链接、关系抽取我都行

    今天为大家介绍的是马萨诸塞大学阿默斯特分校Trapit Bansal等学者和谷歌研究院合作在AAAI2020上发表的一篇关于实体链接和关系抽取的文章.虽然关系提取通常可以用现成的弱的或远距离的监督来训 ...

  4. 知识图谱实体链接是什么?一份“由浅入深”的综述

    作者 | 尼古拉·瓦砾 来源 | Paperweekly(ID:paperweekly) [导读]这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个 ...

  5. 知识图谱实体链接:一份“由浅入深”的综述

    这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个非常困难的问题. 作者丨Nicolas 单位丨追一科技AI Lab研究员 研究方向丨信息抽取.机器 ...

  6. 综述 | 知识图谱实体链接:一份“由浅入深”的综述

    本文转载自公众号:PaperWeekly. 作者丨Nicolas 单位丨追一科技 AI Lab 研究员 研究方向丨信息抽取.机器阅读理解 本文介绍实体链接(Entity Linking)这一技术方向, ...

  7. v54.04 鸿蒙内核源码分析(静态链接) | 一个小项目看中间过程 | 百篇博客分析HarmonyOS源码

    子曰:"回也其庶乎,屡空.赐不受命,而货殖焉,亿则屡中." <论语>:先进篇 百篇博客系列篇.本篇为: v54.xx 鸿蒙内核源码分析(静态链接篇) | 一个小项目看中 ...

  8. 综述 | 358 篇论文, 最新知识图谱KG综述

    进NLP群->加入NLP交流群 来自:图神经网络与推荐系统 获取结构化的人类知识是设计高级人工智能的重要基础.为此,早期研究者做了大量工作以从不同数据源中自动提取可以提供有用信息(事实)的数据模 ...

  9. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  10. 深度学习实体关系抽取研究综述笔记

    鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...

最新文章

  1. Qlik收购Idevio,为客户带来先进的地理信息分析功能
  2. 《MySQL—— 业务高峰期的性能问题的紧急处理的手段 》
  3. Python精通-Python元组操作
  4. Day9-HTML body属性
  5. 【英语学习】【加州教材】【G4】【科学】Science目录及术语表
  6. Java Web学习总结(9)——servlet和Jsp生命周期解读
  7. 资深程序员的书单 - 转载自@Axb
  8. 大学计算机应用技术基础实践教程答案,【最新资料】大学计算机基础实践教程习题答案.doc...
  9. cls image.php,Ecshop安装过程中的的相关问题:cls_image::gd_version()和不支持JPEG_PHP教程...
  10. 通俗易懂地理解并发和并行的区别
  11. 使用excel绘制统计分布表(T分布表)
  12. hbuilder版本更新失败_Hbuilder X升级后报错误:plus.device.getInfo is not a function
  13. ps在当前的图片添加一张图片进来
  14. 微信小程序之小程序审核
  15. SQL 注释语句 (--与/*...*/)
  16. Fire And Motion(英文原版) [转]
  17. 某鱼app获取Cookie(token)
  18. 中国移动部署全球最大OpenStack集群的实践之路
  19. webDav之jackrabbit-webdav基础操作
  20. 离散数学-ch1-Introduction

热门文章

  1. Webpack4 学习笔记一初探Webpack
  2. 01_11_Strtus2简单数据验证
  3. mac 查看端口的使用情况
  4. 学习笔记_信号与系统
  5. 关于scrollTop
  6. spark sql cache
  7. dapper利用DynamicParameters构建动态参数查询
  8. numpy基础1多维数组对象
  9. ImportError: DLL load failed: 找不到指定的模块。
  10. oracle 常用索引分析,使用原则和注意事项