CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata

论文链接:https://arxiv.org/abs/2101.09969 (EACL 2021)

代码实现:https://github.com/ManojPrabhakar/CHOLAN

ABSTRACT

本文作者提出了实现在知识库上进行端到端实体链接的模块化方法——CHOLAN,该模型包含由两个 transformer-base model 构成的 pipeline。第一个 transformer 用于提取句子中的 mention,第二个 transformer 获取 mention context 和 entity description 并以此将 mention 分类到预定的候选实体集中。作者在实验中将实体链接到 Wikipedia、Wikidata 两个知识库中,并在 CoNLL-AIDA, MSNBC, AQUAINT, ACE2004, T-REx 数据集上取得了优于 SOTA 的表现。

1 简介

实体链接包含三个步骤:

  • mention detection:从句子中检测出实体提及
  • candidate generation:生成候选实体集合
  • entity disambiguation:通过语义消歧,从实体集合中选出最优实体

实体链接的方法主要分为以下三类:

  • 将 mention detection 和 entity diambiguation 作为独立的子任务,会导致将前一阶段的错误传播到后一阶段
  • 将 MD 和 ED 联合建模,强调两个子任务相互依赖
  • 将三个步骤联合建模,并认为这三个任务相互依存

作者认为 candidate generation 是影响 EL 模型性能的瓶颈,对此作者进行了探究。CHOLAN 在 以下数据集上取得了 SOTA 的成绩 T- REx for Wikidata; AIDA-B, MSBC, AQUAINT, and ACE2004 for Wikipedia。

2 相关工作

mention detection

mention detection 可以视为命名实体识别的任务,解决方案涉及以下几种: CRFs、特征字典构建、基于特征推理的神经网络、上下文编码

candidate generate

有四类主流方法:1. 预定义的候选实体集合;2. 字典查询(字典通过统计知识库关联别名构建);3. 经验概率实体图, p ( m ∣ e ) p(m|e) p(me)​;;4. 通过使用Wikidata 的实体标签、关联别名等数据扩展构建局部知识图

End2End EL

  • 2016 年:图模型。 J-nerd: joint named entity recogni- tion and disambiguation with rich linguistic features.

  • 2018 年:使用 Bi-LSTM 模型进行 MD,通过计算 mention detection embedding 和 candidate description 的相似度进行消歧,其中使用了预定义的 candidate 集合。 End-to-end neural entity linking.

  • 2019 年:使用 BERT 模型对三个子任务联合建模。Investigating entity knowl- edge in bert with simple neural end-to-end en- tity linking

  • 2020 年:使用 transformer 模型实现了三个子任务;基于启发式模型进行消歧;对于MD、ED 训练神经网络,并使用别名生成实体。

3 方法

3.1 Mention detection

使用了 Bert 预训练模型,将 [CLS][SEP] 添加到句子的首尾输入到 Bert 模型中。再使用逻辑回归将每个 token 分类到 BIO 标签上。作者使用了最新的 B E R T B A S E BERT_{BASE} BERTBASE​ 预训练参数,在非结构化的专门数据集上进行微调,如上图左下角所示。

3.2 Candidate generation

使用了 两个候选实体集,用来检验candidate generation 对entity linking 的影响:

  1. DCA 候选实体集 :由 2019 年论文Learning dynamic con- text augmentation for global entity linking 提出,根据概率实体图创建,每个 mention 有 30 个候选实体
  2. Falcon 候选实体集:由 2019 年论文 Old is gold: Linguistic driven approach for entity and relation linking of short text. 提出,从 Wikidata 中创建本地索引 KG,并通过别名进行扩展,本地索引 KG 通过 BM25 进行检索。作者使用 Wikipedia 对 Falcon进行了扩展,同时将 Wikipedia 中相关实体的第一段,作为 entity description 添加到 candidate 中。

3.3 Entity disambiguation

作者提出了 WikiBERT 模型,WikiBERT 衍生于 Bert 模型,并在实体链接数据集 (CoNLL-AIDA and T-REx) 上进行微调。作者声称:“WikiBERT 的创新之处在于 将局部的句子上下文和全局的 entity 上下文引入到了 transformer 中” (个人认为 BLINK, 2020 就已经提出了该方法)作者将 mention context 和 entity description 拼接到一起,以 SEP 分隔,输入到 BERT 中,将实体消歧视为句子分类问题。

句子中的 mention、context、entity 都是以下三种 embedding 的加和。

  1. token embedding:将 mention 以 | 分隔,放在 S1 头部;entity name 直接放在 entity description 的首部。
  2. segment embedding:每个序列都加上 mention context 和 entity description 的embedding
  3. position embedding:表示输入位置 i i i 的 embedding

模型的训练采用了 Pre-training of deep contextualized embeddings of words and entities for named entity disambiguation 2019 年提出的负采样的方法。

4 实验

对于Wikidata知识库,作者选择了 T-REx 数据集。对于 Wikipedia 知识库,作者选择了 CoNLL-AIDA 数据集进行训练,使用了 AIDA-B MSNBC AQUAINT ACE2004 数据集进行测试。

作者在 Wikidata 和 Wikipedia 两个知识库上对 baseline 进行了对比,CHOLAN 超过了以往的 SOTA 模型,同时作者分别在这两个KG上对 Candidate generation 和 entity dismbiguation 进行了消融实验。结果证明,选择更优的 candidate set 以及在消歧阶段引入 entity description 和 mention context 能显著提高模型性能。

改进空间:对于候选实体生成,可以使用 Zero- shot entity linking with dense entity retrieval. 2019 提出的 bi-encoder 的方法。

CHOLAN:一种模块化实体链接方法相关推荐

  1. 论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

    笔记整理 | 谭亦鸣,东南大学博士生 来源: ECIR 2021 在这篇工作中,作者对两种SOTA实体对齐方法做了广泛的研究:首先仔细分析了现有benchmark的过程,并论证了其中存在一些缺陷,使得 ...

  2. 实体链接维基百科调研

    略微整理一下关于实体链接消歧的入门知识 本篇是关于论文[张佐亮 "基于维基百科的实体链接方法的研究与实现"]的内容记录 文章目录 实体链接定义 一.实体链接步骤 二.实体链接细节 ...

  3. 实体链接中使用实体一致性信息(coherence)

    实体链接(Entity Linking; Entity Disambiguation)是自然语言处理中一个很重要的任务,目的是将文本中发现的mention链接到知识库(Knowledge Base)中 ...

  4. 论文浅尝 | 基于多模态特征的视觉实体链接

    转载公众号 | 数据智能英文刊 文章题目:Visual Entity Linking via Multi-modal Learning 作者:郑秋硕,闻浩,王萌,漆桂林 引用:Zheng, Q.S., ...

  5. python爬取电子病历_一种基于中文电子病历的实体识别方法技术

    本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域.针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法, ...

  6. 知识图谱实体链接是什么?一份“由浅入深”的综述

    作者 | 尼古拉·瓦砾 来源 | Paperweekly(ID:paperweekly) [导读]这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个 ...

  7. AAAI2020 | SNERL:抛开mention级别的监督,实体链接、关系抽取我都行

    今天为大家介绍的是马萨诸塞大学阿默斯特分校Trapit Bansal等学者和谷歌研究院合作在AAAI2020上发表的一篇关于实体链接和关系抽取的文章.虽然关系提取通常可以用现成的弱的或远距离的监督来训 ...

  8. 医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

    一.动机 论文:https://arxiv.org/abs/2012.08844 代码:https://github.com/tigerchen52/Biomedical-Entity-Linking ...

  9. 实体链接:信息抽取中的NLP的基础任务

    2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...

最新文章

  1. 数组的拼接合并 numpy
  2. 《资安人》:迈向成功SOC之路
  3. 手机访问同局域网下的PC中Tomcat中的项目
  4. 【英语学习】【WOTD】foray 释义/词源/示例
  5. java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder
  6. html京东快报,练习3:仿京东快报.html
  7. 苹果Mac批量图像格式转换软件:XnConvert
  8. Atitit 爬虫 node版 attilax
  9. Drool的LHS和RHS
  10. 产品推广都有哪些方法可以用?
  11. 组件化-创建私有组件库库
  12. 百度GOALS比赛总结
  13. css table thead tr border生效
  14. pytorch快速上手-使用自动标注软件Openlabeling和yolov5快速完成目标检测
  15. 万能查询网址,不信试试看!
  16. Web测试中定位bug方法
  17. 阿里M8级铁子整理出SQL手册:收获不止SQL优化,抓住SQL的本质
  18. 新加坡没有改变对 Web3 的立场
  19. 30分钟java桌球小游戏_30分钟完成桌球小游戏项目
  20. 如何在linux(ubuntu)下安装字体(给wps安装字体)

热门文章

  1. Java中synchronized和volatile有什么区别?
  2. DuiVision开发教程(16)-区域控件
  3. 盘点一个使用Python实现Excel中找出第一个及最后一个不为零的数,它们各自在第几列
  4. 捧起同声传译圣杯的AI:向人类偷师、与人类共事
  5. 每天一道面试题-谈谈对面向对象思想的理解
  6. 自学java 答答租车系统
  7. iOS WKWebView基本使用
  8. 洞见科技数据科学家王湾湾:隐私计算助推金融业数字化转型
  9. 前缀、中缀、后缀的相互转换
  10. pytest官方文档 6.2 中文翻译版(第一章):安装和入门指南