[模型调研]实体消歧
文章目录
- 一、概念
- 二、任务定义
- 三、任务分类
- 四、基于聚类的实体消歧方法
- 五、基于实体链接的实体消歧方法
- 六、各数据集上的SOTA模型
- 1. Raiman
- 2. Evaluating the Impact of Knowledge Graph Context on Entity Disambiguation Models
- 3. Global Entity Disambiguation with BERT
- 4. Neural Cross-Lingual Entity Linking
- 5. Deep Joint Entity Disambiguation with Local Neural Attention
- 6. Named Entity Recognition for Entity Linking: What Works and What’s Next
- 七、结果比较
一、概念
- 定义:同一个单词在不同上下文中表达的含义可能不同,需要消除歧义
- 举例:苹果可以指水果,也可以指苹果公司。
二、任务定义
实体消歧任务定义为六元组:
三、任务分类
- 按照目标实体列表是否给定
(1)未给定目标实体列表,则使用基于聚类的实体消歧系统。聚类的结果中每一个类别对应一个目标实体。
(2)已给定目标实体列表,则使用基于实体链接的实体消岐系统。聚类的结果中每一个类别对应一个目标实体。 - 按照数据类型
(1) 结构化文本实体消歧
通常存储于数据库,缺少上下文信息,主要依赖字面意思和实体关系信息进行消歧
(2) 非结构化文本实体消歧
含有大量上下文信息,主要利用指称项上下文进行消歧 - 按链接数据库类型
(1) 基于知识库的实体链接
在大型文本知识库中提取上下文特征和获取上下文信息
(2) 基于知识图谱的实体链接
利用知识图谱结构来表示实体之间的关系以及侯选实体的上下文特征
四、基于聚类的实体消歧方法
含义:未给定目标实体时,对待消歧的实体指称集合,以聚类方式实现消歧。
思想:同一指称项具有相似的上下文
核心:选取何种特征对于指称项进行表示
步骤:
• 对每一个实体指称项,抽取特征(上下文,实体,概念)表示为特征向量
• 计算实体指称项之间的相似度
• 用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体
- 基于词袋模型的聚类方法
将当前语料库中实体指称项周围的词组成特征向量,然后利用向量的相似度对指称项进行比较,并将指称项划分到最接近的实体引用项集合中 - 基于语义特征的聚类方法
不仅包括词袋向量,还包括语义特征,比如对文本进行SVD分解。 - 基于社会化网络的聚类方法
首先构造社会化网络,再利用网络中的社会关系计算实体指称项之间的相似度,比如通过包含身份证号、手机号的网络图消歧人名。这种方法注重实体间关系,忽略实体本身的特征以及实体的上下文特征,并且网络构造难度大,复杂度高。 - 基于百科知识的聚类方法
百科类网站通常会为每个实体分配一个单独页面,其中包括指向其他实体页面的超链接,这种链接关系反映条目之间的语义相关度。百科知识模型用实体上下文的百科条目对于实体进行向量表示,利用维基条目之间的相关度,来计算实体指称项之间的相似度。但是,百科知识覆盖性有限且实体种类较少,因此此类方法使用率较低。 - 基于多源异构语义知识融合的聚类方法
传统的聚类实体消歧方法所使用的目标知识库通常只有一种,覆盖度有限。采用多源异构知识可以克服这一缺点,挖掘和集成不同知识源中的结构化语义知识表示模型来统一表示这些语义知识可以提高实体消歧效率。该方法使用多个知识库(维基百科,wordnet,web网页库)进行聚类,多种数据源之间表达方式略有差异且组合难度大,从而导致实体聚类效果差。
五、基于实体链接的实体消歧方法
将一个命名实体的文本指称项链接到知识库中对应的实体(若不存在对应实体,则将实体指称项链接到空实体NIL)
• 候选实体生成:首先需要给定一个实体指称项,然后根据知识、规则等信息找到实体指称项所对应的候选实体列表。候选实体集合的质量取决于:(1)是否包含目标实体;(2)候选实体的数目
• 实体链接:给定指称项及其连接候选,确定该实体指称项最终指向的目标实体。
基于词袋模型计算相似度
将实体指称项上下文文本与候选实体上下文文本表示成词袋向量形式,通过计算向量间夹角确定指称项与候选实体相似度,选择相似度最大的候选实体进行链接基于类别特征
加入指称项文本中的词与候选实体类别的共现特征协同实体链接
不仅考虑实体指称项和目标实体的语义相似度,还考虑目标实体之间的语义相似度。
基于图的协同链接
上述Pairwise方法只考虑两两实体关系,结局不是全局最优的;采用图方法,全局考虑目标实体之间的语义关联基于神经网络的实体消歧方法
自动联合学习实体和文档的表示,进而完成实体链接任务
六、各数据集上的SOTA模型
1. Raiman
(1)论文:
DeepType: Multilingual Entity Linking by Neural Type System Evolution
https://arxiv.org/pdf/1802.01021.pdf
https://github.com/openai/deeptype
(2)简介:
完全基于类型进行实体链接,构造一个包含很多细粒度类型的类型系统,预测entity mention的类型,基于预测的类型进行实体消歧。
(3)环境需求:Mac OSX或Fedora 25
2. Evaluating the Impact of Knowledge Graph Context on Entity Disambiguation Models
(1)论文
https://arxiv.org/pdf/2008.05190.pdf
https://github.com/mulangonando/Impact-of-KG-Context-on-ED
(2)简介
给定一个句子,一个已经识别出的实体描述,和一系列的候选实体,以及一个知识图谱,任务目标在于从KG中选择与文本中的描述相匹配的实体。作者视其为条件概率的分类问题,实际就是在RoBERTa或XLNet的基础上融入知识图谱的信息。
3. Global Entity Disambiguation with BERT
(1)论文
https://arxiv.org/pdf/1909.00426v5.pdf
https://github.com/studio-ousia/luke
(2)模型
训练任务:预测随机masked掉的实体
Confidence-order:分N步预测,每步预测所有[MASK],按预测[MASK]为对应实体的分数高低,依次进行预测
Natural-order:按mention出现顺序预测
Local model:直接预测所有[MASK]
注:用luke-base进行预训练,服务器资源耗费极大。也可以在huggingface上下载模型参数。
4. Neural Cross-Lingual Entity Linking
(1)论文
https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16501/16101
无开源代码
(2)简介
5. Deep Joint Entity Disambiguation with Local Neural Attention
(1)论文
https://aclanthology.org/D17-1277.pdf
https://github.com/dalab/deep-ed
(2)简介
将实体间关系也考虑进embedding中
6. Named Entity Recognition for Entity Linking: What Works and What’s Next
(1)论文
https://aclanthology.org/2021.findings-emnlp.220.pdf
https://github.com/babelscape/ner4el
(2)简介
尝试各种利用命名实体类别信息辅助实体链接的方法,发现NER能够很好的在少样本训练的情况下辅助实体链接模型,缩减采用大规模和有限规模数据训练出来的NL模型的表现差距。
(3)方法
引入了新的细粒度的NER分类,用他们来自动地给维基百科的每个实体进行标注。提出四种引入NER信息的方法:
a. NER-enriched entity representations
b. NER-enhanced candidate selection
c. NER-based negative sampling
d. NER-constrained decoding
Baseline:用两个transformer块,一个用来编码实体指称项(输入为token序列,指称项前后用[E]和[/E]标识,左右上下文最多包含64个token),一个用来编码目标实体(输入为对应维基百科文章的前128个tokrn),最大化余弦相似度:
用于NER的细粒度类:
新设计NER类别,利用WordNet标注每个维基百科实体(先人工标200个最高级别的概念组成的种子集合,然后广度优先扩展),以及用BabelNet映射wordnet概念和维基网页。
NER增强的实体表示
通过在实体编码器中加入类别信息,丰富每个候选实体的嵌入。将(NER类别)+实体的文本描述作为增强字符串加入实体编码器。
NER增强的候选生成
训练+部署一个NER分类器(基于BERT)来预测一个mention的NER类别,丢弃掉所有不属于该类别的候选实体。
基于NER的负采样
模型通过比较正负样本和候选实体来学习嵌入,但有的实体指称项只有一个候选实体,导致学习不佳。因此考虑加入负样本。本文根据NER类别选择特定的负样本,加入和目标实体同类别的负样本,使得训练更有挑战性。
NER约束的解码器
在推断时,加入软约束或硬约束。直观上,对于非常有歧义的指称项,EL可能偏向频繁出现的实体,而不考虑背景。为此,本文约束EL系统,使其输出的实体的NER类别与同样输入的NER分类器的预测一致。硬约束:迫使EL系统的预测实体和NER分类器的预测完全一样;软约束:迫使预测实体属于NER分类器的top-k预测。
NER贡献的组合
(4)实验demo
构建的NER_classifier未提供训练代码,但提供了保存好的模型,等于给Wikipedia的entity多加了个标签,无论是在编码、生成、判别阶段都可以用得上。
不加NER-Constrained Decoding (NER-CD)策略:共约5小时
七、结果比较
AIDA-CoNLL:
WNED-WIKI:
ACE2004:
AQUAINT:
MSNBC:
WNED-CWEB:
[模型调研]实体消歧相关推荐
- 知识图谱(五)——实体消歧
一.任务概述 多样性--同一实体在文本中会有不同的指称.eg:飞人.帮主.老大和MJ都指美国篮球运动员迈克尔·乔丹 歧义性--相同的实体指称在不同的上下文中可以指不同的实体.eg:迈克尔·乔丹指美国篮 ...
- 【创新实训】BERT4EL,基于文本相似度的实体消歧实现
任务描述 现有douban.mtime.maoyan三个来源的电影,包含名称.简介.导演.演员.类型等等属性. 需要相同的电影融合为一个电影条目,其中maoyan数量很少,可以合并到mtime中. 参 ...
- 信息抽取之实体消歧,统一
1.前言 信息抽取相关内容可以参考信息抽取简介 和关系抽取详解 2.实体消歧的本质 如小米,它是一个实体,在有些句子中表示"小米公司",但在某些语句下它表示一种谷物 又比如: 怎么 ...
- nlp(贪心学院)——实体消歧、实体统一、指代消解、句法分析
任务212:Entity Disambiguation (实体消歧)介绍 小米是公司还是吃的? 苹果是公司还是吃的? 根据左边的上下文找出左边的James Craig到底是右边(1)(2)(3)哪个J ...
- 【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】
作者:finallyly 出处:博客园(转载请注明作者和出处) 看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法.其实不然,本篇博客旨在分享笔者在处理那些繁杂.冗踏.低端甚至于极其TM ...
- 实体统一,实体消歧, 指代消解
指代消解:比较难,目前还没有得到很好的结果.
- 文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)
文章目录 Abstract 1.Introduction 2. 相关工作 2.2 Entity-aware Relation Extraction 3.提出的模型 3.1 Solution Frame ...
- 命名实体如何进行概念消歧?
1 引言 命名实体概念消歧是命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章).什么叫概念消歧了?在这里举一个简单例子进行 ...
- G2P 中文转拼音 多音字消歧 论文总结
论文链接均在作者Github下,大家多多专注呀! 1. 字形转音素 1.1 基于规则 (1998) Issues in building general letter to sound rules 1 ...
- 【极简】实体识别和消歧
文章目录 命名实体识别 消除歧义 TF-IDF句向量(有监督) 词周边特征 TF-IDF特征(有监督) 词向量(无监督) 基于规则的内联修改权重方法 变种:地名消歧 正则表达式 命名实体识别 impo ...
最新文章
- mysql 创建和删除用户
- python算法与数据结构-希尔排序算法
- mysql online ddl和pt_MySQL变更之:Online DDL 和 PT-OSC 该选谁?
- Mysql 启动失败没日志,MySQL Server 5.7将无法启动,并且未填充错误日志
- 36Kr鬼畜推送,没事别惹程序员
- java 类的传递_Java基本类型的传递
- yum安装wget失败,替换yum源为阿里yum源并重亲安装
- levy过程和布朗运动的关系_金融数学之定价模型基础解释【布朗运动|维纳过程|伊藤引理】...
- 机械系统传动创新组合设计实验台,QY-JXSX08
- 单片机花灯开关控制器C语言代码,以51单片机为核心的LED彩灯控制器设计
- python根据词性进行词频统计_如何根据词性来确定语篇中的词频?
- 需求分析(团队作业3)
- html 设置td最小宽度,HTML–td 宽度调整
- 1994年的计算机安全法规,1994年2月18日,我国颁布了(),这是我国第一个计算机安全法规,是我国计算机安全工作的总体纲领。...
- python打印数字对应的星号_python打印表格式数据-星号或注释
- 自己定义jquery插件轮播图
- 如何半小时免费搭建NGINX网站?
- Unity协程的返回值
- Mongodb关于读取的问题(Read Concern)和Write Concern
- infiniDB在linux下完成倒库