【NLP】一文简要了解词义消歧与实体消歧
写在前面
最近刚开始调研实体消歧方面的相关工作,这里先开一个头吧。希望大家可以通过这篇简要的文章对实体消歧任务本身有一个基本的认识。
1. 背景:词义消歧与实体消歧
1.1 词义消歧
自然语言文本中存在着大量的多义词,而多义词的存在也会影响人对文本的语义理解,让人对文本的意思产生混淆。
词义消岐(Word Sense Disambiguation,简称WSD) 是NLP中一个非常基本的任务,旨在确定多义词在具体语境中的确切意义。
在词义消歧中,同一词语的不同义项会作为候选词。我们需要在所有候选词中找到与文本中目标词语最接近的那个义项。这里“义项”指的是词是词典中的某个具体表示。
如上图所示,「苹果」在百度百科中共有25个义项,单说「苹果」我们可能并不知道说的是「苹果公司」还是「水果里的苹果」。但结合具体的上下文语境,我们就可以很好地对「苹果」消歧,从而明确「苹果」的具体含义:
1.2 实体消歧
实体链指/实体链接(Entity Linking,简称 EL) 在知识图谱构建、信息检索和问答系统等领域具有广泛的应用价值。
实体链指的主要目标是识别上下文中的实体指称具体指代现实世界中的哪一个实体,也就是将实体指称项映射到知识库中的相应实体上去。
具体而言,实体链指一般包括实体识别、候选实体获取、实体消歧这三个主要环节。之所以需要实体消歧,而不是直接将实体识别的结果放入知识图谱的原因主要有两方面:
多样性(即多词同义):同一实体在文本中会有不同的指称。比如:甜瓜、安东尼、和瓜哥都指美国职业篮球运动员卡梅隆·凯恩·安东尼。
歧义性(即一词多义):相同的实体指称在不同的上下文中可以指不同的实体。比如:迈克尔·乔丹可能指美国篮球运动员,也可能指爱尔兰政治家等。
1.3 总结
从以上说明来看,其实词义消歧与实体消歧具有一定相似性, 二者的目的都是处理文本中词汇歧义的问题. 主要区别在于:
在词义消歧中的词义通常是固定的, 可根据目标词在词典中的义项来列举;
在实体消歧中, 实体词义无法列举,所以需要前序步骤候选实体获取;
此外,实体词的词义数目大于普通词,这个主要还是跟知识库的量级相关。
2. 相关论文
这里我们主要给大家推荐两篇近期发表的论文:
词义消歧:《ESC: Redesigning WSD with Extractive Sense Comprehension》
实体消歧:《ExtEnD: Extractive Entity Disambiguation》
两篇论文的模型都非常简单,个人觉得关键或者说亮点主要在于他们对问题的转换。其实,从这两篇论文的名字就能看出端倪:都是将消歧问题转换成了抽取式问题。
2.1 EXTENE 实体消歧
论文名称:《ExtEnD: Extractive Entity Disambiguation》
论文链接:https://aclanthology.org/2022.acl-long.177.pdf
代码地址:https://github.com/SapienzaNLP/extend.
如上图所示,EXTEND 将实体消歧任务转换为了抽取式任务,或者说MRC类任务。具体地:
将含有目标实体指称项的文本当作Query;
将知识库中对应的所有候选实体及其描述当作Context;
二者拼接然后预测Answer的Span(start\end prediction,start-end matching),这里的Answer就是在知识库中目标实体指称实际关联的实体。
好了,这就是 EXTEND 论文的核心思想。是不是感觉模型已经跃然纸上了,整体上应该和我们之前在 一文详解关系抽取模型 CasRel、实体识别LEAR论文阅读笔记、 实体识别BERT-MRC论文阅读笔记中介绍过的模型类似。
2.2 ESC 词义消歧
论文名称:《ESC: Redesigning WSD with Extractive Sense Comprehension》
论文链接:https://aclanthology.org/2021.naacl-main.371.pdf
代码地址:https://github.com/SapienzaNLP/esc
ESC 的模型架构和 EXTEND 是相似的。整体上首先将输入的上下文和目标词的所有义项拼接,模型的输出则是目标词真正义项的起始和终止位置。
2.3 总结
论文的具体细节就不在本文里赘述了,大家可根据链接下载原文阅读。此外,两篇论文都公布了源码,大家也可以快速利用源码在一些开源数据上进行实验。
当然也有一些相关比赛,比如百度:实体链指[1]目前就还在进行中:
我目前看到的几个还是比较一致的做法,打分➕排序:
比如实体链指比赛方案分享[2]:
CCKS&百度 2019中文短文本的实体链指 第一名解决方案[3]:
大家可以将论文的模型适配到中文场景下,然后尝试在这个比赛的实体消歧环节使用,看看效果如何。
还是一样,如果本文对你有帮助的话,欢迎点赞&在看&分享,这对我继续分享&创作优质文章非常重要。感谢
【NLP】一文简要了解词义消歧与实体消歧相关推荐
- 知识图谱(五)——实体消歧
一.任务概述 多样性--同一实体在文本中会有不同的指称.eg:飞人.帮主.老大和MJ都指美国篮球运动员迈克尔·乔丹 歧义性--相同的实体指称在不同的上下文中可以指不同的实体.eg:迈克尔·乔丹指美国篮 ...
- nlp(贪心学院)——实体消歧、实体统一、指代消解、句法分析
任务212:Entity Disambiguation (实体消歧)介绍 小米是公司还是吃的? 苹果是公司还是吃的? 根据左边的上下文找出左边的James Craig到底是右边(1)(2)(3)哪个J ...
- 信息抽取之实体消歧,统一
1.前言 信息抽取相关内容可以参考信息抽取简介 和关系抽取详解 2.实体消歧的本质 如小米,它是一个实体,在有些句子中表示"小米公司",但在某些语句下它表示一种谷物 又比如: 怎么 ...
- 【创新实训】BERT4EL,基于文本相似度的实体消歧实现
任务描述 现有douban.mtime.maoyan三个来源的电影,包含名称.简介.导演.演员.类型等等属性. 需要相同的电影融合为一个电影条目,其中maoyan数量很少,可以合并到mtime中. 参 ...
- 【NLP】文档集数据处理 gensim corpora.Dictionary 的简单使用
[NLP]文档集数据处理 gensim corpora.Dictionary 1. corpora 和 dictionary 2. 词典操作 3. 存储 4. 其他操作 5. 分批处理和分布式计算 6 ...
- matlab 自适应噪声对消,自适应噪声对消
应噪声对消的语音增强法 王振 力 张雄伟 郑君杰 ( 解放军理 工大学 通信工程学 院,江苏南京 200)107 摘 要 :在 自适应噪声对消( N)AC中,本文根据主辅...... (000)007 ...
- 一次消谐和二次消谐有什么共同点
一次消谐和二次消谐有什么共同点 一次消谐和二次消谐都是用于消除电力系统中的谐波干扰的装置,它们的共同点包括: 相同的工作原理:都是通过串联电抗器和电阻器组成的消谐电路,将谐波电流引入电抗器中,从而消除 ...
- NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈
本文转载自http://blog.sciencenet.cn/blog-362400-526304.html 引用老友: 受教了.谢谢立委. 我同意"成语从来不是问题".成问题的应 ...
- NLP入门(九)词义消岐(WSD)的简介与实现
词义消岐简介 词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务. 那么,什么是词义消岐呢?通常,在我们 ...
- NLP之一文搞懂word2vec、Elmo、Bert演变
导读 自然语言处理本质是解决文本相关的问题,我们可以把它的任务分为大致两部分:预训练产生词向量以及对词向量进行操作(下游NLP具体任务).在自然语言处理中有词向量模型word2vec.Elmo以及Be ...
最新文章
- 关于vue+webpack的一点配置
- 神箭手爬虫学习笔记(二)
- 如何使用composer从Laravel中删除包?
- WorkFlow For Net ! NET 平台工作流 或 BPM
- qt5使用mysql
- php 中 fastcgi
- .dat文件写入byte类型数组_《计算机导论》课程实验报告(文件)
- android 开源项目列表【持续整理中。。。】
- xadmin入门使用
- JavaEE中使用绝对目录的说明
- spring bean加载过程_Spring的Bean加载容器机制
- 在 linux 下安装 Mysql 的详细过程
- ios 开发者论坛和资料站点
- 公司如何使用开源软件
- javaScript 关于console的理解
- 【自学Android开发(一)】
- Pomodoro方法
- java-spring的JdbcTempldate对oracle 的CLob字段进行读和写
- 加盐密码哈希:如何正确使用 (密码加密的经典文章)
- 寻找技术中国——渴望不再被扼住喉咙!
热门文章
- 世界知名半导体ST、NXP、Microchip、TI、Renesas公司的MCU和MPU定位、性能及特点
- 《新年Flag》2019年“新年Flag” - 新目标 学习计划
- JAVA + Socket + Swing实现QQ聊天软件
- 微软掷豪金投资海底数据电缆
- Day-4 三国演义目录爬取,requests请求,bs4数据分析的应用
- vmware死机,mvx.exe进程关不掉情况
- linux切换root 权限,【linux】sudo su切换到root权限
- 如何辩证看待技术与业务的关系
- 三星董事长去世享年78岁,临终前最为遗憾的一件事
- WP下载,WP源码下载,WP模板主题下载