论文笔记整理,谭亦鸣,东南大学博士生。


来源:JWS 2020

链接:https://www.sciencedirect.com/science/article/pii/S157082682030010X?via%3Dihub

介绍

实体抽取和链接(Entity extraction and linking, EEL)是语义网的一个重要任务,它能够从文本中识别现实世界的对象,并关联到知识库中的相应资源上。因此,EEL任务的一个目标是从文本中抽取知识。近年来,一些EEL系统被提出,它们着眼于不同的领域,语言以及知识库。这种情况下,一些尝试结合不同EEL系统优势的集成系统被提出,以提供比单一系统更好的性能。但是,目前尚没有一个清晰的全局配置指导,用于帮助集成系统选择,配置EEL系统,以及结果的融合。这篇论文提出一个框架,通过对系统选择,输入参数配置,系统执行以及最终的答案融合提供建议(答案融合基于一个对实体出现及重叠的过滤策略建立),从而构建融合EEL系统。基于这个框架,作者使用现有EEL系统实现了一个集成系统,通过GERBIL框架的实验结果表明,在七个数据集上,相对于单一EEL系统,集成系统的微观/宏观精度与召回率均有提高。

动机

集成EEL系统能够利用不同EEL系统的优势,从而得到比单一系统更好的性能。集成系统的一般思路是将两个或更多的EEL系统的输出统一为一个候选结果集。此外,多系统的命名实体抽取结果合成,亦能够比单一系统识别出更多的实体。

但是,集成EEL涉及到不同阶段的系统选择,参数配置以及集成决策,从而实现具有同类结果的系统。首先,对于EEL系统的选择与执行,包括领域,资源需求以及实现环境等多个因素需要被考虑。第二,在参数配置方面,输入参数的选择显然会直接影响到输出结果。例如,置信度参数控制命名实体在提及与URIs之间的匹配程度。最后,不同EEL系统的组合可能产生重复/部分重叠的实体元组(不同命名实体共享了一个文本中的提及)。因此,为集成系统提供系统选择,配置及结果融合的建议是一个明确的发展需要。

方法

本文提出FEEL(Frameworkfor the integration of Entity Extraction and Linking systems),旨在为集成EEL系统提供一个具有整体设定的推荐,概念以及任务的结构。图2中描述了该框架的三个主要阶段:

1.参数配置:

a)系统选择,以开放域数据场景为例,四个EEL系统被用于集成系统的实现(TagMe, DBpedia Spotlight, Babelfy, WAT),系统的选择遵循(i) 系统的研究报告中具备精准度和召回率之间的平衡。 (ii) 系统能够处理多个领域/包含不同特征的数据集。(iii) (免费)可用。

b)资源管理,针对EEL系统所需的软硬件资源的管理

c)参数调试,一般而言,EEL系统具有一些输入参数,例如置信度,输入文本,语言,输出格式,token-key等。这一步涉及对最常见输入参数(尤其置信度)的描述和配置。

i.置信度:置信度作为一个阈值,控制了从文本中抽取命名实体的数量,一般一个更高的置信度代表(获取实体的)高精度,但一定程度上损失召回。相对于使用基于经验的参数配置,FEEL选择基于GERBIL框架,通过在一个确定数量的数据集上对不同系统进行测试,从而确定参数配置,主要策略包括:

1.数据集选择,领域相关性

2.使用EEL系统在所选数据集上进行(多次)实验,获取micro-F1结果

3.获取产生F1结果较好的置信度区间

4.获取置信度区间的中间值

5.视情况对置信度配置值向上可选

ii.提取类型。EEL可选的提取类型包括:仅从文本中做实体抽取(而不链接),或仅将抽取出的实体标注为特定类别而非具体实例。

iii.输入文本:一般就是纯文本

iv.语言:EEL系统能识别和覆盖不同的语言(若系统未检测到输入文本的语言,则必须指定该项)

v.输出格式,系统需支持输出实体的不同格式(如基于LinkData的格式)

vi.Token-key,这个主要是为了限制(每日的)用户请求,用于成本控制

2.系统调用:系统调用的目标是对于给定的输入文本获取一组命名实体元组,主要包含两个部分:

a) Request preparation:这里主要考虑系统的调用和异常处理,假定某个EEL系统的执行出现故障,集成系统应该能够继续执行剩余EEL以获得尽可能多的结果

b) Field parser:这一步主要涉及单个EEL系统检索得到的命名实体,指的是不同输出的实体标识,其中必须包含实体元组元素

3.数据合并:由EEL获得的结果里往往存在重叠情况,这种情况需要被过滤以得到统一的结果,在过滤方面有四个因素需要被考虑:

a)实体频率,低于某个频率阈值的实体需要被移除。

b)重复的提及,当两个或更多的实体对应了相同的文本提及时,需要通过排序选择最可能一个。这里作者采用了频率排序的方式进行过滤。

c)重复元组的去重。

d)局部实体重叠,这里指命名实体之间的提及存在局部重叠的情况,FEEL选择保留提及长度最长的部分。

过滤过程见算法1:

实验

数据集

用于调参的数据集的统计信息如下表

单一EEL系统在各数据集上的F1结果,用于参数配置

强弱匹配情况下,各独立EEL的实验结果

最好的单一系统与FEEL集成系统的实验结果对比

其他实验细节结果请见论文原文。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架相关推荐

  1. 论文浅尝 | 通过阅读实体描述进行零样本的实体链接

    笔记整理 | 赖泽升,东南大学本科生 来源:ACL2019 动机 先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语 ...

  2. 论文浅尝 | 多内容实体和关系联合抽取的对抗训练

    链接:https://arxiv.org/pdf/1808.06876.pdf 动机 Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好 ...

  3. 论文浅尝 | 通过多原型实体指称向量关联文本和实体

    Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Emb ...

  4. 论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络

    笔记整理 | 谭亦鸣,东南大学博士 来源:ACL 20 链接:https://www.aclweb.org/anthology/2020.acl-main.578.pdf 1.介绍 图谱之间的异构差异 ...

  5. 论文浅尝 | 远程监督关系抽取的生成式对抗训练

    动机 远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据,但是其中噪声太多,影响模型的训练效果.基于 bag 建模比基于句子建模能够减少噪声的影响,但是仍然无法克服 bag 全部是错 ...

  6. 论文浅尝 | 弱监督关系抽取的深度残差学习方法

    Citation: Pawar, S., Palshikar, G. K., & Bhattacharyya, P. (2017).Relation Extraction : A Survey ...

  7. 论文浅尝 | 用于视觉推理的显式知识集成

    论文笔记整理:刘克欣,天津大学硕士 链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_ ...

  8. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  9. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

最新文章

  1. python for 循环 多线程_python:for循环中的多线程处理
  2. 各种好的开源项目-转载
  3. Mybatis字段模糊查询
  4. JAVA编写的7个规范
  5. LeetCode 769. 最多能完成排序的块
  6. WebUI Case(1): www.swt-designer.com 首页 (续)
  7. 工业机器人第三版答案韩建海_工业机器人技术(第三版)课后答案 郭洪红主编
  8. MySQL数据库恢复-勒索病毒 PLEASE_READ_ME_VVV、delete、drop,没有binlog 数据库恢复工具 持续更新2020.5.27
  9. matlab申明数值型的符号常量,实验四 MATLAB符号运算
  10. sif一线通输出协议以及代码实现
  11. 英文论文查重率怎么算?
  12. 服务器运维大屏,可视化运维大屏
  13. 揭秘:传统pos机手续费为什么比无卡支付手续费还贵!
  14. 2017淘宝嘉年华群聊玩法出炉
  15. mac键盘上符号的快捷键_Mac键盘符号实际上是什么意思?
  16. 日知录(15):记药盒的串口通信
  17. 衢州市中高级职称评审要点
  18. 微信报名怎么做_分享微信公众号搭建报名系统步骤
  19. 保存数据的时候报类型错误的原因和解决方案
  20. 信息学奥赛一本通 1404:我家的门牌号 | OpenJudge NOI 2.1 7649:我家的门牌号 | 小学奥数 7649

热门文章

  1. 利用寄存器进入栈值交换
  2. Service 的生命周期;两种启动方法和区别
  3. LINUX SHELL的神器,sed
  4. 嵌入式杂谈之文件系统
  5. TQ210——按键(中断查询法)
  6. 包与模块管理及面向对象初步
  7. 数据结构之堆:堆的介绍与python实现——12
  8. 凸多边形面积_C++计算任意多边形的面积
  9. Web框架——Flask系列之session机制(十六)
  10. LeetCode 1618. 找出适应屏幕的最大字号(二分查找)