Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.

导读:学术界近两年来十分关注如何将文本等非结构化数据和知识库等结构化数据映射到相同的语义空间中,然而在相同的语义空间中建模的过程会受到文本中实体指称(mention)歧义的影响,即文本中的同一个姓名如迈克尔·乔丹可能指的是著名的篮球运动员乔丹也可能是我们敬仰的教授乔丹,那么在语义空间中,因为他们的字面表达相同而将其建模成为统一的向量显然是不合理的。因此,文中提出了一种新的mention向量表示的学习框架Multi-Prototype Entity Mention Embedding (MPME),它可以根据实体指称所对应的词义的不同而联合文本和知识库学习到不同的表示。此外,文中提出了一种类似于语言模型的方法解决了实体指称的语义消歧问题。最后,实验部分利用实体链接任务作为MPME的应用场景,取得了当前最优的实验效果。

研究动机

当前有相当多的工作研究如何将文本和知识库进行关联建模,显然这样会为自然语言处理及知识库相关的研究任务带来比较大的性能提升。当前的研究思路可以粗略地分为两类,其一是利用深度神经网络将实体和词语直接在统一的语义空间中进行建模,但这类方法比较受限于计算复杂度以及语料的规模。其二是分别对知识库中的实体以及文本中的实体指称进行建模,并且利用 wiki 百科中的外链获取 mention entity 之间的关联,相当于在各自训练的过程中加入了一层约束用于确保他们在各自的语义空间中有相似的表达。上述两类方法都会面对同一个实体指称可能对应到多个实体的歧义问题,即文本中提到的迈克尔乔丹可能是教授也可能是运动员或其他不甚知名的人,也会面临多个实体指称对应同一个实体的歧义问题,即文本中出现的姚明和小巨人可能指的同一个人。因此本文着手解决实体指称的语义歧义问题,类似于传统的实体链接任务。

创新点

本文提出了一种新型的实体指称表示学习方法 MPME,结合文本信息以及知识库信息学习实体指称的表示;此外,文中还提出了一种基于语言模型的决策方法来进行实体指称的语义消歧。

模型

MPME 框架结构示意图

如图所示,模型可以大致分成两个部分。

其一是表示学习部分,通过 Word Embedding Knowledge Graph Embedding 对文本和知识库分别进行建模,其中每个实体指称都对应着一个实体集合,也就是它们潜在的语义。在Entity Representation Learning中,训练的目标是有相似的关联实体的实体之间更相似。在Text Representation Learning中,实体指称将和其他词汇一起通过 Skip-Gram 模型进行训练,在Mention Representation Learning中,实体指称被替换为相应的词义(sense),上下文的表示来自文本表示学习部分,实体的表示来自知识库表示学习部分,目标是得到更好的实体指称的表达sj*,使得根据上下文信息,能够确定实体指称所对应的语义(对应哪个实体)。

其二是测试场景下的消歧部分,模型会综合考虑实体指称对应的上下文信息,以及实体指称对应各个语义的统计概率分布进行计算。

实验结果

文章的目标是训练得到一组高质量的实体指称向量,仍然没有跳出表示学习的框架,因此实验部分首先比较了采用$MPME$之后,训练得到的向量的相似实体指称都有哪些,以及从 mention embedding 和相应的 entity embedding余弦距离的角度进行了分析,各项指标相对对比模型SPME提高了1%左右,这一部分就不做赘述了。

同时,文章利用 mention embedding 在实体链接任务上进行了验证,在AIDA数据集上,不管是有监督的实体链接任务还是无监督的实体链接任务,利用 MPME 均取得了相较于之前最好结果3%左右的提升。

启发

mention 之间的信息

本文中把文本和知识库分别单独进行建模,mention 的建模过程中比较多的考虑 mention entity 之间的关联,所谓的上下文更多的是以词窗口内词汇的形式出现的,而不是上下文中其他的mention,因此有可能会忽略一些关键的信息。传统的实体链接方法中比较多使用的一类是基于图的算法,其优势便在于能够更充分的发掘 mention mention 之间,mention entity 以及 entity entity 直接的结构关联信息,利用这些信息进行消歧已经足够有效(体现在实体链接任务的准确率上),那么也可以尝试利用图结构更好地学习 mention 的表示。

潜在的问题在于,假设 mention 所对应的两个歧义实体属于同一个 category,那么它们会共享十分相似的上下文,通过本文所题出的方法将不能很好的解决这个问题。比如两只都叫做旺财的狗,它们的日常表现应该会比较相似,唯一不同的可能就只有它们的主人不同,这一点需要上下文中 mention 的参与,共同建模。

未登录词的处理

实际的应用场景中,未登录mention的数目理应远多于已经训练的 mention 的数目,这样才能体现出模型或方法的泛化能力,这也为我们提出更加 general framework 提出的新的需求,或者说,训练的过程尽可能简单,所需的额外信息尽可能的少,对未登录词的发现更加友好的框架。

论文笔记整理:吴桐桐,东南大学博士生,研究方向为自然语言问答。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 通过多原型实体指称向量关联文本和实体相关推荐

  1. 论文浅尝 | 基于多原型mention向量的文本-实体联合学习

    链接:http://anthology.aclweb.org/P/P17/P17-1149.pdf   概述 在知识库和文本的联合表示中,歧义是个困扰的难题.同一个 mention 可能在不同的语境下 ...

  2. 论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

    笔记整理 | 朱珈徵,天津大学硕士 链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf 动机 从自由文本中提取实体和关系是自然语言处 ...

  3. 论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别

    Citation:Qiu, Y., Li, M., Wang, Y., Jia, Y., & Jin, X.(2018). Hierarchical Type Constrained Topi ...

  4. 论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:NAACL2019 链接:https://arxiv.org/pdf/1904.02342.pdf 本文关注如何从信息抽取结 ...

  5. 论文浅尝 | 基于潜在类别信息的实体链接

    笔记整理 | 黄一凡,东南大学本科生 来源:AAAI2020 链接:https://arxiv.org/pdf/2001.01447v1.pdf 一.简介 作者意识到在利用预训练模型进行实体链接时,往 ...

  6. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  7. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  8. 论文浅尝 | 面向单关系事实问题的中文问答模型

    来源:NLPCC 2017 论文下载地址:http://tcci.ccf.org.cn/conference/2017/papers/2003.pdf 动机 开放领域的QA问题是一个被广泛研究的问题, ...

  9. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

最新文章

  1. Sublime Text 2 安装配置插件
  2. 汇编(8086cpu): 地址寄存器
  3. TCP/IP / 网关 IP 和 DNS 服务器 IP 为什么可以一样?
  4. Hibernate 拦截器实例
  5. 荣耀智慧屏功能曝光 首发华为鸿蒙OS,荣耀智慧屏功能曝光:首发华为鸿蒙OS,全场景智慧体验...
  6. 类与对象 格式小结 java 1202
  7. 时隔一年,盘点CVPR 2019影响力最大的20篇论文
  8. C++socket编程(三)3.2 创建TCPServer设置服务信息并讲解网络字节序
  9. 对中级Linux用户有用的20个命令
  10. 实例分割和语义分割使用labelme制作的数据集如何转换为voc和coco格式的数据
  11. 《流畅的Python》读书笔记——接口:从协议到抽象基类
  12. VS2015产品密钥
  13. 服务器光纤存储系统,光纤存储服务器 配置
  14. html策略类文字游戏,中国唯一 一款运营超20年的网游竟然是款纯文字游戏
  15. 报错信息为:value larger than specified precision allowed for this column
  16. C#调用Outlook发送邮件
  17. 不得不学,从零到一搭建ELK日志,Docker环境下部署 logstash工具
  18. 智能电话机器人--基于 UniMRCP 实现讯飞 ASR MRCP Server
  19. 论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》
  20. 网站故障和安全事件的应急预案

热门文章

  1. C++中对多态的理解
  2. Linux驱动小技巧 | 利用DRIVER_ATTR实现调用内核函数
  3. 嘉立创又搞大事情了,与你我相关!
  4. U-Boot之代码调试
  5. 苏州,遇见NXP痞子衡
  6. mysql innodb 死锁_mysql innodb 死锁分析
  7. KEIL编译生成bin文件,并输出内存使用情况
  8. python队列只能一个个读取吗_python队列Queue的详解
  9. matlab fftshift_数字信号处理没有Matlab?用Python一样很爽
  10. skywalking 安装_SkyWalking全链路追踪利器