这篇paper展示了一种从预训练的语言模型(例:BERT,GPT-2/3)通过无监督训练构建知识图谱(KGs)的idea,想法还是很新奇的,搭建了LM(Language Model)和KG(Knowledge Graph)之间的桥梁。

知识图谱的基本单位,是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含:知识储存、信息抽取、知识融合、知识计算,四个阶段。

  1. 知识存储: 针对构建知识图谱设计底层的存储方式,完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
  2. 信息抽取: 从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
  3. 知识融合: 在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
  4. 知识计算: 对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

可以发现,传统KG的建立需要大量的人工参与,由人工手动添加规则和知识。现在比较通用的KGs(Wikidata、NELL)都是以监督或半监督的方式构建的,还是需要人类创建知识。

随着NLP的迅速发展,BERT,GPT-2/3等大型预训练LM从大规模语料库中自动获取知识,蕴含的语言知识能够很好地改进下游的NLP任务,这篇paper就提出了一种以无监督的方法将LM中包含的知识生成KGs的方法。

paper中设计一种名叫MAMA的无监督方法,通过在文本语料库上对预训练过的LM进行一次前向传播来生成KG的基本单位,也就是实体-关系-实体的三元组。MAMA有两个阶段:Match和Map,Match阶段通过将文本语料库中的facts与预训练LM中的知识进行匹配,生成一组candidate facts,Map阶段通过将candidate facts映射到fixed KG schema和open schema生成open KG。

Match

Match阶段的目标就是将预训练的LM中存储的知识与语料库中的facts进行匹配,每个facts都被表示为一个triplet (head, relation, tail)。

Match设计了一个beam search用来匹配candidate facts,对于一个句子中的每一个(h, t),根据attention matrix保持对k-best的匹配。

Map

Map阶段将Match阶段匹配的candidate facts生成一个open KG,其中包括两个部分:a) 映射在fixed schema中的candidate facts,b) open schema中未映射的candidate facts。

参考文献

  1. 知乎:ICLR2020-LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS
  2. 知乎:知识图谱构建流程详解​

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结相关推荐

  1. Interactive natural language question answering over knowledge graphs论文导读

    论文导读 目录 Abstract introduction 1 抛砖引的玉(砖见于图谱构建综述吧) 2 现有方法介绍 3 问题驱动 4 挑战与贡献 Interaction approach overv ...

  2. 论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA

    论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA 来源:ACL 2 ...

  3. [读论文]-Mask-Predict: Parallel Decoding of Conditional Masked Language Models阅读报告-机器翻译

    1 Introduction 大多数机器翻译系统使用顺序译码的策略,即单词是一个一个预测的.本文展示了一个并行译码的模型,该模型在恒定译码迭代次数下得到翻译结果.本文提出的条件掩码语言模型(CMLMS ...

  4. Paper小计:Language Models as Knowledge Bases?

    Abstract 大型文本语料库上的 预训练语言模型提升下游NLP任务表现,学习语言知识,也可能 存储了训练数据之间的 关系知识,可能能够回答"填空"语句的查询. 与结构化知识库对 ...

  5. Paper简读 - ProGen2: Exploring the Boundaries of Protein Language Models

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/12 ...

  6. Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

    诸神缄默不语-个人CSDN博文目录 论文名称:Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (不要停下来啊!) ...

  7. 【知识图谱综述】Knowledge Graphs: A Survey

    知识图谱综述 本文主要在阅读文章Knowledge Graphs. ACM Comput. Surv., 54(4): 1–37. 2021的基础上进行归纳总结,涉及原理知识较浅,旨在帮助对知识图谱进 ...

  8. 【Sentence Simplification via Large Language Models 论文精读】

    Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...

  9. 【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications

    A Survey on Knowledge Graphs Representation, Acquisition and Applications 前言 Abstract 1. INTRODUCTIO ...

最新文章

  1. python querystring encode_百分号 json
  2. Annu. Rev. Genet:植物微生物组——系统性见解与展望
  3. APP元素定位操作API
  4. SpringMVC中使用作用域对象完成数据的流转
  5. javascript练习----复选框全选,全不选,反选
  6. java多线程【线程安全问题】
  7. 基于OpenCV实现图像线性变化
  8. Android开发笔记(九十六)集合动画与属性动画
  9. 在计算机应用领域中媒体是指,在计算机中,媒体是指什么
  10. 初级第二课——统计总分
  11. _MSC_VER简介与使用
  12. Nsight Compute Profile Kernel无法定位源码问题
  13. 山东联通中兴B860 AV1.1机顶盒 刷机问题解决
  14. 11个小游戏教你玩趣编程,在玩中也能学!
  15. flutter 复制粘贴默认英文显示问题
  16. 【项目整理】安卓应用商店评论监控平台
  17. 农夫山泉股份有限公司搜索引擎关键词分析
  18. Zigbee安全概述
  19. C++计算行列式(函数)
  20. 丹琦女神出品|开放域问答综述

热门文章

  1. 2019年春季学期第二周作业
  2. 《linux就该这么学》第七节课:文件的各种权限以及linux分区命名规则
  3. 20172319 2018.10.12《Java程序设计教程》第6周课堂实践(补写博客)
  4. sql注入问题-视图-事物-以及存储过程(可视化工具)
  5. 两个排序数组的中位数
  6. 设计模式(4)--AbstractFactory(抽象工厂模式)--创建型
  7. python核心编程 第八章
  8. 每天CookBook之JavaScript-072
  9. SEO优化工具之——Google Adwords 关键词工具
  10. sql server 2008 报表部署:提示输入用户名密码