这篇paper展示了一种从预训练的语言模型（例：BERT，GPT-2/3）通过无监督训练构建知识图谱（KGs）的idea，想法还是很新奇的，搭建了LM（Language Model）和KG（Knowledge Graph）之间的桥梁。

知识图谱的基本单位，是“实体（Entity）-关系（Relationship）-实体（Entity）”构成的三元组，这也是知识图谱的核心。

构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含：知识储存、信息抽取、知识融合、知识计算，四个阶段。

知识存储： 针对构建知识图谱设计底层的存储方式，完成各类知识的存储，包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
信息抽取： 从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达。
知识融合： 在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；
知识计算： 对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

可以发现，传统KG的建立需要大量的人工参与，由人工手动添加规则和知识。现在比较通用的KGs（Wikidata、NELL）都是以监督或半监督的方式构建的，还是需要人类创建知识。

随着NLP的迅速发展，BERT，GPT-2/3等大型预训练LM从大规模语料库中自动获取知识，蕴含的语言知识能够很好地改进下游的NLP任务，这篇paper就提出了一种以无监督的方法将LM中包含的知识生成KGs的方法。

paper中设计一种名叫MAMA的无监督方法，通过在文本语料库上对预训练过的LM进行一次前向传播来生成KG的基本单位，也就是实体-关系-实体的三元组。MAMA有两个阶段：Match和Map，Match阶段通过将文本语料库中的facts与预训练LM中的知识进行匹配，生成一组candidate facts，Map阶段通过将candidate facts映射到fixed KG schema和open schema生成open KG。

Match

Match阶段的目标就是将预训练的LM中存储的知识与语料库中的facts进行匹配，每个facts都被表示为一个triplet (head, relation, tail)。

Match设计了一个beam search用来匹配candidate facts，对于一个句子中的每一个(h, t)，根据attention matrix保持对k-best的匹配。

Map

Map阶段将Match阶段匹配的candidate facts生成一个open KG，其中包括两个部分：a) 映射在fixed schema中的candidate facts，b) open schema中未映射的candidate facts。

参考文献

知乎：ICLR2020-LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS
知乎：知识图谱构建流程详解

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结相关推荐

Interactive natural language question answering over knowledge graphs论文导读
论文导读目录 Abstract introduction 1 抛砖引的玉(砖见于图谱构建综述吧) 2 现有方法介绍 3 问题驱动 4 挑战与贡献 Interaction approach overv ...
论文阅读：Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA
论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA 来源:ACL 2 ...
[读论文]-Mask-Predict: Parallel Decoding of Conditional Masked Language Models阅读报告-机器翻译
1 Introduction 大多数机器翻译系统使用顺序译码的策略,即单词是一个一个预测的.本文展示了一个并行译码的模型,该模型在恒定译码迭代次数下得到翻译结果.本文提出的条件掩码语言模型(CMLMS ...
Paper小计：Language Models as Knowledge Bases?
Abstract 大型文本语料库上的预训练语言模型提升下游NLP任务表现,学习语言知识,也可能存储了训练数据之间的关系知识,可能能够回答"填空"语句的查询. 与结构化知识库对 ...
Paper简读 - ProGen2: Exploring the Boundaries of Protein Language Models
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/12 ...
Re26：读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
诸神缄默不语-个人CSDN博文目录论文名称:Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (不要停下来啊!) ...
【知识图谱综述】Knowledge Graphs: A Survey
知识图谱综述本文主要在阅读文章Knowledge Graphs. ACM Comput. Surv., 54(4): 1–37. 2021的基础上进行归纳总结,涉及原理知识较浅,旨在帮助对知识图谱进 ...
【Sentence Simplification via Large Language Models 论文精读】
Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...
【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications
A Survey on Knowledge Graphs Representation, Acquisition and Applications 前言 Abstract 1. INTRODUCTIO ...

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

Match

Map

参考文献

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结相关推荐

最新文章

热门文章