论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

论文笔记整理：陈想，浙江大学博士，研究方向为自然语言处理，知识图谱。

Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

来源：ICLR2020

链接：https://arxiv.org/abs/1912.09637

Motivation

近年来在大规模数据集上预训练的的语言模型（以BERT和XLNET为代表）在多项NLP任务上达到SOTA水平。研究发现预训练，过程可以使模型学到语言的语法和语义信息并迁移至下游任务。有趣的是，经过预训练的模型在需要基础语言和对现实世界进行推理的任务上也能获得较好的效果。

但是，现有的预训练目标通常是在token级别定义的，并没有明确的以实体为中心的知识建模。在本文中，作者调查了是否可以进一步实施预训练模型，以专注于现实世界实体的百科知识，以便它们可以更好地从自然语言中捕获实体信息，并应用于改进与实体相关的NLP任务。

与此同时，目前的预训练语言模型通常专注于基于最大似然估计（MLE）的Masked Language Model（MLM）作为目标任务，即采用的“生成式模型”。然而MLM的损失计算都是基于token-level的，对于高层次的抽象理解较难学习到。

因此本文提出了尝试将判别式的对比学习目标函数作为NLP预训练的目标，具体的，采用Replaced Entity Detection（RED），基于维基百科用相同类型的其他实体的名称替换原始文档中的实体提及，训练模型区分正确的实体提及和随机选择的其他实体提及以设法让模型能够理解entity-level的特征。相比先前的工作采用的利用外部知识库获取实体知识的方法，该方法能够直接从非结构化文本中获取真实世界的知识。

Model/Methods

（1）数据准备

使用英文维基百科作为训练数据，文档中的实体根据维基百科中的锚链接和Wikidata（三元组知识库）的实体名来识别。即首先检索由锚链接注释的实体，然后通过字符串匹配它们在Wikidata中的名称，以检索其他提到这些实体的地方。通过此方法可以使用现成的实体链接工具，很容易扩展至其他语料库

（2）替换策略

如图1所示，进行实体替换时首先需通过Wikidata知识库确定其实体类型，并随机选取该实体类型下的其他实体替换原实体，每个实体会通过同样的方式进行10次替换，生成10个不同的负例。相邻实体不会被同时替换，以避免多个连续的负例组成了符合事实的描述。

（3）训练目标

对于在上下文C中提到的某个实体e，我们训练模型进行二进制预测，以指示该实体是否已被替换：

Experiments

本文在事实补全、四个与实体相关的问题回答数据集（WebQuestions，TriviaQA，SearchQA和QuasarT）和一个标准的细粒度实体类型数据集设置了实验。实验及结果介绍如下：

（1）事实补全任务

基于Wikidata中的事实三元组，筛选了10种重要关系，人工构建三元组的自然语言表述，以此训练模型进行实体补全。本文对每种关系构建了1000例数据，对比了使用生成式语言模型目标进行预训练的原始BERT和GPT-2，使用传统三元组补全任务的评估指标hits@10进行评估，结果如下：

（2）QA

本文在4个基于实体答案的开放领域问答数据集上进行了微调实验，如表4所示，WKLM在3个QA任务上达到了SOTA，说明了基于实体替换的判别式对比学习的有效性。

（3）实体类型判别

该任务的目标是从自然语言句子中发现所提到的实体的细粒度类型信息，模型在远程监督训练数据上进行了最小化二元交叉熵损失的训练

（4）消融研究

该部分主要验证本文提出的实体替换目标函数相对于原始BERT的效果有明显提升，以及不同程度上搭配BERT原始的MLM loss对应的效果。

结果表明提出的实体替换目标有效提高了模型在QA和实体类型判别任务上的性能，而对于遮蔽语言模型任务，过高或过低的遮蔽比例均会不同程度上损害模在QA任务上的表现。

Conclusion

本文提出将判别式的对比学习目标函数作为NLP预训练目标，通过完善的实验证明了这一训练范式的有效性和可行性，即对于更注重实体相关信息的NLP任务，采取本文提出的对比式实体替换目标进行预训练优于生成式的遮蔽语言模型预训练。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型相关推荐

论文浅尝 - ICLR2020 | Abductive Commonsense Reasoning
论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱.自然语言处理. 链接:https://arxiv.org/pdf/1908.05739.pdf 动机尽管长期以来人们一直认为归因是人们在自然 ...
论文浅尝 | Data Intelligence 已出版的知识图谱主题论文
本文转载自公众号:DI数据智能. 知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务.Data Intelligence执行主编.东南大学计算机科学 ...
论文浅尝 | 面向自动问题生成的跨语言训练
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:ACL 2019 链接:https://128.84.21.199/pdf/1906.02525.pdf 动机现有问题生成 ...
论文浅尝-综述 | 基于强化学习的知识图谱综述
转载公众号 | 人工智能前沿讲习论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
论文浅尝 | MulDE：面向低维知识图嵌入的多教师知识蒸馏
笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱. Motivation 为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨 ...
论文浅尝 - AAAI2020 | 通过知识库问答改善知识感知对话生成
论文笔记整理:胡楠,东南大学博士. 来源:AAAI 2020 动机现在的将外部知识整合到对话系统中的研究仍然存在一定缺陷.首先,先前的方法难以处理某些语句的主语和关系,比如当语句中的相关实体彼此相距 ...
论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习
论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...
论文浅尝 - ICLR2020 | 用于半监督分类的图形推理学习
论文笔记整理:周虹廷,浙江大学研究生.研究方向:知识图谱,图表示学习等. 论文链接:https://arxiv.org/pdf/2001.06137.pdf 本文是发表在ICLR2020上针对图数据做 ...
论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入
论文笔记整理:谭亦鸣,东南大学博士生. 来源:ICLR2020 链接:https://openreview.net/pdf?id=BkxSmlBFvr KG embedding(KGE)模型的目标是学 ...

论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型相关推荐

最新文章

热门文章