论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。


会议:ICLR 2020

链接:https://arxiv.org/pdf/1912.09637.pdf

Abstract

预训练语言模型不仅在传统的语言学任务上取得了很好的表现,在一些涉及到背景知识的任务上,也取得了一些提升。本文首先在zero-shot fact completion任务上探究了预训练语言模型捕获知识的能力,并提出了一种弱监督的训练目标,使模型学习到更多的背景知识。在新的预训练方式下,模型在fact completion任务上取得了显著的提升。下游任务表现中,在QA和entity typing两个任务上分别比BERT提升2.7和5.7个百分点。

Introduction

预训练语言模型例如ELMo, BERT和XLNet在大量的NLP任务上取得了新的SOTA。在大规模的自监督训练过程中,预训练模型学习到了句法和语义的信息。有趣的是,在一些需要背景知识和推理的任务上,预训练模型也取得了不错的效果。比如在WNLI,RECoRD和SWAG任务上,预训练模型都取得了SOTA,说明模型在预训练中也学习到了背景知识。本文首先在zero-shot fact completion任务上评估预训练模型捕获知识的能力,并提出了一种新的弱监督的训练目标。实验证明该训练目标下,模型可以捕获到更多的real-world knowledge。

Method

本文设计了一种弱监督训练目标,给定输入文本,首先将原始文本链接到维基百科的实体,然后将部分实体随机替换为同类型其他实体。训练时模型对文本中实体是否替换进行预测,损失函数为二元交叉熵损失函数,即

训练数据为所有的英文的维基百科文本,文本中的实体由anchor link标注好。除了对实体进行替换,训练目标还保留了BERT中mask language modeling目标,即对字符进行随机替换,但是替换的比例下降由15%降低为5%。模型架构上,选择了12层的BERT base。

图1 实体替换策略

Experiments

1. Zero-shot fact completion

数据集来源于Wikidata,每条数据为一个三元组,例如{Paris, Capitalof, France}。去除尾实体,将三元组转换成query的形式,例如the capital of France is ? 并让模型对尾实体进行预测。评估指标采用Hits@10。这里的zero-shot指的是模型只有预训练过程,没有在具体任务上微调。

实验结果如表1所示,本文的模型在10个relation中的8个中达到了最佳。

表1 zero-shot fact completion实验结果

2. Question answering

实验在以下4个数据集上进行:WebQuestions、Trivial QA、Quasar-T、SeachQA;对比的baseline有:DrQA、、DSQA、Evidence Aggregation、  BERTserini、OROA。训练过程即为对模型参数的微调。

实验结果如表2所示,本文的模型在大多数数据集上都比Baseline方法有所提升。

表2 QA实验结果

3. Entity typing

实验采用了FIGER数据集,对比了ERNIE模型、BERT、LSTM+Hand-craft、Attentative+Hand-craft。实验结果如表3所示,ERNIE作为同样融入知识的模型,比BERT提升了5.15%,而本文的模型在BERT的基础上提升了5.68%。

表3 Entity typing实验结果

Conclusion

本文提出了一种弱监督方法,使预训练模型学习到entity-level的知识。实验证明相比于传统的预训练模型,本文的模型可以从非结构化文本中更好地学习到entity-level的知识。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 融入知识的弱监督预训练语言模型相关推荐

  1. 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

    笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...

  2. 论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

    论文笔记整理:陈想,浙江大学博士,研究方向为自然语言处理,知识图谱. Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pre ...

  3. 论文浅尝 | ICLR 2020 - 图神经网络的预训练策略

    论文笔记整理:杨帆,浙江大学计算机学院. 动机 现有的用于图结构的预训练方法要么只关注node-level,导致在图表示空间没有区分度,要么只关注graph-level,导致在节点表示空间没有区分度. ...

  4. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  5. 论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

    本文作者 | 陈想(浙江大学).张宁豫(浙江大学).谢辛(陈想).邓淑敏(浙江大学)姚云志(浙江大学).谭传奇(阿里巴巴),黄非(阿里巴巴),司罗(阿里巴巴),陈华钧(浙江大学) 接收会议 | WWW ...

  6. 论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

    笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱 论文链接:https://www.aaai.org/AAAI21Papers/AAAI-10252.BianN.pdf 发表会议: ...

  7. 【论文精度】AutoBERT-Zero (使用NAS搜索预训练语言模型)

    AutoBERT-Zero 论文地址: https://arxiv.org/pdf/2107.07445.pdf Abstract ​ 基于 Transformer 的预训练模型,如 BERT 在很多 ...

  8. 论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

    论文笔记整理:王狄烽,南京大学硕士,研究方向为关系抽取.知识库补全. 链接:https://arxiv.org/pdf/1903.01306.pdf 发表会议:NAACL2019 动机 现有的利用远程 ...

  9. 论文浅尝 | 动态知识图谱对齐

    论文笔记整理:谭亦鸣,东南大学博士生 来源:AAAI'21 链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585 概述 本文提出了一种动态 ...

最新文章

  1. 安卓首页图片轮播效果(淘宝、京东首页广告效果)
  2. python File write()方法
  3. 剖析IE浏览器子系统的性能权重
  4. python多线程同步与互斥_python多线程编程(3): 使用互斥锁同步线程
  5. 基础计算机b卷,计算机应用基础B卷.doc
  6. 爱国者首款手机正式上市 零售价不超2000元
  7. 控件必须放在具有 runat=server 的窗体标记内错误的解决方法
  8. 打破定式,突破屏障,走出自己的创意舒适区(转)
  9. eclipse修改java编译的版本
  10. 入门必学 | R语言数据集结构的解读指南
  11. ipv6overipv4+linux,IPv4 over IPv6 的配置
  12. 【Python】使用分隔符拆分字符串
  13. python 相似形态 股票_比对相似k线软件 python比对股市k线相似性
  14. Python爬虫实例--新浪热搜榜[正则表达式]
  15. excel分类_Excel 的10个神奇功能,你会用几个?
  16. 【PC】如何导出windows锁屏壁纸
  17. VS Code全局搜索
  18. MySQL备份和还原操作
  19. Windows服务器IIS搭建网站
  20. HTML5期末大作业:电商购物网站设计——电商购物网站设计(55页) 电商网页设计制作 简单静态HTML网页作品 购物网页作业成品 学生商城网站模板

热门文章

  1. select()函数以及FD_ZERO、FD_SET、FD_CLR、FD_ISSET
  2. linux下设定动态库路径的命令-error while loading shared libraries: xxx.so.x错误的原因和解决办法
  3. git命令:修改已经commit的注释
  4. MinGW与MSVC编译的区别
  5. 你为什么喜欢VIM?
  6. 工厂好的html页面,jquery中被誉为工厂函数的是什么?
  7. c_str()的用法
  8. xgboost分类_XGBoost(Extreme Gradient Boosting)
  9. oschina mysql limit_Mysql中limit的用法
  10. Chapter7-4_來自獵人暗黑大陸的模型 GPT-3