近年来,预训练语言模型(PLM)在各种下游自然语言处理任务中表现出卓越的性能,受益于预训练阶段的自监督学习目标,PLM 可以有效地捕获文本中的语法和语义,并为下游 NLP 任务提供蕴含丰富信息的语言表示。然而,传统的预训练目标并没有对文本中的关系事实进行建模,而这些关系事实对于文本理解至关重要。

在这篇被ACL 2021主会录用的文章中,清华大学联合腾讯微信模式识别中心与伊利诺伊大学厄巴纳香槟分校(UIUC),提出了一种新颖的对比学习框架ERICA,帮助PLM深入了解文本中的实体及实体间关系。

具体来说,作者提出了两个辅助性预训练任务来帮助PLM更好地理解实体和实体间关系:

(1)实体区分任务,给定头实体和关系,推断出文本中正确的尾实体;

(2)关系判别任务,区分两个关系在语义上是否接近,这在长文本情景下涉及复杂的关系推理。

实验结果表明,ERICA在不引入额外神经网络参数的前提下,仅仅对PLM进行少量的额外训练,就可以提升典型PLM(例如BERT 和 RoBERTa)在多种自然语言理解任务上(包括关系抽取、实体类别区分、问题回答等)的性能。尤其是在低资源(low-resource)的设定下,性能的提升更加明显。

论文链接:
https://arxiv.org/abs/2012.15022

开源链接:
https://github.com/thunlp/ERICA

1 问题背景

传统的预训练目标没有对文本中的关系事实进行显式建模,而这些关系事实对于理解文本至关重要。为了解决这个问题,一些研究人员试图改进 PLM 的架构、预训练任务等,以更好地理解实体之间的关系。

但是它们通常只对文本中的句子级别的单个关系进行建模,不仅忽略了长文本场景下多个实体之间的复杂关系,也忽略了对实体本身的理解,例如图1中所展现的,对于长文本来说,为了让PLM更加充分理解地单个实体,我们需要考虑该实体和其他实体之间的复杂关系;而这些复杂的关系的理解通常涉及复杂的推理链,往往需要综合多个句子的信息得出结论。

针对这两个痛点,本文提出了实体区分任务和关系区分任务来增强PLM对于实体和实体间关系的理解。

2 文档级预训练数据收集

ERICA的训练依赖于大规模文档级远程监督数据,该数据的构造有三个阶段:首先从wikipedia中爬取文本段落,然后用命名实体识别工具(例如spacy)进行实体标注,将所有获得的实体和wikidata中标注的实体对应上,并利用远程监督(distant supervision)信号获得实体之间可能存在的关系,最终保留长度在128到512之间,含有多于4个实体,实体间多于4个远程监督关系的段落。注意这些远程监督的关系中存在大量的噪声,而大规模的预训练可以一定程度上实现降噪。作者也开源了由100万个文档组成的大规模远程监督预训练数据。

3 实体与实体间关系的表示

鉴于每个实体可能在段落中出现多次,并且每次出现时对应的描述(mention)可能也不一样,作者在使用PLM对tokenize后的段落进行编码后,取每个描述的所有token均匀池化后的结果作为该描述的表示,接着对于全文中该实体所有的描述进行第二次均匀池化,得到该实体在该文档中的表示;对于两个实体,它们之间的关系表示为两个实体表示的简单拼接。以上是最简单的实体/实体间关系的表示方法,不需要引入额外的神经网络参数。作者在文中还探索了其它的表示方法,并验证了所有方法相比baseline都有一致的提升。

4 实体区分任务

实体区分任务

实体区分任务旨在给定头实体和关系,从当前文档中寻找正确的尾实体。例如在上图中,Sinaloa和Mexico具有country的远程关系,于是作者将关系country和头实体Sinaloa拼接在原文档的前面作为提示(prompt),在此条件下区分正确的尾实体的任务可以在对比学习的框架下转换成拉近头实体和正确尾实体的实体表示的距离,推远头实体和文档中其它实体(负样本)的实体表示的距离,具体的公式如下所示:

5 关系区分任务

关系区分任务

关系区分任务旨在区分两个关系的表示在语义空间上的相近程度。由于作者采用文档级而非句子级的远程监督,文档中的关系区分涉及复杂的推理链。具体而言,作者随机采样多个文档,并从每个文档中得到多个关系表示,这些关系可能只涉及句子级别的推理,也可能涉及跨句子的复杂推理。之后基于对比学习框架,根据远程监督的标签在关系空间中对不同的关系表示进行训练,如前文所述,每个关系表示均由文档中的两个实体表示构成。正样本即具有相同远程监督标签的关系表示,负样本与此相反。作者在实验中还发现进一步引入不具有远程监督关系的实体对作为负样本可以进一步提升模型效果。由于进行对比训练的两个关系表示可能来自于多个文档,也可能来自于单个文档,因此文档间/跨文档的关系表示交互都得到了实现。巧妙的是,对于涉及复杂推理的关系,该方法不需要显示地构建推理链,而是“强迫”模型理解这些关系并在顶层的关系语义空间中区分这些关系。具体的公式如下所示:

为了避免灾难性遗忘,作者将上述两个任务同masked language modeling (MLM)任务一起训练,总的训练目标如下所示:

6实验结果

ERICA的训练不需要引入除了PLM之外的任何参数,并且对于任意模型均能够适配,具体的,作者采用了两个经典的PLM:BERT和RoBERTa,并对其进行一定时间的post-training,最后在文档级关系抽取、实体类别区分、问题回答等任务上进行了测试,并对比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基线模型,验证了ERICA框架的有效性。具体结果如下:

a) 文档级关系抽取,模型需要区分文档中的多个实体之间的关系,这需要PLM对实体间关系有较好的理解。

文档级关系抽取(DocRED)

b) 实体类别区分,模型需要区分文本中的实体的具体类别,这需要PLM对实体本身有较好的理解。

实体类别区分(FIGER)

c) 问题回答,作者测试了两种常见的问题回答任务:多选问答(multi-choice QA)和抽取式问答(extractive QA)。这需要PLM对实体和实体间关系有较好的理解。

多选问答(multi-choice QA)

抽取式问答(extractive QA)

7 分析

a) 消融分析(ablation study)。作者对ERICA框架中的所有组成成分进行了细致的分析,并证明了这些组成成分对于模型整体效果的提升是缺一不可的。

b) 可视化分析。作者对经过ERICA训练前后的PLM对实体和实体间关系的表示进行了可视化,结果如下图所示。通过ERICA的对比学习训练,PLM对于同类别的实体/实体关系的表示有明显的聚类现象,这充分验证了ERICA能够显著增强PLM对实体和实体间关系的理解。

c) 此外,作者分析了远程监督关系的多样性/预训练文档数量对于模型效果的提升。实验结果发现,更加多样的远程监督关系与更大的预训练数据集对于性能的提升有积极的作用。

d) 除了使用均匀池化的方式来获得实体/关系表示,作者也尝试使用entity marker的表示方法来测试模型的性能。实验结果证明,ERICA对各种实体/关系表示方法均适用,进一步验证了该架构的通用性。

8 总结

在本文中,作者提出了ERICA框架,通过对比学习帮助PLM提高实体和实体间关系的理解。作者在多个自然语言理解任务上验证了该框架的有效性,包括关系提取、实体类别区分和问题问答。实验结果表明ERICA显著优于所有基线模型,尤其是在低资源的设定下,这意味着 ERICA 可以更好地帮助 PLM捕获文本中的相关事实并综合有关实体及其关系的信息。

ERICA:提升预训练语言模型实体与关系理解的统一框架相关推荐

  1. 直播 | ACL 2021论文解读:提升预训练语言模型实体与关系理解的统一框架

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  2. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...

    转自:机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日,阿里达摩院发 ...

  3. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG

    作者|机器之心编辑部 来源|机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...

  4. PLM是做题家吗?一文速览预训练语言模型数学推理能力新进展

    ©作者 | 张北辰 单位 | 中国人民大学高瓴人工智能学院 数学推理能力是人类智能的一项非常重要又富有挑战性的能力.尽管在各类自然语言相关的理解和生成任务等中取得了良好的效果,预训练语言模型可以准确地 ...

  5. 微软统一预训练语言模型UniLM 2.0解读

    微软研究院在2月底发布的UniLM 2.0(Unified Language Model \ 统一语言模型)文章,相比于19年上半年发布的UniLM 1.0,更加有效地整合了自然语言理解(NLU)与自 ...

  6. 首个金融领域的开源中文预训练语言模型FinBERT了解下

    背景及下载地址 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0.据我们所知,这是国内首个在金 ...

  7. 开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?

    近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本.2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过"超大规模无监督语料上的预训练语言 ...

  8. 开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

    1 背景及下载地址 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0.相对于Google发布的 ...

  9. 论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

    论文笔记整理:陈想,浙江大学博士,研究方向为自然语言处理,知识图谱. Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pre ...

最新文章

  1. MaskGAN:谷歌大脑让AI学做完形填空的新尝试
  2. TensorFlow patch块划分(transpose and reshape)
  3. 如何成为个好Java程序员
  4. HelloMyBLOG!!!
  5. 埃尔米特(Hermite)插值
  6. 十一. Python基础(11)—补充: 作用域 装饰器
  7. 2003引脚功能电压_《线性稳压器系列》1:从线性稳压器的原理,功能及类型说起......
  8. 关于使用代理解决跨域问题的原理
  9. use redis instance in docker hub
  10. Java 定制工具库 —— Print(import static)
  11. 几款常用的Git图形化工具
  12. 学习黑马JVM的笔记
  13. 1的阶乘加到100的阶乘
  14. 安卓前端和python后端_在移动应用程序中结合html前端和python“后端”
  15. oracle analyze any,Oracle 工具:Analyze
  16. 手机连上蓝牙耳机没有声音
  17. turtle(海龟)库的使用
  18. 传统单节点网站的 Serverless 上云
  19. outlook修改服务器端口号,Outlook 设置教程
  20. 详细解读目标检测经典算法-SSD

热门文章

  1. juc java_深入理解JUC(java.util.concurrent)
  2. ## 使用MapReduce程序完成相关数据预处理
  3. Eclipse安装spring tool suite(4.9.0版本)
  4. Pytorch optimizer.step() 和loss.backward()和scheduler.step()的关系与区别 (Pytorch 代码讲解)
  5. seaborn heatmap热力图用法
  6. 4年级计算机 设计贺卡教案,四年级上册信息技术《小贝的贺卡》教学设计
  7. 看完就忘!看完就忘!我感觉我要废了
  8. ECMAScript 和 JavaScript 的未来
  9. 8月书讯:喜悦翩然而至
  10. latex 公式转为 word 公式