文章目录

  • 摘要:
  • 一、简介
  • 二、Background
    • 2.1 Transfer Learning and Supervised Pre-Training
    • 2.2 Self-Supervised Learning and Self-Supervised Pre-Training
  • 三、Transformer and Representative PTMs
    • 3.1 Transformer
    • 3.2 GPT
    • 3.3 BERT
    • 3.4 After GPT and BERT
  • 4 Designing Effective Architecture
    • 4.1 Unified Sequence Modeling
    • 4.2 Cognitive-Inspired Architectures
    • 4.3 More Variants of Existing PTMs

摘要:

BERT和GPT等大规模预训练模型(PTMs)最近取得了巨大的成功,成为人工智能领域的一个里程碑。由于训练前目标复杂,模型参数巨大,大规模ptm能够有效地从大量标记和未标记数据中获取知识。通过将知识存储到巨大的参数中,并对具体的任务进行微调,将丰富的知识隐式编码到巨大的参数中,可以使下游的各种任务受益,这一点已经通过实验验证和实证分析得到了广泛的证明。现在人工智能社区的共识是采用ptm作为下游任务的骨干,而不是从头开始学习模型。在本文中,我们深入研究了前训练的历史,特别是它与迁移学习和自我监督学习的特殊关系,以揭示前训练在人工智能发展光谱中的关键地位。此外,我们全面回顾了PTMs的最新突破。这些突破是由计算能力的激增和数据可用性的增加所驱动的,面向四个重要方向:设计有效的架构,利用丰富的上下文,提高计算效率,以及进行解释和理论分析。最后,讨论了PTMs的一系列开放性问题和研究方向,希望本文的观点能对今后的经颅磁刺激研究起到启发和推动作用。

一、简介

前面的都是彩虹屁,不用怎么看。

“罗马不是一天建成的”——PTMs在取得最新的成功之前也经历了很长时间的发展。为此,我们试图追溯PTMs的发展历史,绘制其在人工智能光谱中的位置,从而清晰地理解PTMs的核心研究问题。然后,我们介绍各种最新的ptm的细节,以下是目前正在推进的四项重要内容,包括设计有效的架构,利用丰富的上下文,提高计算效率,以及进行解释和理论分析。通过将PTMs的当前发展与历史背景相结合,我们讨论了几个有待解决的问题,并总结了PTMs未来的发展方向。希望本文的工作能够对PTMs的进一步发展起到一定的推动作用。在下面,我们将介绍预训练的背景在第二节和第三节,在第四节讲下PTMs模型架构,在第五节的用多源异构数据使用PTMs,在第六节计算效率优化的PTMs,在第七节进行理论分析。最后,我们将简要讨论一系列开放的问题和未来更好的PTMs的有希望的方向。

二、Background

虽然有效的PTMs最近得到了研究人员的关注,但预训练并不是一种新的机器学习工具。事实上,作为一种典型的机器学习范式,预训练已经发展了几十年。在本节中,我们将介绍AI领域中预培训的发展,从早期的监督式预培训到目前的自我监督式预培训,从而对PTMs的背景有一个简单的了解。

2.1 Transfer Learning and Supervised Pre-Training

预训练的早期努力主要涉及迁移学习。迁移学习的研究很大程度上是由于人们可以依靠以前学习的知识来解决新的问题,甚至取得更好的结果。更正式地说,迁移学习的目的是从多个源任务中获取重要的知识,然后将这些知识应用到目标任务中。

在迁移学习中,源任务和目标任务可能具有完全不同的数据域和任务设置,但处理这些任务所需的知识是一致的。因此,选择一种可行的方法将知识从源任务转移到目标任务是很重要的。为此,各种预训练方法被提出作为源任务和目标任务之间的桥梁。具体来说,这些方法首先对多个源任务的数据进行预训练,对知识进行预编码,然后将预编码的知识转移到目标任务的训练模型中。

在迁移学习中,特征迁移和参数迁移是两种被广泛研究的预处理方法。特征转移方法对有效的特征表示进行预处理,对跨领域和跨任务的知识进行预编码。通过将这些预处理的特征表示注入目标任务中,可以显著提高目标任务的建模性能。参数传递方法遵循一个直观的假设,即源任务和目标任务可以共享模型参数或超参数的先验分布。因此,这些方法将知识预先编码为共享的模型参数,然后利用目标任务的数据对预先训练的参数进行微调,从而实现知识的传递。

在一定程度上,表示传递和参数传递是PTM的基础。作为自然语言处理(NLP)任务的输入,Word embeddings是建立在特征转移框架上的。受参数传递的启发,预先训练的cnn被应用为最先进的CV模型的骨干。最近一些著名的PTM也基于表示传输和参数传输,如ELMo和BERT分别应用表示传输和参数传输。

与传统的机器学习模型相比,深度神经模型具有更多的参数,具有更好的拟合复杂数据的能力。因此,从AlexNet到后来的VGGand GoogleNet,这些神经网络的架构越来越深入,性能也越来越好。虽然网络深度很重要,但训练一个深度的网络并不容易,因为叠加更多的网络层不可避免地会带来梯度消失或爆炸的问题。除了梯度问题之外,模型性能很快就会遇到上限,然后随着网络深度的不断增加而迅速下降。

ResNet通过对参数初始化和隐藏状态进行规范化,并引入带有剩余层的快捷连接,有效地解决了这些问题。正如我们前面提到的,深度神经网络需要大量的数据进行训练。为了提供足够的数据训练深度模型,也建立了一些大规模的监督数据集,最具代表性的是ImageNet。ImageNet包含数以百万计的图像,被划分为数千个类别,代表了各种各样的日常对象。基于有效的模型ResNet和信息数据集ImageNet的结合,以及成熟的知识转移方法,出现了一波基于标签数据的预训练模型。

计算机视觉社区从这一浪潮中获益良多。以ImageNet上预训练的ResNet为骨干,快速推进了各种CV任务,如图像分类、目标检测、图像分割、图像标题、视觉问答等。利用像ResNet(具有50层神经网络)这样的PTM已经被证明是在大多数CV任务中获得高度准确结果的关键一步。受PTMs在CV任务中的成功启发,一些NLP研究者也探索了有监督的预训练,其中最有代表性的是CoVE。CoVE的预训练目标是机器翻译。经过预培训后,源语言编码器可以作为下游NLP任务的强大骨干。

2.2 Self-Supervised Learning and Self-Supervised Pre-Training

如图4所示,迁移学习可以分为inductive transfer learning , transductive transfer learning , self-taught learning,和unsupervised transfer learning。

在这四种设置中,inductive 和 transductive设置是研究的核心,因为这两种设置旨在将知识从监督源任务转移到目标任务。尽管监督学习一直是机器学习研究的核心问题之一,但未标注数据的规模远远大于人工标注数据。近年来,越来越多的研究者注意到大规模未标记数据的重要性,致力于从未标记数据中提取信息。自监督学习被提出,利用输入数据本身作为监督,从大规模无标记数据中提取知识。

自监督学习和无监督学习在设置上有许多相似之处。在一定程度上,自监督学习可以被看作是无监督学习的一个分支,因为它们都是应用无标记数据。然而,非监督学习主要集中在检测数据模式(如聚类、社区发现、异常检测),而自监督学习仍处于监督设置(如分类和生成)的范式中。

自监督学习的发展使得对大规模无监督数据进行预训练成为可能。与深度学习时代作为计算机视觉基石的有监督的训练前工作相比,自监督的训练前工作为自然语言处理领域带来了巨大的进步。尽管一些有监督的预训练方法如CoVE在NLP任务中取得了很好的效果,但对像ImageNet这样大的文本数据集进行注释几乎是不可能的,因为注释文本数据远比注释图像复杂。因此,应用自我监督学习来利用未标记数据成为NLP任务前训练模型的最佳选择。最近PTM的惊人突破主要是针对NLP任务,更具体地说,是预先训练的语言模型。

早期用于NLP任务的PTM以众所周知的词嵌入向量的形式存在,它应用自我监督的方法将单词转换为分布式表示。由于这些预先训练过的单词表示能够捕捉文本中的语法和语义信息,因此它们经常被用作NLP模型的输入嵌入和初始化参数,并且比随机初始化参数提供了显著的改进。使用词向量嵌入作为神经模型的输入几乎已经成为自然语言处理任务的常用模式。

在Vaswani等人提出用transformer来处理序列数据之后,NLP任务的PTM进入了一个新的阶段,因为与传统的cnn和rnn相比,可以训练更深入的语言模型。与那些作为输入特征的字级PTM不同,基于Transformer的PTM,如GPT和BERT,可以用作各种特定任务的模型主干。在大规模的文本语料库上对这些基于transformer的ptm进行预训练后,PTM的体系结构和参数都可以作为特定NLP任务的起点,即仅对特定NLP任务的ptm参数进行微调就可以获得具有竞争力的性能。到目前为止,这些基于transformer的ptm已经在几乎所有的NLP任务中取得了最先进的结果。受GPT和BERT的启发,也提出了许多用于NLP任务的更有效的PTM,如XLNET、RoBERTa、BART和T5。

随着近年来用于NLP任务的ptm的发展,将基于Transformer的ptm作为NLP任务的骨干已成为标准流程。受自我监督学习和变形金刚在NLP中的成功激励,一些研究人员探索了自我监督学习和Transformer在CV任务中的应用。这些初步的努力表明,自我监督学习和Transformer可以胜过传统的监督cnn。此外,基于Transformer的PTMs也被提出并显示出良好的效果。在上一波监督前训练之后,自我监督前训练成为当前人工智能研究的热点。

回顾人工智能领域的预培训,不难发现,预培训已经发展了几十年,专注于如何获取下游各种任务的通用知识。接下来,我们将全面介绍这一波自我监督前培训中ptm的最新突破。考虑到几乎所有最新的经前症候群都与预训练语言模型有关,下文中的“PTMs”指的是预训练语言模型或多模态模型。传统的基于supervised pre-training的PTM,参考He et al.和Zoph et al.的论文。

三、Transformer and Representative PTMs

正如我们前面提到的,最近PTM成功的关键是自监督学习和transformer的结合。因此,本节从主要的基本神经结构Transformer开始。然后,我们将介绍两个里程碑式的基于transformer的PTM, GPT和BERT,它们分别使用自回归语言建模和自编码语言建模作为训练前目标。所有后续的PTM都是这两个模型的变体。本节的最后一部分简要回顾了GPT和BERT之后的典型变体,揭示了PTM的最新发展。

3.1 Transformer

在Transformer出现之前,rnn长期以来一直是处理顺序数据(特别是自然语言)的典型神经网络。由于rnn具有序列性,它们在每个时间步按顺序读取一个单词,并根据前一个单词的隐藏状态进行处理。这种机制被认为很难利用gpu和tpu等高性能计算设备的并行能力。

与rnn相比,Transformer是一种采用自我注意机制的编码器-解码器结构,可以并行建模输入序列中所有单词之间的相关性。因此,由于自我注意机制的并行计算,Transformer可以充分利用先进的计算设备来训练大规模模型。在Transformer的编码和解码阶段,Transformer的自我注意机制计算所有输入单词的表示。接下来,我们更具体地研究自我注意机制。

在编码阶段,对于给定的单词,Transformer通过将其与输入序列中的其他单词进行比较来计算注意分数。这样的注意力分数表明了其他每个单词对给定单词的下一个表征应该做出多少贡献。然后,将注意力分数作为权重,计算所有单词表示的加权平均值。我们在图5中给出了一个例子,在这个例子中,自我注意机制准确地捕捉到了“Jack”和“he”之间的参照关系,从而产生了最高的注意分数。这个过程本质上是将整个输入序列的信息聚合起来,应用到所有的单词上并行生成表示法。在解码阶段,注意机制与编码类似,只是它一次只能从左到右解码一种表示。并且解码阶段的每一步都查阅先前解码的结果。关于Transformer的更多信息,请参阅The Illustrated Transformer 和调查论文A Survey of Transformers。


由于其突出的性质,Transformer逐渐成为用于自然语言理解和生成的标准神经结构。此外,它也是随后衍生的PTM的骨干神经结构。接下来,我们将介绍两个标志,GPT和BERT,它们完全打开了大规模自我监督PTM时代的大门。总的来说,GPT擅长于自然语言的生成,而BERT更侧重于自然语言的理解。

3.2 GPT

如第2节所介绍的,ptm通常包括两个阶段,训练前阶段和微调阶段。GPT由Transformer解码器作为骨干网络(由于GPT使用自回归语言建模,原始Transformer解码器中对编码器-解码器的关注被移除。),采用生成式预训练和判别式微调。理论上,与ptm的先例相比,GPT是第一个结合了现代Transformer架构和自我监督训练前目标的模型。实验结果表明,GPT在自然语言推理、问答、常识推理、语义相似和分类等几乎所有的自然语言任务中都取得了显著的成功。

在没有标签的大型语料库中,GPT优化了一种标准的自回归语言建模,即在给定与之对应的前一个单词作为上下文的情况下,最大化所有单词的条件概率。在GPT训练前阶段,利用Transformer对每个词的条件概率进行建模。如图6所示,对于每个单词,GPT通过对其前面的单词进行多头自我注意操作,然后按位置前馈层来计算其概率分布。

GPT对特定任务的适应过程是微调过程,利用GPT的预训练参数作为下游任务的起点。在微调阶段,通过GPT传递输入序列,我们可以得到GPT Transformer最后一层的表示。通过使用最终层和特定于任务的标签的表示,GPT用简单的额外输出层优化了下游任务的标准目标。GPT有数亿个参数,在8个gpu上训练了1个月,可以说是NLP史上第一个“大规模”的PTM。而GPT的成功无疑为随后一系列大规模ptm的兴起铺平了道路。在接下来的部分,我们将介绍另一个最具代表性的BERT模型。

3.3 BERT

BERT的出现也极大地推动了PTM领域的发展。理论上,与GPT相比,BERT采用双向深度Transformer作为主体结构。对于特定的任务,还有两个单独的调整BERT的阶段,训练前和微调(参见图7)。

在训练前阶段,BERT采用的是自编码语言建模,而不是GPT中使用的自回归语言建模。更具体地说,受完形填空(Taylor, 1953)的启发,设计了客观掩膜(MASK)语言模型(objective masking language modeling, MLM)。如图6所示,在传递信息过程中,token被一个特殊的token[MASK]随机屏蔽,目的是通过上下文预测被屏蔽位置的单词。与标准的单向自回归语言建模相比,MLM可以导致所有token的深度双向表示。

除了MLM外,本文还利用下一句预测的目标,对自然语言推理和问题回答等具有多句的下游任务,捕捉句子之间的话语关系。在这个任务中,一个二元分类器被用来预测两个句子是否连贯。在训练前阶段,MLM和NSP共同优化BERT参数。

经过预训练后,BERT可以获得下游任务的鲁棒参数。通过使用下游任务的数据修改输入和输出,BERT可以针对任何NLP任务进行微调。BERT可以有效地处理输入单句或句子对的应用。对于输入,其图式是用特殊标记[SEP]连接的两个句子,可以表示:(1)释义中的句子对,(2)暗含的假设-前提对,(3)回答问题中的问题-段落对,(4)文本分类或序列标注的单句。对于输出,BERT将为每个标记产生一个标记级表示,它可以用于处理序列标记或问题回答,而特殊的标记[CLS]可以被送入一个额外的层进行分类。GPT之后,BERT进一步在17个不同的NLP任务上取得了显著的改进,包括SQuAD(优于人类)、GLUE(7.7%点的绝对改进)、MNLI(4.6%点的绝对改进)等。

3.4 After GPT and BERT

在GPT和BERT之后,又提出了一些改进,如RoBERTa和ALBERT。RoBERTa是BERT的成功变体之一,主要有四个简单有效的变化:(1)去掉NSP任务;(2)训练步骤多,批量大,数据多;(3)较长的训练句子;(4)动态改变[MASK]模式。RoBERTa在BERT的基础上取得了令人印象深刻的实证结果。此外,RoBERTa已经指出NSP任务对于BERT的训练是相对无用的。ALBERT是BERT的另一个重要变体,它提供了几个关于减少参数的有趣观察结果。首先,将输入词嵌入矩阵分解为两个较小的嵌入矩阵。其次,它强制所有Transformer层之间的参数共享,以显著减少参数。第三,提出了句子顺序预测(SOP)任务来替代BERT的NSP任务。为了牺牲空间效率,ALBERT的微调和推断速度较慢。

如图8所示,除了RoBERTa和ALBERT,近年来还提出了各种各样的ptm,以更好地从未标记数据中捕获知识。一些工作改进了模型架构,并探索了新的训练前任务,如XLNet, UniLM, MASS, SpanBERT和ELECTRA。此外,整合丰富的数据源也是一个重要的方向,如利用多语言语料库、知识图和图像。由于模型规模是ptm成功的关键因素,研究人员还探索建立更大的模型,如GPT系列、Switch Transformer等,达到数千亿参数以上,同时对ptm的训练进行计算效率优化。在下面的部分中,我们将进一步详细介绍为ptm所做的所有这些努力。

4 Designing Effective Architecture

在本节中,我们深入研究bert之后的ptm。基于transformer的ptm的成功激发了一系列用于自然语言和其他领域的序列建模的新架构。一般来说,所有bert转换后的语言预训练架构都可以根据两种动机进行分类:统一序列建模认知启发架构。此外,我们还将在第三部分中简要介绍其他重要的BERT变体,主要关注于提高自然语言理解能力。

4.1 Unified Sequence Modeling

为什么NLP如此具有挑战性?最根本的原因之一是它具有多种下游任务和应用程序,一般可分为三类:

  1. 自然语言理解:包括语法分析、句法分析、单词/句子/段落分类、问答、事实/常识知识推理等。
  2. 开放式语言生成:包括对话生成、故事生成、数据文本生成等。
  3. 非开放式语言生成:包括机器翻译、摘要总结、填空等。

然而,它们之间的差异并不是那么显著。正如费曼所说:“我无法创造的东西,我也不理解。”一方面,不能理解的模型不能流畅地生成;另一方面,我们可以很容易地将理解任务转化为生成任务。最近的研究还表明,在理解基准测试方面,GPTs可以达到类似甚至更好的性能。理解和生成之间的界限是模糊的。

基于这些观察,许多新颖的体系结构一直在寻求用一个PTM来统一不同类型的语言任务。我们将回顾它的发展,并讨论它们为建立统一的自然语言处理基础带来的启示。

结合自回归和自编码建模。将gpt风格的单向生成和bert风格的双向理解统一起来的先驱工作是XLNet,它提出了排列语言建模。BERT中的屏蔽恢复策略自然与它的下游应用程序相矛盾,后者在输入语句中没有[MASK]。XLNet通过在预训练中排列令牌的顺序,然后应用自回归预测范式来解决这个问题,这赋予了XLNet理解和生成的能力。MPNet是置换语言建模的一个重要追随者,它弥补了XLNet在预训练时不知道句子长度而在下游知道句子长度的缺陷。

除了置换语言建模,另一个流程是多任务训练。UniLM提出联合训练不同的语言建模目标,包括单向、双向和sequenceto-sequence (seq2seq)目标。这可以通过改变变形金刚中的注意力面具来实现。UniLM在生成式问答和抽象总结方面表现得很好。

最近,GLM提出了一种更优雅的方法来结合自回归和自编码。给定一个可变长度的掩码跨度,GLM不像BERT和SpanBERT那样提供[MASK]的数量来建模,而是要求Transformer块自回归生成掩码令牌。为了保留[MASK]s的数字信息,GLM提出了一种2D位置编码策略。GLM是第一个同时在自然语言理解、条件生成和无条件生成等所有类型的任务中取得最佳性能的模型。
(GLM: General Language Model Pretraining with Autoregressive Blank Infilling)

应用广义Encoder-Decoder。在GLM之前,无论是编码器结构(如BERT)还是解码器结构(如GPT)都不能解决一个重要的问题:填充可变长度的空格。基于解码器的模型无法实现,因为它们只能在序列的末尾生成,基于编码器的模型也无法实现,因为[MASK]s的数量会泄露信息。一个自然的想法是转向最初为机器翻译设计的编码器-解码器架构,它将根据源产生可变长度的目标序列

这种类型的先驱是MASS,它在编码器-解码器结构中引入了掩码预测策略。然而,MASS并不涉及填充变长空白的问题。T5通过仅用一个掩码标记屏蔽文本中跨度可变的长度来解决这个问题,并要求解码器恢复整个掩码序列。BART引入了一个有趣的想法,即用多种操作破坏源序列,比如截断、删除、替换、变换和屏蔽,而不仅仅是屏蔽。在典型的seq2seq任务(如PEGASUS和PALM)中指定了以下工作。

然而,编码器-解码器架构面临着一些挑战。首先,与单个编码器/解码器相比,编码器引入了更多的参数。虽然编码器和解码器的参数共享可以缓解这一问题,但其参数效率仍然值得怀疑。其次,编码器-解码器结构通常在自然语言理解方面表现不佳。尽管有报道称与类似大小的普通BERT相比有所改进,但训练有素的RoBERTa或GLM编码器的性能要比它们好得多。

4.2 Cognitive-Inspired Architectures

目前的transformer是人类认知系统的一个足够好的实现吗?当然不是。注意机制是Transformer架构的核心模块,其灵感来源于人类认知系统的微原子操作,只负责感知功能。然而,人类水平的智能远比仅仅理解不同事物之间的联系复杂得多。

为了追求人类水平的智能,理解我们认知功能的宏观架构,包括决策、逻辑推理、反事实推理和工作记忆,是至关重要的。在这一小节中,我们将回顾由认知科学的进步所激发的新颖尝试,特别是在可持续性工作记忆和可持续性长期记忆方面。

可维护的工作记忆。 Transformer的一个自然问题是其固定的窗口大小和二次空间复杂度,这极大地阻碍了它在长文档理解中的应用。

尽管对二次增长型点态注意力的近似计算进行了大量修改,但问题是,我们人类并没有呈现出这样的长期注意力机制。认知科学家发现,作为一种替代方法,人类可以保持一种工作记忆,不仅是记忆和组织,而且还会忘记。传统的长-短期记忆网络是这种哲学的一个范例实践。

对于基于transformer的架构,Transformer-XL是第一个引入分段级递归和相对位置编码来实现这一目标的。然而,递归只是隐式地模拟了工作记忆。作为一个更明确的解决方案,CogQA建议在多跳读取中维护一个认知图。它由两个系统组成:基于PTMs的系统1和基于gnn的系统2,对认知图进行建模,实现多跳理解。

CogQA的一个限制是,它对System 1的使用仍然是基于固定的窗口大小。为了赋予工作记忆理解长文档的能力,CogLTX利用MemRecall语言模型来选择应该维护在工作记忆中的句子,并利用另一个模型来回答或分类。

可持续的长期记忆。GPT-3的成功和最近关于语言模型回忆事实知识能力的研究表明Transformer是可以记忆的。但是Transformer是怎么做到的呢?

在Lample等人(2019)中,作者提供了一些关于Transformer如何记忆的鼓舞人心的证据。他们将变压器层的前馈网络替换为大型键值存储网络,并发现它工作得很好。这在某种程度上证明了Transformer中的前馈网络与记忆网络是等价的。

然而,Transformer的内存容量是相当有限的。对于人类智力而言,除了用于决策和推理的工作记忆外,长期记忆在回忆事实和经历方面也起着关键作用。REALM是探索如何为变形金刚构建可持续外部存储器的先驱。作者逐句对整个维基百科进行拉伸,并检索相关的句子作为蒙面前训练的上下文。对于给定数量的训练步骤,拉伸后的Wikipedia是异步更新的。RAG将掩模前训练扩展到自回归生成,这可能比提取式问题回答更好。

除了拉伸文本语料库,(Verga等人,2020;Févry等,2020)提出对现有知识库中的实体和三元组进行拉伸。当实体出现在上下文中时,它们将实体token嵌入到内部Transformer层中,替换为来自外部内存网络的嵌入。(Dhingra等,2020;Sun等人,2021)从零开始维护虚拟知识,并提出可微分推理训练目标。所有这些方法在许多开放领域的问题回答基准上都取得了很好的改进。

4.3 More Variants of Existing PTMs

除了统一序列建模和构建受认知启发的体系结构之外,目前的研究主要集中在优化BERT体系结构以提高语言模型在自然语言理解方面的性能。

除了统一序列建模和构建受认知启发的体系结构之外,目前的研究主要集中在优化BERT体系结构以提高语言模型在自然语言理解方面的性能。

一系列的工作旨在改进掩蔽策略,这可以看作是一种数据增强。SpanBERT研究表明,用跨度边界目标(span boundary objective, SBO)来掩盖连续随机长度的令牌跨度可以提高BERT的性能。类似的想法也在ERNIE(一个整体被屏蔽)、NEZHA和whole Word Masking中得到了探索

另一个有趣的做法是将隐藏预测目标更改为更难的目标。ELECTRA将MLM转换为替换令牌检测(RTD)目标,其中生成器将替换原始序列中的toekn,而鉴别器将预测是否有令牌被替换。

论文阅读:预训练模型:过去,现在和未来 Pre-Trained Models: Past, Present and Future(上)相关推荐

  1. 预训练模型ProphetNet:根据未来文本信息进行自然语言生成

    作者 | 刘大一恒.齐炜祯.晏宇.宫叶云.段楠.周明 来源 | 微软研究院AI头条(ID:MSRAsia) 编者按:微软亚洲研究院提出新的预训练模型 ProphetNet,提出了一种新的自监督学习目标 ...

  2. 【华为云技术分享】【论文阅读】增量学习近期进展及未来趋势预测

    [摘要] 本文通过三篇发表在CVPR 2019上的论文,对增量学习任务进行简单的介绍和总结.在此基础上,以个人的思考为基础,对这一研究领域的未来趋势进行预测. 一.背景介绍 目前,在满足一定条件的情况 ...

  3. 论文阅读笔记|NNLP: A Primer on Neural Network Models for Natural Language Processing - Yoav Goldberg 2015

    书籍简介 本篇综述可看作神经网络模型应用于自然语言处理的启蒙读物.由于时间跨度较大,文中提到的模型比较古早,但此文包含该领域需要掌握的基础概念,且篇幅不长,通俗易懂,有一定价值,适合初学者阅读.以下是 ...

  4. 【论文阅读笔记|ACL2019】PLMEE:Exploring Pre-trained Language Models for Event Extraction and Generation

    论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...

  5. 论文阅读 (65):RePaint: Inpainting using Denoising Diffusion Probabilistic Models

    文章目录 1 概述 1.1 题目 1.2 代码 1.3 摘要 1.4 Bib 2 去噪扩散修复模型 3 方法 3.1 调整已知区域 3.2 重采样 1 概述 1.1 题目   2022CVPR:用于图 ...

  6. 【论文阅读32】《Texture Defragmentation for Photo-Reconstructed 3D Models》

    目录 1 introduction 2 overview 3 Related work 3.1 Single-patch Mesh Parametrization 3.2 Global Mesh Pa ...

  7. 预训练模型最新综述:过去、现在和未来

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 BERT.GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑. ...

  8. 万字综述!从21篇最新论文看多模态预训练模型研究进展

    作者 | 杨浩 单位 | 阿里达摩院 研究方向 | 自然语言处理 背景 在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学 ...

  9. 从多篇2021年顶会论文看多模态预训练模型最新研究进展

    ©PaperWeekly 原创 · 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 背景 1.1.什么是预训练 目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...

最新文章

  1. LeetCode 589. N-ary Tree Preorder Traversal-多子节点树前序遍历--递归,迭代--反向压栈--C++解法
  2. 使用Team Foundation Server进行源代码管理(转)
  3. SAwUML – UML-based, contractual software architectures and their formal analysis using SPIN
  4. LeetCode 1443. 收集树上所有苹果的最少时间(自底向上DFS)
  5. 51单片机之外部引脚及总线接口
  6. 【Flink】Flink UI 查看 subtask在相应的机器上的调度时间
  7. python课堂_python课堂整理6---字典
  8. Oracle 10g数据仓库实践pdf
  9. R语言数据接口(下载、读取、写入)
  10. TeeChart 2022.2 for .NET
  11. 机器学习常见数据集下载(免费)
  12. 主成分分析逆变换_主成分分析(PCA)
  13. 希尔伯特的23个问题
  14. 爱奇艺“技术气氛组”上线!点击查收你的专属AI拜年新姿势
  15. CT图像重构方法详解——傅里叶逆变换法、直接反投影法、滤波反投影法
  16. un9.9:实现上报及上报状态修改功能。
  17. mybatis和mybatis-plus集成springboot的配置区别
  18. hive报错:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
  19. 多元统计分析及R语言建模(第五版)——第6章 判别分析课后习题
  20. word中的字号相当于多少px

热门文章

  1. 信息技术选购计算机教案,信息技术七年级西交大版 第二节 选择图像教案.docx...
  2. 2021年浙江省跨境电商行业发展概况及发展趋势分析[图]
  3. Mac打不开别人的.one文件
  4. 七夕快到了,你怎么还不向我表白?
  5. uva 10306 e-coins【dp】
  6. python数据类型:字符串
  7. Kyndryl从IBM完全剥离在纽交所独立上市;新思科技收购AI驱动性能优化软件企业Concertio | 全球TMT...
  8. 网易免费邮箱 - 中国第一大电子邮件服务商
  9. 黑马程序员--java基础--集合(三)
  10. JDK1.8 关于list集合Lambda的使用