性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

2020-09-24 04:21:08

作者 | 贝爽

编辑 | 陈彩娴

模型越大，性能越佳？不一定。

在NLP领域，谈到超大模型必然想到预训练语言模型GPT-3，自今年3月份对外开放以来，其因超大模型和超强性能频频刷屏。

GPT-3拥有1750亿参数量，约有700G大小，一次训练成本高达上百万美元。1750亿是什么概念？去年2月份，OpenAI推出的GPT-2参数量为仅15亿，是它的1\116。

与今年微软推出的Turing NLG（170 亿参数），英伟达的 Megatron-BERT（80 亿参数）相比，也要高出10多倍。

不过，超大模型带来的性能表现也是显而易见的。最近《卫报》刚刚发布了一篇由GPT-3撰写的文章，因文本内容堪比人类而再次引起热议。

但现在，同样的文本生成效果，其参数量可能只需要GPT-3的0.1%。

近日，慕尼黑路德维希·马克西米利安大学（LMU）AI研究团队公布了一项最新研究成果，即在文本生成方面，仅用2.23亿参数量，就可以到达GPT-3的效果。

这项研究论文已发表至预印论文库arXiv，论文摘要中显示：

我们证明了使用参数小几个数量级的语言模型也可以获得类似GPT-3的性能。这是通过将输入文本转换成包含任务描述的完形填空，并结合梯度优化来实现的。此外，利用未标记的数据也可以进一步改进；我们确定了使用小语言模型理解自然语言所需的几个关键因素。

接下来，我们具体看一下这项技术的实现原理。

1 基于PET系统的文本生成模型

论文中介绍，LMU研究团队采用的是一种称为模式开发训练（Pattern-exploiting Training，PET）的方法。该方法是一种半监督训练，可将输入示例重新编写为填空样式的短语，在参数量少的环境下明显优于常规的监督训练。

具体来说，PET将完形填空问题的重新表述与基于梯度的规则微调相结合，弥补了GPT-3大模型的弊端。同时，它不需要对数据进行标记，而且能够适用于多个令牌的预测任务。

经过SuperGLUE的基准测试，PET及其迭代版的性能都优于GPT-3，而且参数量少了三个数量级。

PET：2.23亿个参数，SuperGLUE平均得分为74.0。
GPT3：1750亿个参数，SuperGLUE平均得分为71.8。

具体来说，PET通过训练各个PVP（Pattern-verbalizer）模型，将其合并、输出，以在在制作的软标签上训练新模型来获得最终的效果。论文中，研究人员采用了32个示例基于ALBERT对PET和GPT-3进行了测试。其最终结果如下：

可以看出，ALBERT和PET的表现类似于超大模型GPT-3，其体积增大了785倍，而且平均来说，PET的表现要比GPT-3稍好。iPET为三项任务带来了新的改进，其中最显著的是CB，但是MultiRC的性能略有下降。

需要强调的是，iPET可训练多模型，甚至可以在没有任何训练数据的情况下使用。

与GPT-3类似，PET在WiC中的随机性并不高，这很难作为语言建模任务重新表述。ReCoRD是GPT-3始终优于PET和iPET的唯一任务。尽管PET表现强劲，但它的表现显然比普通全尺寸SuperGLUE训练器上训练的最先进的模型还要差。

经研究发现其影响性能的因素包括以下几点：模式和描述器的选择，未标记和标记数据的使用，以及底层语言模型的属性。

在以前的研究中，包括GPT-3，YI。这些重新表述可以处理更加复杂的任务。为了研究模式和描述器的重要性，研究人员比较了三组不同的PVP（pours、pGPT-3、pcomb），并使用PET对ALBERT进行了模式训练，结果如下图：

可以看出，pGPT-3在RTE上的性能优于pours，而pours在MultiRC上的性能要好得多。这一反差表现正说明了将任务表达为完型填空的重要性。

另外，为了研究未标记数据对于PET的重要性。研究人员比较了PET中最终分类器的性能与单个pvp对应的模型集合的性能。以下为每个PVP训练三个模型后的结果：

这表明，如果目标仅仅是获得良好的性能，那么无标记数据是不必要的，但是，它需要获得一个单一的、轻量级的模型作为最终分类器。

接下来，为了研究底层模型与PET性能的相关性。研究人员将ALBERT与RoBERTa large和GPT-2 medium进行了比较，结果如下图：

可以看到，使用ALBERT作为底层模型对于PET的性能至关重要；将ALBERT替换为RoBERTa，其平均性能下降了8个点。不过，RoBERTa仍然明显优于GPT-3，因为GPT-3要大两个数量级。

重要的是，使用GPT-2的PET比其他两种模型的性能差很，其性能下降的一个关键原因可能是，与GPT-3一样，GPT2是一个单向模型，它需要比较两个文本序列。

因此，底层模型的双向性对于PET来说很重要，因为它消除了掩码令牌在最后的需求，能够在创建模式时表现出更大的灵活性。

2 突破大模型的限制，提供新的可能性

论文的结论中表明，通过PET训练方法，可以在参数量少三个数量级的情况下，在SuperGLUE测试中实现类似GPT-3的性能。PET是一种将任务重新定义为完形填空问题，并为不同的重新表述训练一组模型的方法，它能够用于需要预测多个令牌的任务。

需要说明的是，该项研究证明了：在文本生成领域，小模型达到高性能表现的可能性，但它并不意味着超过了GPT-3，或者实现了GPT-3的所有功能。

LMU研究团队也指出：“它不会在所有任务中都胜过GPT-3，我们目的是希望使用更适度的硬件来突破AI界限，为研究人员开辟新的思路和途径。”

简单来说，通过GPT-3，超大模型所带来的性能显而易见，那么相对简单的模型能够带来哪些可能性，是该项研究的初衷，它意在激励研究者提出更智能、更高效的新模型。

虽然PET系统比大规模的GPT体系具有更少的功能，但它表明了我们可以通过更易于管理的规模来获取与大模型等效的方法。

另外，需要强调的是，GPT-3在功能及性能方面达到了前所未有的高度，但其内部也存在明显的缺陷。比如OpenAI团队曾公开声明，GPT-3存在一些算法局限，但由于训练成本过高，并不打算对其进行优化。因此，GPT-3距离“理想”Transformer还很遥远，仍有很大的改进空间。

引用链接：

1. https://arxiv.org/pdf/2009.07118.pdf

2. https://thenextweb.com/neural/2020/09/21/ai-devs-created-a-lean-mean-gpt-3-beating-machine-that-uses-99-9-fewer-parameters/

3. https://us13.campaign-archive.com/?u=67bd06787e84d73db24fb0aa5&id=ef5072d878

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型相关推荐

性能媲美BERT，但参数量仅为1/300，这是谷歌最新的NLP模型
选自Google AI Blog 作者:Prabhu Kaliamoorthi 机器之心编译机器之心编辑部在最新的博客文章中,谷歌公布了一个新的 NLP 模型,在文本分类任务上可以达到 BERT ...
性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型
在最新的博客文章中,谷歌公布了一个新的 NLP 模型,在文本分类任务上可以达到 BERT 级别的性能,但参数量仅为 BERT 的 1/300. 在过去的十年中,深度神经网络从根本上变革了自然语言处理( ...
a卡显存测试软件_官方游戏性能堪比RTX 3080 苏姿丰：RX 6000 Big Navi是史上最强A卡...
在今天Zen3及锐龙5000系列处理器发布会的尾声环节,CEO苏姿丰不忘预告28号的显卡产品. 此番正式确认,基于RDNA2架构的新Navi显卡归属于Radeon RX 6000系列.其中Big Na ...
基于结构化数据的文本生成：非严格对齐生成任务及动态轻量的GCN生成模型
作者|邴立东.程丽颖.付子豪.张琰等单位|阿里巴巴达摩院.香港中文大学等摘要基于结构化数据生成文本(data-to-text)的任务旨在生成人类可读的文本来直观地描述给定的结构化数据.然而,目前 ...
训练时间和参数量百倍降低，直接使用标签进行预测，性能竟超GNN
选自arXiv 作者:Qian Huang等机器之心编译机器之心编辑部将传统标签传播方法与简单模型相结合即在某些数据集上超过了当前最优 GNN 的性能,这是康奈尔大学与 Facebook 联合提 ...
参数量下降85%，性能全面超越ViT：全新图像分类方法ViR
来源:机器之心本文共1700字,建议阅读5分钟 ViT 还不够完美?来自华东师范大学等机构的研究者提出了全新的图像分类方法 ViR,在模型和计算复杂性方面都优于 ViT. 近一年来,视觉 Trans ...
动态卷积超进化！通道融合替换注意力，减少75%参数量且性能显著提升 ICLR 2021...
导读本文是微软&加大圣地亚哥分校的研究员在动态卷积方面的一次突破性的探索,针对现有动态卷积(如CondConv.DY-Conv)存在的参数量大.联合优化困难问题,提出了一种动态通道融合机制替 ...
谷歌推出新模型「pQRNN」，少量参数下进行文本分类，性能堪比BERT
近日,谷歌推出了新模型「pQRNN」,它是由去年推出的「PRADO」进一步使用小模型改进而得,达到了SOTA结果.pQRNN的新颖之处在于,它可以结合一个简单的映射和一个quasi-RNN编码器来进行 ...
动态卷积超进化！通道融合替换注意力，减少75%参数量且性能显著提升 | ICLR 2021
还没开源本文是微软&加大圣地亚哥分校的研究员在动态卷积方面的一次突破性的探索,针对现有动态卷积(如CondConv.DY-Conv)存在的参数量大.联合优化困难问题,提出了一种动态通道融合机 ...

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型

性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型相关推荐

最新文章

热门文章