170亿参数加持，微软发布史上最大Transformer模型

来源 | 微软

译者 | 刘畅

出品 | AI科技大本营（ID:rgznai100）

Turing Natural Language Generation（T-NLG）是微软提供的一个有170亿参数的语言模型，在许多NLP任务上均优于目前的SOTA技术。我们向学者演示了该模型，包括生成自由格式，问题解答和概要功能，主要用于反馈和研究。

--该摘要由Turing-NLG语言模型本身生成

BERT和GPT-2之类的深度学习语言模型（language model, LM）有数十亿的参数，互联网上几乎所有的文本都已经参与了该模型的训练，它们提升了几乎所有自然语言处理（NLP）任务的技术水平，包括问题解答、对话机器人和文档理解等。

更好的自然语言生成模型可以在多种应用程序中实现自如的转化，例如协助作者撰写内容，汇总一长段文本来节省时间，或改善自动客服助理的用户体验。基于使用更大自然语言模型可以带来更好结果的趋势，微软推出了Turing自然语言生成（T-NLG）模型，这是有史以来规模最大的模型，其参数有170亿，在各种语言模型任务的基准上均优于最新技术，并且在应用于许多实际任务（包括概括和问题解答）时也很出色。这项工作得益于在DeepSpeed库（与PyTorch兼容）的ZeRO优化器方面的突破。

我们正在向学术界的一小部分用户发布T-NLG的演示视频，包括生成自由格式，问题解答和概要功能，以进行初步测试和反馈。

T-NLG：大型生成语言模型的优势

T-NLG是一个基于Transformer的生成语言模型，这意味着它可以生成单词来完成开放式的文本任务。除了补充未完成的句子外，它还可以生成问题的答案和文档的摘要。

T-NLG之类的生成模型对于NLP任务很重要，因为我们的目标是在任何情况下都尽可能与人类直接，准确和流畅地问答。以前，问题解答和概要系统是依赖于从文档中提取现有内容，把这些内容用作备用答案或摘要，但它们通常看起来不自然或不连贯。借助T-NLG模型，就可以很自然的总结或回答有关个人文档或电子邮件主题的问题。

我们已经观察到，模型越大，预训练数据需要越多样化和全面，在泛华到其它任务时也会表现得更好。因此，我们认为训练大型集中式多任务模型并在众多任务中共享其功能比单独为每个任务训练新模型更为有效。

训练T-NLG：硬件和软件的突破

任何超过13亿参数的模型都无法装入单张GPU（甚至一个具有32GB内存的电脑），因此该模型本身必须在多个GPU之间并行化或分解。我们利用了几项硬件和软件的突破来训练T-NLG：

1.我们利用NVIDIADGX-2硬件设置和InfiniBand连接，使GPU之间的通信比以前更快。

2. 在NVIDIAMegatron-LM框架上，我们使用张量切片技术在四张NVIDIAV100 GPU上分割模型。

3. DeepSpeed with ZeRO库使我们可以降低模型并行度（从16降低到4），将每个节点的批处理大小增加4倍，并将训练时间减少3倍。DeepSpeed可以使用更少的GPU训练更大的模型，从而提高效率，并且仅使用256个NVIDIA GPU就可以实现512 batchsize的训练，而单独使用Megatron-LM则需要1024个NVIDIA GPU。DeepSpeed与PyTorch兼容。

最终的T-NLG模型具有78个Transformer层，其隐藏层的节点大小为4256，并包含28个注意力头。为了使结果可与Megatron-LM相媲美，我们使用了与Megatron-LM相同的超参数对模型进行了预训练，

我们还比较了预训练T-NLG模型在标准语言任务（例如WikiText-103（越低越好）和LAMBADA下一个单词预测准确性（越高越好））上的性能。下表显示，我们在LAMBADA和WikiText-103上都达到了最新的技术水平。Megatron-LM是NVIDIA Megatron模型公开发布的结果。

Open AI使用了额外的处理（停用词过滤）以实现比单独实现模型更高的数量。Megatron和T-NLG均未使用这种停用词过滤技术。

下面图1显示了与Megatron-LM相比，T-NLG在验证perplexity方面的表现。

图1：训练期间Megatron-8B参数模型（橙色线）与T-NLG 17B模型在验证困惑度方面的比较（蓝线和绿线）。虚线表示当前SOTA技术模型达到的最低验证损失。图中从蓝色到绿色的过渡表示T-NLG在性能上超过了SOTA水平。

直接问答和Zero-shot提问功能

许多网络搜索用户习惯于在问问题时看到答案直接显示在页面的顶部。这些页面大多数会在其所属段落的上下文中显示一个答案句子。我们的目标是通过直接回答他们的问题来更明确地满足用户的信息需求。例如，大多数搜索引擎在显示全文时会突出显示名称，如“Tristan Prettyman”（请参见下面的示例）

相反，T-NLG将直接用完整的句子回答问题。在Web搜索之外，此功能更为重要，例如，当用户询问有关个人数据的问题（例如电子邮件或Word文档）时，此功能可使AI助手智能响应。

该模型还能够实现“zeroshot”问题解答，这意味着无需上下文即可进行回答。对于下面的示例，没有给出模型的段落，仅给出了问题。在这些情况下，模型依赖于在预训练过程中获得的知识来生成答案。

由于ROUGE分数与真实答案相符，无法反映其他方面，如事实正确性和语法正确性，因此我们要求人工标注者为我们之前的基准系统（类似于CopyNet的LSTM模型）和当前的T NLG模型进行评判。

我们还注意到，较大的预训练模型仅需要较少的其它任务样本就可以很好地学好。我们最多只有100,000个问题-消息-答案三元组的样本，即使仅进行了数千次训练，我们的模型仍优于训练了多次的LSTM基准模型。由于收集带标注的监督数据非常昂贵，因此这种观察到的现象会产生实际的业务影响。

不需监督的摘要总结

NLP文献中的摘要有两种类型：提取-从文档中获取少量句子作为摘要的代名词，抽象-用NLG模型像人类一样生成摘要。T-NLG的目标不是复制现有内容，而是为各种文本文档（如电子邮件，博客文章，Word文档，Excel工作表和PowerPoint演示文稿）编写类似于人类的抽象摘要。这其中主要的挑战之一是在所有这些情况下都缺乏监督训练数据：因为人类并不总是会明确地总结每种文档类型。T-NLG的强大功能在于，它已经非常了解文本，因此无需太多的监督即可胜过我们之前使用的所有技术。

为了使T-NLG尽可能通用，以汇总不同类型的文本，我们在几乎所有公开可用的汇总数据集中以多任务方式微调了T-NLG模型，总计约有400万个训练样本。我们给出了ROUGE分数，以便与另一种最新的基于Transformer的语言模型（称为PEGASUS）和以前的最新模型进行比较。

以多任务方式训练T-NLG，同时使用所有数据集对其进行训练。众所周知，由于ROUGE评估在汇总任务方面存在缺陷，因此我们在下面提供了一些公开可用文章的输出摘要，以供比较。

T-NLG未来的应用

T-NLG在自然语言生成方面已经取得了优势，为微软和我们的客户提供了新的机会。除了通过汇总文档和电子邮件来节省用户时间之外，T-NLG还可以通过为作者提供写作帮助并回答读者可能对文档提出的问题来增强MicrosoftOffice套件的体验。此外，它为更流畅的聊天机器人和数字助理铺平了道路，因为自然语言生成可以通过与客户交谈来帮助企业进行客户关系管理和销售。

原文链接：

https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

（*本文由AI科技大本营编译，转载请联系微信1092722531）

【end】

◆

精彩推荐

◆

福利直达！CSDN技术公开课评选进行中，参与投票即有机会参与抽奖！大奖福利请见下方海报，承担你的2020全年技术干货！

推荐阅读

福利直达！CSDN技术公开课评选进行中
技术驰援抗疫一线， Python 线上峰会免费学！
此次疫情被战胜后，或将给区块链的发展带来深远的影响
企业微信再次升级；滴滴网约车欲加装防护隔离膜；Firefox 73发布 | 极客头条
一文看懂Microsoft Azure的十年变迁
“抗疫”第二战场，那些屏幕后的“云”医生

你点的每个“在看”，我都认真当成了AI

170亿参数加持，微软发布史上最大Transformer模型相关推荐

170 亿参数加持，微软发布史上最大 Transformer 模型 T-NLG！
[CSDN编者按]Turing Natural Language Generation(T-NLG)是微软提供的一个有170亿参数的语言模型,在许多NLP任务上均优于目前的SOTA技术.那么,它就有哪 ...
微软发布史上最大NLG模型：基于Transformer架构，170亿参数加持
2020-02-11 18:50 导语:史上最大! 近年来,BERT.GPT-2等深度学习语言模型,极大地提高了问答.摘要.人机对话等下游自然语言处理任务的性能. 而今天,微软研究院重磅发布了有史以来 ...
1750亿参数，史上最大AI模型GPT-3上线：不仅会写文章、答题，还懂数学
「我们训练了 GPT-3,一种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍.我们在 few-shot 情况下测试了它的性能.」本周五,OpenAI 提出的 ...
1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”...
边策梦晨发自凹非寺量子位报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...
170亿参数，28项公开测试集SOTA，行业最大的视觉多任务统一大模型来了
本文已在飞桨公众号发布,查看请戳链接: 170亿参数,28项公开测试集SOTA,行业最大的视觉多任务统一大模型来了在5月20日举办的WAVE SUMMIT 2022深度学习开发者峰会上,百度发布了行 ...
HighNewTech：人类发布史上首张黑洞照片—1+17张高清图片讲解黑洞简史
High&NewTech:人类发布史上首张黑洞照片-1+17张高清图片讲解黑洞简史导读科技圈大事件:天文学家捕获首张黑洞照片.爱因斯坦曾精准语言,霍金曾发现黑洞辐射,一个令众多 ...
12年来最大飞跃！黄仁勋发布史上最强GPU，世界首个实时光线追踪新一代图灵架构...
"我们努力了十年."黄仁勋说:"这是GPU自2006年以来最重大的飞跃." 在刚刚的SIGGRAPH 2018主旨演讲中,黄仁勋将英伟达的GPU实力展现得淋漓尽 ...
9月29日云栖精选夜读：武装到“牙齿”！阿里云发布史上最强企业云安全架构 11层防护...
未来的企业都会基于云来搭建业务的安全系统,企业云安全架构(Cloud Security Compass)就是这么一份供上云企业参考的设计蓝图-- 企业可以像"建房子"一样,依据模块 ...
敲代码、作诗、写论文无所不能！史上最大AI模型GPT-3强势霸榜Github
最近,GPT-3火了!相信你已经在网上看到各种有关GPT-3的演示.这个由OpenAI创建的大型机器学习模型,它不仅可以自己写论文,还会写诗歌,就连你写的代码都能帮你写了. 下面还是先让你看看GPT- ...

170亿参数加持，微软发布史上最大Transformer模型

170亿参数加持，微软发布史上最大Transformer模型相关推荐

最新文章

热门文章