270亿参数、刷榜CLUE，达摩院神作！

视学算法报道

机器之心编辑部

经历「大炼模型」后，人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后，中文领域同类模型的训练进程备受关注。今日，阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG，并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。

自 2018 年谷歌发布 BERT 以来，预训练模型（Pre-trained Models, PTMs）逐渐成为自然语言处理领域的主流。2020 年 5 月，OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言生成模型，GPT-3 不仅能够生成流畅自然的文本，还能完成问答、翻译、创作小说等一系列 NLP 任务，甚至进行简单的算术运算，并且其性能在很多任务上都超越相关领域的专有模型，达到 SOTA 水平。

在这样的发展态势下，构建以中文为核心的超大规模预训练模型及生态势在必行。

4 月 19 日，阿里达摩院发布了中文社区最大规模预训练语言模型 PLUG（Pre-training for Language Understanding and Generation）。该模型参数规模达 270 亿，集语言理解与生成能力于一身，在小说创作、诗歌生成、智能问答等长文本生成领域表现突出，其目标是通过超大模型的能力，大幅提升中文 NLP 各类任务的表现，取得超越人类表现的性能。

从技术上来看，阿里达摩院的 PLUG 与 GPT-3 类似，有望广泛应用于文本生成领域，成为「万能写作神器」。较 GPT-3 改进的是，PLUG 设计了一个简洁的模型框架，集成了达摩院自研的语言理解及语言生成双模型，通过构建输入文本双向理解能力，显著提升了输出文本的相关性。在语言理解任务上，PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录；在语言生成任务上，PLUG 多项应用数据较业内最优水平提升了 8% 以上。

4 月 19 日，PLUG 刷新 CLUE 分类榜单纪录，排名仅次于「人类」。

据了解，PLUG 采用了 1TB 以上高质量中文文本训练数据，涵盖新闻、小说、诗歌、问答等广泛类型及领域，其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。接下来，PLUG 将扩大参数规模至 2000 亿级，并进一步提升文本生成质量。

在超大规模预训练模型领域，除了以中文为核心的 PLUG 外，达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型「文汇」，以及联合清华大学发布了超大规模多模态预训练模型「M6」。此外，达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。

阿里达摩院语言技术实验室负责人司罗表示：「达摩院 NLP 团队将进一步攻克 NLP 领域科研难题，完善中文及跨语言人工智能基础设施，让 AI 没有难懂的语言，并探索通用人工智能之路。」

270 亿参数、1TB + 训练数据，全球最大中文预训练模型 PLUG

PLUG 超大规模预训练中文理解 & 生成统一模型，是目前中文社区最大规模的纯文本预训练语言模型，集语言理解与生成能力于一身。旨在通过超大模型的能力，大幅度提升中文 NLP 在各大任务的表现，其性能超越人类。

相较于 Open AI 的 GPT-3 等其他大规模生成模型，PLUG 具备以下独特优势：

PLUG 是目前中文社区最大规模的纯文本预训练语言模型；
PLUG 集语言理解与生成能力于一身，在语言理解（NLU）任务上，以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一；在语言生成（NLG）任务上，在多项业务数据上较 SOTA 平均提升 8% 以上；
PLUG 可为目标任务做针对性优化，通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优，弥补之前其它大规模生成模型 few-shot inference 的生成效果不足，可应用于实际生成任务上；
PLUG 采用了大规模的高质量中文训练数据（1TB 以上），同时，PLUG 采用 encoder-decoder 的双向建模方式，因此，在传统的 zero-shot 生成的表现上，无论是生成的多样性、领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。

目前，PLUG 已经开放了体验功能供学术领域试用。

测试地址：https://nlp.aliyun.com/portal#/BigText_chinese

技术细节

此前，达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说，StructBERT 模型通过加强句子级别（Sentence Structural Objective）和词级别（Word Structural Objective）两个层次的训练目标对语言结构信息的建模，加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式，引入 Masked LM 目标来提升 encoder 的表征能力，同时通过预测文本后半部分来提升 decoder 的生成能力。

此次大规模语言模型的训练，达摩院团队汲取二者所长，提出了一个简单的框架，用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型，该大规模生成模型以 StructBERT 作为 encoder，具有很强的输入文本双向理解能力，从而可以生成和输入更相关的内容。

整个训练流程分为两个阶段：

首先在第一阶段，达摩院团队训练了一个 24 layers／8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据，规模与 GPT-3 的训练规模相当；
在第二阶段，达摩院团队将这个 encoder 用于生成模型的初始化，并外挂了一个 6 layers / 8192 hidden size 的 decoder，在训练生成模型的过程中，在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样，确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据，前 90% 的训练中，团队保留了 Masked LM 任务以保持模型的 NLU 能力，后 10% 的训练中，去掉 MLM 任务进行微调，以使得生成的 PPL 降到更低，能取得更好的生成效果。

PLUG 生成示例展示

PLUG 生成模型有着很强的长文本生成和建模能力，相比于 GPT 系列模型的单向建模，PLUG 对输入的理解是双向建模的，因此能够在给定小段输入的条件下，生成和输入内容相关且信息量丰富的长文本。

在小说散文续写、诗歌生成、自由创作等多场景下的生成结果显示出了 PLUG 模型的强大性能。此前，阿里巴巴深度语言模型体系已经覆盖了多模态语言模型 StructVBERT、多语言模型 VECO、生成式语言模型 PALM 等 6 大自研模型，并登顶了多个国际赛事和榜单。达摩院此次发布的 PLUG 模型，为阿里巴巴深度语言模型体系又增添了一员大将。

转载请联系原公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

点个在看 paper不断！

270亿参数、刷榜CLUE，达摩院神作！相关推荐

仅480块GPU搞出万亿参数大模型！达摩院3个月打造，出手即商用
金磊发自凹非寺量子位报道 | 公众号 QbitAI 不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿 ...
270亿参数、刷榜CLUE，阿里达摩院发布最大中文预训练语言模型PLUG（开放测试）...
转自:机器之心经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日,阿里达摩院发 ...
270亿参数、刷榜CLUE，阿里达摩院发布最大中文预训练语言模型PLUG
作者|机器之心编辑部来源|机器之心经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...
坐拥270亿参数！阿里达摩院发布超大规模语言模型PLUG，上能写诗词歌赋、下能对答如流...
作者 | 马超出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句.妙语令人啧啧称奇. 但 ...
AI大牛周明打造的轻量“孟子模型”开源！靠10亿参数冲上CLUE榜第三，可用于新闻分类、文案生成...
明敏发自凹非寺量子位报道 | 公众号 QbitAI 只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了! 其打造团队澜舟科技-创新工场最新宣布,基于孟子通用模型,他们将 ...
一击进榜！达摩院十年“扫地僧”，揭秘阿里云数据仓库逆袭之旅
简介:占超群,花名离哲,阿里巴巴集团研究员,数据库OLAP产品部负责人.离哲说,这个花名的由来,是武侠小说里的一个人物.他不是天分过人那种角色,却凭借自己的坚持和努力,最终达到了顶峰.在云技术这个战场 ...
企业家谈情怀的新门槛，有关达摩院1000亿的四个疑问
那些了不起的企业家,从来都不会只盯着一款产品.一项服务及损益表中的赤字,他们需要有更加开阔的视野及别样的天赋. 管理大师彼得·德鲁克曾说过:"所谓公司的核心竞争力,就是指可以干别人根本不能做 ...
《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG
No.07 智源社区预训练组预训练研究观点资源活动关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...
业界分享 | 阿里达摩院：超大规模预训练语言模型落地实践
2021年3月,阿里达摩院机器智能实验室AliceMind家族发布了最新训练的270亿参数规模的中文语言理解和生成统一模型--PLUG,但随着预训练模型规模越来越大,如何将大规模的预训练模型在下游任务 ...

270亿参数、刷榜CLUE，达摩院神作！

270亿参数、刷榜CLUE，达摩院神作！相关推荐

最新文章

热门文章