转自:机器之心

经历「大炼模型」后,人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注。今日,阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。

自 2018 年谷歌发布 BERT 以来,预训练模型(Pre-trained Models, PTMs)逐渐成为自然语言处理领域的主流。2020 年 5 月,OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言生成模型,GPT-3 不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列 NLP 任务,甚至进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型,达到 SOTA 水平。

在这样的发展态势下,构建以中文为核心的超大规模预训练模型及生态势在必行。

4 月 19 日,阿里达摩院发布了中文社区最大规模预训练语言模型 PLUG(Pre-training for Language Understanding and Generation)。该模型参数规模达 270 亿,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出,其目标是通过超大模型的能力,大幅提升中文 NLP 各类任务的表现,取得超越人类表现的性能。

从技术上来看,阿里达摩院的 PLUG 与 GPT-3 类似,有望广泛应用于文本生成领域,成为「万能写作神器」。较 GPT-3 改进的是,PLUG 设计了一个简洁的模型框架,集成了达摩院自研的语言理解及语言生成双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。在语言理解任务上,PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录;在语言生成任务上,PLUG 多项应用数据较业内最优水平提升了 8% 以上。

4 月 19 日,PLUG 刷新 CLUE 分类榜单纪录,排名仅次于「人类」。

据了解,PLUG 采用了 1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。

在超大规模预训练模型领域,除了以中文为核心的 PLUG 外,达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型「文汇」,以及联合清华大学发布了超大规模多模态预训练模型「M6」。此外,达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。

阿里达摩院语言技术实验室负责人司罗表示:「达摩院 NLP 团队将进一步攻克 NLP 领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。」

270 亿参数、1TB + 训练数据,全球最大中文预训练模型 PLUG

PLUG 超大规模预训练中文理解 & 生成统一模型,是目前中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。旨在通过超大模型的能力,大幅度提升中文 NLP 在各大任务的表现,其性能超越人类。

相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备以下独特优势:

  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型;

  • PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一;在语言生成(NLG)任务上,在多项业务数据上较 SOTA 平均提升 8% 以上;

  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,可应用于实际生成任务上;

  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

目前,PLUG 已经开放了体验功能供学术领域试用。

测试地址:https://nlp.aliyun.com/portal#/BigText_chinese

技术细节

此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标对语言结构信息的建模,加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。

此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,具有很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。

整个训练流程分为两个阶段:

  • 首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当;

  • 在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。

PLUG 生成示例展示

PLUG 生成模型有着很强的长文本生成和建模能力,相比于 GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。

在小说散文续写、诗歌生成、自由创作等多场景下的生成结果显示出了 PLUG 模型的强大性能。此前,阿里巴巴深度语言模型体系已经覆盖了多模态语言模型 StructVBERT、多语言模型 VECO、生成式语言模型 PALM 等 6 大自研模型,并登顶了多个国际赛事和榜单。达摩院此次发布的 PLUG 模型,为阿里巴巴深度语言模型体系又增添了一员大将。

欢迎添加群助手微信,邀请您加入大佬云集-深度学习技术交流群!

???? 长按识别添加,邀请您进群!

270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...相关推荐

  1. 《预训练周刊》第7期:傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

    No.07 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...

  2. NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略

    NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介.架构组成.模型训练.使用方法之详细攻略 目录 PLUG的简介 PLUG的得分 PLUG的特点 PLUG的架构组成 PLUG的模型训 ...

  3. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG

    作者|机器之心编辑部 来源|机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...

  4. 270亿参数、刷榜CLUE,达摩院神作!

    视学算法报道 机器之心编辑部 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日 ...

  5. 坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句.妙语令人啧啧称奇. 但 ...

  6. AI大一统:阿里达摩院发布多任务、多模态统一模型OFA

    引言:我们正处于一个"多模多任务大统一"的AI时代. 老铁们,上图是对动漫<海贼王>所选框的文字描述(Zero-shot测试),而这一"炫酷"的效果 ...

  7. 看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?

    摘要:千亿参数量的中文大规模预训练语言模型时代到来. 本文分享自华为云社区< MindSpore开源框架加持,如何「炼出」首个千亿参数.TB级内存的中文预训练语言模型?>,原文作者:che ...

  8. 重磅!阿里达摩院发布《2020十大科技趋势》

    来源:雷锋网 2019年,是新兴科技发展史上的重要年份. 这一年,各大公司的AI.云计算.大数据走向下沉市场,空中博弈进入到地面作战,技术的商业化成为生意成败的重要考量.其间,产业与场景成为大漏斗,好 ...

  9. 阿里达摩院发布2019年十大科技趋势

    "  据悉,这是达摩院自2017年10月成立以来发布的首份科技趋势报告.此前,马云对达摩院的发展提出三个要求:「活得要比阿里巴巴长」.「服务全世界至少 20 亿人口」.「必须面向未来.用科技 ...

最新文章

  1. 性能评估指标(Precision, Recall, Accuracy, F1-measure)
  2. (入门)上传GitHub怎么忽略node_modules
  3. POJ 2870 求矩阵的加法
  4. 程序员如何优雅地使用 Mac?
  5. SAP Spartacus本地启动时的白屏问题分析
  6. Centos7 使用Docker 部署Tomca+mysql+调试联通_02
  7. Oracle事务处理
  8. 联想Z6 Pro 5G探索版官宣 常程:有5G才最6
  9. polycom安卓手机客户端_Spark,安卓上最好用的邮件客户端来了!附App下载
  10. c:foreach中varStatus参数的含义
  11. 1.1介绍线程和运行(Introducing Thread and Runnable)
  12. 基于Python实现的DHT嗅探器
  13. 计算机毕业设计之ssm的学生信息管理系统设计与实现论文
  14. PHP简单同学录(连接数据库)
  15. maven依赖名词解释
  16. 电脑html接口显示器不亮,电脑主机开了显示器没反应无信号及键盘鼠标不亮的解决方法...
  17. lisp不是函授型语言_LISP语言
  18. Java判断工作日、休息日和节假日
  19. java中.的意思_java中“:”的意思是什么?
  20. Spring的AOP(一):什么是AOP

热门文章

  1. nginx的小总结(二)
  2. Windows server 2008 R2 通过策略关闭密码复杂性
  3. linux运行隐藏文件,Linux下如何隐藏文件_网站服务器运行维护,Linux,隐藏文件
  4. mysql 2053_php – MySql一般错误:2053
  5. String中的hashcode缓存以及HashMap中String作key的好处
  6. 协方差中的正相关与负相关 指的是线性代数中的线性相关
  7. 斯坦福神经网络神经元对特征提取的影响JS演示
  8. java.lang.Instrument 动态修改替换类代码
  9. 图网络究竟在研究什么?从15篇研究综述看图神经网络GNN的最新研究进展
  10. 【连载】高效人士的116个IT秘诀(第2版)——秘诀24为你的时间建一个构造图