NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略

目录

PLUG的简介

PLUG的得分

PLUG的特点

PLUG的架构组成

PLUG的模型训练

PLUG的使用方法

1、demo测试


PLUG的简介

2021年4月19日,阿里达摩院发布了 270 亿参数、1TB + 训练数据、全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。阿里达摩院发布的中文社区最大规模预训练语言模型 PLUG(Pre-training for Language Understanding and Generation)。该模型集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。可用在小说续写、专业文稿撰写、生活常识解答、零样本学习、诗词生成、菜谱生成、自由创作等。

  • 超大模型规模:在多项大规模分布式训练优化技术加持下,我们模型的参数规模达到270亿,是目前最大规模的中文纯文本预训练模型
  • 海量中文数据:超大规模模型采用了1T以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域
  • 零样本生成:模型在不需要任何下游任务标注数据的情况下,就可以实现多种生成任务

PLUG的得分

PLUG对比 GPT-3,主要的改进是,PLUG 设计了一个简洁的模型框架,集成了达摩院自研的语言理解及语言生成双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。

  • 在语言理解任务上,PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录,刷新了 Chinese GLUE 分类榜单的新记录排名第一;
  • 在语言生成(NLG)任务上,PLUG 多项应用数据较业内最优水平提升了 8% 以上。

PLUG的特点

对比GPT-3 等其他大规模生成模型,PLUG 具备以下独特优势

  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型;
  • PLUG 集语言理解与生成能力于一身;
  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,可应用于实际生成任务上;
  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

PLUG的架构组成

达摩院机器智能实验室自研的 NLU 语言模型 StructBERT(多模态语言模型 ) 与 NLG 语言模型 PALM(生成式语言模型)均在各自领域取得了 SOTA 的效果。

  • StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标对语言结构信息的建模,加强模型对语法的学习能力;
  • PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。

此次大规模语言模型PLUG的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,具有很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。

PLUG的模型训练

PLUG 采用了 1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。整个训练流程分为两个阶段:

  • 第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当;
  • 第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。

PLUG的使用方法

1、demo测试

测试地址:https://nlp.aliyun.com/portal#/plug

我们训练了业内规模最大的中文理解和生成模型PLUG,参数达270亿,在中文的多个下游理解和生成任务上,该模型效果达到state-of-the-art水平。本页面的所有生成展示,均是基于PLUG预训练模型的零样本生成,没有经过任何下游任务数据训练。

从技术上来看,阿里达摩院的 PLUG 与 GPT-3 类似,有望广泛应用于文本生成领域,成为「万能写作神器」。PLUG 生成模型有着很强的长文本生成和建模能力,相比于 GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。

NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略相关推荐

  1. 《预训练周刊》第7期:傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

    No.07 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...

  2. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...

    转自:机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日,阿里达摩院发 ...

  3. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG

    作者|机器之心编辑部 来源|机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...

  4. 坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句.妙语令人啧啧称奇. 但 ...

  5. 阿里达摩院发布中文领域最大规模语言模型PLUG测试访问地址

    **阿里达摩院发布中文领域最大规模语言模型 ** 测试地址: https://nlp.aliyun.com/portal#/BigText_chinese

  6. 重磅!阿里达摩院发布《2020十大科技趋势》

    来源:雷锋网 2019年,是新兴科技发展史上的重要年份. 这一年,各大公司的AI.云计算.大数据走向下沉市场,空中博弈进入到地面作战,技术的商业化成为生意成败的重要考量.其间,产业与场景成为大漏斗,好 ...

  7. 阿里达摩院发布2019年十大科技趋势

    "  据悉,这是达摩院自2017年10月成立以来发布的首份科技趋势报告.此前,马云对达摩院的发展提出三个要求:「活得要比阿里巴巴长」.「服务全世界至少 20 亿人口」.「必须面向未来.用科技 ...

  8. AI大一统:阿里达摩院发布多任务、多模态统一模型OFA

    引言:我们正处于一个"多模多任务大统一"的AI时代. 老铁们,上图是对动漫<海贼王>所选框的文字描述(Zero-shot测试),而这一"炫酷"的效果 ...

  9. NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略

    NLP:NLP领域没有最强,只有更强的模型--GPT-3的简介.安装.使用方法之详细攻略 导读:NLP领域的模型,没有最大,只有更大.博主这几天也仔仔细细看了这篇长达75页的论文,光署名作者都有二三十 ...

最新文章

  1. Android 通过反射让SQlite建表
  2. Python学习笔记四(Python OS模块)
  3. 谈谈你对云计算技术的看法
  4. java json lib 日期
  5. C++女程序员一个人留在北京
  6. Burpsuite如何抓取使用了SSL或TLS传输的 IOS App流量
  7. python在匿名函数作和_python之路——内置函数和匿名函数
  8. Java调试打印复杂对象
  9. acer clear 工具_创作与电竞的全新体验 2019台北电脑展Acer派对开启
  10. 看完就能学会FTP和DHCP✌️
  11. 开机黑屏、自检不通过,主板检测卡代码为25问题解决
  12. 多次请求后tomcat网页假死
  13. python中星号怎么打出来_Python中的星号符号
  14. Java Logging之JUL系列——Filter
  15. 3.2、关于Support for password authentication was removed on August 13, 2021报错的解决方案
  16. ABAP BDC个人使用见解
  17. wsl(windows子系统)简要介绍和安装步骤
  18. Transformer主干网络——ViT保姆级解析
  19. 浴血凤凰2020最新全自动辅助开发课程
  20. Sublime text代码补全插件(支持Javascript、JQuery、Bootstrap框架)

热门文章

  1. 【华为419机考真题】树上逃离 or 猴子爬树
  2. Github Pages 快速搭建个人网站教程
  3. SpringBoot的Web开发支持【超详细【一篇搞定】果断收藏系列】
  4. 新手入门前端代码单文件在线编辑器:codepen
  5. java中JDBC是什么?
  6. PPT文档管理控件Aspose.Slides v19.5上线发布!开始评估PDF转换的时间花费!
  7. floodlight安装教程
  8. zepto 追加 html,zepto.html
  9. PHP使用predis/predis包应用实例
  10. 250行代码基于C + EasyX实现感人的表白小程序,画出美丽的爱心雨!