导语:英伟达的“威震天”现在只能屈居第二了。

微软AI&Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG(下文简称为T-NLG),并开源了一个名为DeepSpeed的深度学习库,以简化对大型模型的分布式培训。

基于Transformer的架构,意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外,它还可以生成对输入文档的问题和摘要的直接答案。

去年8月,英伟达曾宣布已训练世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。

而此次微软所分享的模型,T-NLG的参数为170亿个,是英伟达的Megatron(现在是第二大Transformer模型)的两倍,其参数是OpenAI的GPT-2的十倍。微软表示,T-NLG在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。

不过,像Google的Meena一样,最初使用GPT-2,T-NLG最初只能在私人演示中共享。

微软AI研究应用科学家Corby Rosset在博客文章中写道:“除了通过汇总文档和电子邮件来节省用户时间之外,T-NLG还可以通过为作者提供写作帮助,并回答读者可能对文档提出的问题,由此来增强Microsoft Office套件的使用体验。”

具有Transformer架构的语言生成模型可以预测下一个单词。它们可用于编写故事,以完整的句子生成答案以及总结文本。

微软表示,他们的目标是在任何情况下都能够像人类一样直接,准确,流畅地做出响应:以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。使用T-NLG这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件主题的问题。

来自AI领域的专家告诉VentureBeat,2019年是NLP模型开创性的一年——使用Transformer架构无疑是2019年最大的机器学习趋势之一,这导致了语言生成领域和GLUE基准测试领导者的进步,Facebook的RoBERTa、谷歌的XLNet和微软的MT-DNN都纷纷加入到各类基准测试榜首的争夺当中。

同样是在今天,微软还开源了一个名为DeepSpeed的深度学习库。该学习库已针对开发人员进行了优化,以提供低延迟、高吞吐量的推理。

DeepSpeed包含零冗余优化器(ZeRO),用于大规模训练具有1亿个或更多参数的模型,微软过去曾用它训练T-NLG。

微软表示,DeepSpeed和ZeRO使得他们能够降低模型并行度(从16降低到4),将每个节点的批处理大小增加四倍,并将训练时间减少了三分之二;DeepSpeed使用更少的GPU可以使大型模型的训练效率更高。

开发人员和机器学习从业人员都可以使用DeepSpeed和ZeRO,因为培训大型网络(例如利用Transformer架构的网络)可能会很昂贵,并且可能会遇到大规模问题。

另外,Google的DeepMind今天也发布了一种新的远程内存模型Compressive Transformer,以及一种针对书本级语言建模的新基准PG19。

微软分享史上最大基于Transformer架构的语言生成模型相关推荐

  1. 微软发布史上最大NLG模型:基于Transformer架构,170亿参数加持

    2020-02-11 18:50 导语:史上最大! 近年来,BERT.GPT-2等深度学习语言模型,极大地提高了问答.摘要.人机对话等下游自然语言处理任务的性能. 而今天,微软研究院重磅发布了有史以来 ...

  2. 史上最强Java架构师的13大技术能力讲解! | 附架构师能力图谱

    从程序员进阶成为架构师,并非一蹴而就,需要系统化.阶段性地学习,在实战项目中融会贯通,这如同打怪通关,我们得一关一关突破,每攻破一个关口,就能得到更精良的装备,技能值也随之不断增长,直至大获全胜. 凡 ...

  3. 史上最全java架构师技能图谱(下)

    "java架构史上最全技能图谱分为上下两篇,这是java架构史上最全图谱下篇,包含: 大数据以及性能.设计模式.UML.中间件.分布式集群.负载均衡.通讯协议.架构设计等技术图谱等章节. 如 ...

  4. 史上最全java架构师技能图谱(上)

    java架构师最全技能图谱上篇,包含:数结构算法.java进阶.web开发.框架与工具四大技能图谱. 下篇将包含大数据以及性能.设计模式.UML.中间件.分布式集群.负载均衡.通讯协议.架构设计等技术 ...

  5. 分享史上java最牛逼 最简短的代码

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 原创不易 ...

  6. SAINT:一个基于transformer的知识跟踪模型

    1 简介 SAINT: Separated Self-AttentIve Neural Knowledge Tracing. 一个基于transformer的知识跟踪模型. 本文根据<Towar ...

  7. 170亿参数加持,微软发布史上最大Transformer模型

    来源 | 微软 译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) Turing Natural Language Generation(T-NLG)是微软提供的一个有170亿参数的 ...

  8. 170 亿参数加持,微软发布史上最大 Transformer 模型 T-NLG!

    [CSDN编者按]Turing Natural Language Generation(T-NLG)是微软提供的一个有170亿参数的语言模型,在许多NLP任务上均优于目前的SOTA技术.那么,它就有哪 ...

  9. 干货分享 | 史上最全Oracle体系结构整理

    本文对Oracle体系结构做了详细的整理汇总,供大家参考学习. 一.Oracle组成 oracle分两块,oracle数据库软件和oracle数据库.oracle数据库软件位置通过以下命令可以找到: ...

最新文章

  1. 【linux】Valgrind工具集详解(八):Memcheck命令行参数详解
  2. 均匀分布取某一点概率_概率和概率分布
  3. 网络研讨室_网络研讨会:Java 9的第一印象–构建可伸缩企业应用程序的新方法...
  4. JPA教程:实体映射-第2部分
  5. Grunt-Kmc基于KISSY项目打包
  6. 日本老年人开始送外卖了 锻炼赚钱两不误 网友:饿死了么外卖?
  7. java单链表存储结构_Java数据结构——单链表
  8. 基于Python的电子教室软件中远程关机功能的原理与实现
  9. 论文笔记_S2D.70_2021_IEEE-RAL_CodeMapping:使用紧凑场景表示的稀疏SLAM的实时稠密建图
  10. R语言周氏检验(Chow test) 检验回归中结构不稳定性的虚拟变量的替代方案
  11. 字符串函数和数据类型转换函数
  12. 近十年谷歌Google I/O大会导读
  13. matlab中进行多行注释
  14. 湖北移动M411A_ZN-S905L3AB-UWE5621DS原机制作语音线刷包
  15. 图像保边滤波算法集锦--非局部均值NLM滤波器
  16. [原创]隐身斗篷简介及仿真
  17. P4语言的特性、P4语言和P4交换机的工作原理和流程简介
  18. javascript的基本数据类型有哪些?
  19. NCBI参考序列RefSeq
  20. Linux更改一个所有者root为只读权限的文件的权限

热门文章

  1. Grid SearchCV(网格搜索)与RandomizedSearchCV (随机搜索) 贴近实践的
  2. Seq2Seq (Attention) 的 PyTorch 实现 我的理想是数学家的博客,很详细实现过程
  3. ATTENTION QKV理解
  4. 死磕Java多线程(五)---理解CPU高速缓存的工作原理 《JAVA性能优化权威指南》 提到过CPU高速缓存未命中率影响线程切换频率
  5. 通过AI翻译大脑信息
  6. 9个基于Java的搜索引擎框架
  7. 可以不当什么“黑客”,但不要被“黑客”PUA
  8. CSS捡屎记 // Web开发之精通CSS
  9. 拥抱iPhone,拥抱软件开发的未来
  10. 达摩院2022十大科技趋势发布:人工智能将催生科研新范