点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

杨净 发自 凹非寺
量子位 报道 | 公众号 QbitAI

今天,谷歌大脑声称,他们新技术能训练万亿级参数的语言模型。

万亿级,什么概念?

烧了微软10000张显卡的GPT-3,也不过1750亿参数。

现在,他们将这参数量扩大到9倍——16000亿参数

这一语言模型正是Switch Transformer,自称是迄今为止最大的模型,其预训练速度是谷歌以前开发的最大语言模型(T5-XXL)的4倍。

与此同时,此次也首次展现了大型稀疏模型(参数量惊人,但计算成本恒定)也可以用较低精度的格式进行训练。

迄今最大语言模型

Switch Transformer的设计原则是,用一种简单有效的稀疏性扩展Transformer模型的参数量。

它建立在专家混合的基础上,这是90年代初首次提出的人工智能模型范式。

简单来说,就是在一个更大的模型内保留多个专家,或专门从事不同任务的模型,并由一个“门控网络”为任何给定数据选择咨询哪些专家。

Switch Transformer的创新之处在于,它有效利用了一些硬件,比如GPU和谷歌的TPU等为稠密矩阵乘法设计的硬件。

在分布式训练设置中,模型的稀疏激活层在不同设备上分配唯一的权重。所以,模型权重随设备数量的增加而增加,同时在每个设备上保持可管理的内存和计算空间。

接着,研究人员使用了32个TPU内核在一个数据集上预训练了几个不同的Switch Transformer模型。

这一数据集叫做Colossal Clean Crawled Corpus,750GB大小,包含了从Reddit、维基百科和其他网络资源中搜刮的文本。

研究人员给这些模型布置了任务,比如,在有15%单词被掩盖的段落中预测出缺失的单词;检索文本来回答问题。

研究人员表示,他们拥有2048个专家系统的1.6万亿参数模型(Switch-C)“完全没有不稳定性”,其速度相比于T5-XXL模型提升了4倍。

此外,研究者还将模型与T5-Base和 T5-Large进行了对比,结果表明,在相同的计算资源下,新模型预训练速度有最高7倍的提升。

研究人员表示,大型稀疏模型可用于创建较小的密集模型,在任务上进行微调,其质量增益为大型模型的30%。

从整体结果上看,Switch Transformer 模型在多项推理和知识任务中带来了显著性能提升。这说明该模型架构不只对预训练有用,还可以通过微调将质量改进迁移至下游任务中。

研究人员表示,

我们无法完全保留模型质量,但通过将我们的稀疏模型提炼成密集模型,可以实现10到100倍的压缩率,同时实现约30%的专家模型的质量增益。

在未来的工作中,研究人员计划将Switch Transformer应用于不同模态或多模态模型,包括图像和文本。

参考链接:
论文地址:https://arxiv.org/abs/2101.03961
https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

谷歌发布最大语言模型:等于9个GPT-3,训练成本却低得多相关推荐

  1. 大数据早报:MongoDB 3.6 默认对数据库勒索软件开启防御 谷歌发布TensorFlow 1.4版本(11.10)

    数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『MongoDB』MongoDB 3.6 默认对数据库勒索软件开启防御 2017 有一条关于 MongoDB 的重大安全新闻引起了广泛关 ...

  2. 超越CLIP!谷歌发布首个大规模MoE架构的视觉语言模型

    文 | 明敏(发自凹非寺) 源 | 量子位 多模态模型常见,但是基于稀疏化的还是头一个.谷歌带来最新成果LIMoE,首次将稀疏化方法用在了图像文本混合模型上.要知道,随着大模型参数呈指数级增加,训练成 ...

  3. 坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句.妙语令人啧啧称奇. 但 ...

  4. 《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot...

    No.27 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及少样本理解.图像检测.决策图.大模型微调.对话微调.分子建模.蛋白质结构预测 ...

  5. [预训练语言模型专题] 银色独角兽GPT家族

    本文为预训练语言模型专题系列第四篇 前期回顾:[萌芽时代].[风起云涌].[文本分类通用训练技巧] 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前 ...

  6. 谷歌发布史上“最强大脑”——可以控制和操作机器人的AI模型

    ​谷歌发布了一款被誉为史上"最强大脑"的人工智能模型PaLM-E (Parameter-efficient Language Model with Explicit Memory) ...

  7. 智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;Dwork谈算法公平性;KDD2022奖项出炉...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 谷歌发布PaLM-SayCan:大模型引导机器人理解人类的指令并执行任务 查看详情 在过去 ...

  8. 预训练语言模型整理(ELMo/GPT/BERT...)

    预训练语言模型整理(ELMo/GPT/BERT...)简介 预训练任务简介# 自回归语言模型# 自编码语言模型 预训练模型的简介与对比 ELMo 细节# ELMo的下游使用# GPT/GPT2# GP ...

  9. AI 一分钟 | 谷歌发布72量子比特处理器,或将为机器学习应用提供加速;百度已经发起对景驰撤诉,但不会对王劲撤诉

    整理 | Leo 一分钟AI 查理·芒格评人工智能商业化:我靠自己的常识已经生活得很好了,从未想过进入人工智能领域 谷歌发布72量子比特处理器,或将为机器学习应用提供加速 百度成立"智能生活 ...

最新文章

  1. 二维码QR Code简介及其解码实现(zxing-cpp)
  2. globalmapper如何选取图像上的点_20. 用于纹理合成和转移的图像缝合
  3. 用存储过程实现数据分页
  4. 2014 ecb,_it’s_easy_as_123(修改bmp文件头) 攻防世界;
  5. 【微信小程序】 自定义导航栏(navigationStyle=custom)
  6. js原型链。。fuck
  7. mysql php 全是字符串,PHP MySQL中有多个htmlspecialchars字符串
  8. 华为 AP 3010 SSH 配置
  9. 1371. 每个元音包含偶数次的最长子字符串
  10. linux日志清除脚本,linux 日志清除脚本
  11. 【结巴分词】浅谈结巴分词算法原理
  12. 单内核,微内核,混合内核OS结构比较
  13. oracle 基础知识(十四)----索引扫描
  14. 全球语种谱系图,看看机器翻译需要跨越的大山
  15. pvid与access的关系_浅谈PVID和VID区别
  16. 梦想,因坚持而绽放——答大学生的兴趣与行动
  17. 里去频闪的插件叫什么_冬天去海南,你才会发现什么叫“不枉此生”!
  18. 中国象棋---棋盘/棋子
  19. iOS开发之录屏时如何使系统录不到敏感信息
  20. 利用机器学习算法挖掘群控网络黑产设备

热门文章

  1. 备考12月份电子学会青少年编程能力等级测试(图形化)的公益训练营即将开营
  2. 【PAT (Basic Level) 】1028 人口普查 (20 分)
  3. 【Python】Radiobutton组件 LabelFrame组件 Entry组件
  4. 冬奥会夺金的背后杀手锏,竟是位 AI 虚拟教练
  5. 2021全球最具影响力 AI 学者榜单: 中国占比11.1%,位列第二
  6. 对标Oculus Quest2,爱奇艺奇遇VR打的什么牌?
  7. 针对《评人工智能如何走向新阶段》一文,继续发布国内外的跟贴留言457-465条如下:
  8. 干货 | OpenCV看这篇就够了,9段代码详解图像变换基本操作
  9. 姚班三兄弟3万块创业八年,旷视终冲刺港股
  10. 深入了解AI加速芯片的定制数据流架构与编译器 | 公开课