「炫富」的GPT-3来了:31位作者,45TB数据,72页论文,1750亿个参数,会编故事,还会三位数加减法...
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
那个语言模型又迭代了,现在有1750亿个参数。
这个让英伟达狂喜,让调参师流泪的数字来自OpenAI,史上最大AI语言模型——
GPT-3。
单单论文就有72页。
OpenAI表示,通过GPT-3,他们证明了无需梯度更新,无需微调,规模更大的语言模型就可以大大改善无关任务和小样本(few-shot)学习的性能,达到最先进微调方法的水准。
在部分任务中,甚至超越了最先进微调方法。
不仅如此,这个语言模型,还能做加减法。
GPT-3是什么
不妨先来看看GPT-3的实际表现。
比如,先告诉GPT-3这样一个示例:
“whatpu”是坦桑尼亚的一种小型、毛茸茸的动物。一个使用whatpu造句的例子是:我们在非洲旅行时,看到了非常可爱的whatpu。
此后不再给GPT-3任何特定任务提示,就向它抛出问题:
“Burringo”是指加速度非常快的汽车。一个使用Burringo造句的例子是:
GPT-3造出的句子是这样的:
在我们的车库里有一辆Burringo,我爸天天开着它上下班。
至于编故事的能力,在500个词的情况下,人类判断出其为AI生成的概率仅为52%。在最佳案例中,判断准确率甚至降到了12%。
能自己编故事、纠正英语语法,甚至,GPT-3还学会了3位数基本运算。
表中,{2,3,4,5}D{+,-}表示2、3、4、5位数加法或减法,2Dx代表2位数乘法,1DC代表1位数复合运算。
无需微调
前文也说到了,达到这样的效果,不需要梯度更新,不需要微调。只需要指定任务、展示少量演示,来与模型文本交互,就能使其完成任务。
这样一来,一方面,对于新任务,就不需要重新收集大量带标签的数据。
另一方面,可以避免微调阶段出现过拟合,导致模型泛化能力下降的问题。
而实现的关键,总结起来就是:大力出奇迹。
不仅模型尺寸增大到了1750亿,数据量也达到了45TB。V100嘛,是“微软提供的高带宽群集中的V100 GPU”。
研究人员将预训练模型在三种不同的设置下进行了探索。
本文的重点放在零样本、单样本和小样本学习上。研究人员没有对GPT-3进行微调,不过,论文谈到,原则上是可以微调GPT-3的。
模型与架构
具体到模型与架构,研究人员采用了与GPT-2相同的模型和架构,不过,在tranformer各层中使用了交替稠密(alternating dense)和局部带状稀疏注意力(locally banded sparse attention)模式,类似于Spare Transformer。
GPT-3的影响
知乎问题「如何评价1700亿参数的GPT-3」 的标签,已经透露出玄机。
知乎用户CloudySky就说,看了GPT-3,再看看自己 i9+2080ti+2TB 硬盘的台式,想想有空还是打开steam,趁打折多买几个3A大作比较合适。
他还发出了灵魂一问:
有见过人用窜天猴去调试火箭发射井嘛?
复旦邱锡鹏教授则认为,Pretrain+finetune仍然会是未来几年的主流。
虽然如此恐怖的计算成本让人有些望而却步,但EECVC联合创始人Dmytro Mishkin认为:
按10年前的标准,ResNet50的计算代价也是令人望而却步的,但事实证明它们的存在是必要的。
也有网友表示:
GPT-3可能还是无法帮助OpenAI盈利,也无法直接上线显著造福网民,但是从中积累的大模型训练经验是OpenAI及其背后的微软Azure一笔巨大的财富。这就像,人类登上火星/月球可能并不能带来直接的资源收益,但是从中积累的科学技术却可以推动人类社会的发展。
做NLP,虽然有了资源不一定行,但是没有资源现在肯定是不行了。
不管怎么说,看到这GPU熊熊燃烧的场面,想必老黄已经乐开了花。
目前,GPT-3尚未开源,可以期待一下,OpenAI这回会挤多久牙膏了。
参考链接
论文地址:https://arxiv.org/abs/2005.14165
GitHub地址:https://github.com/openai/gpt-3
https://zhuanlan.zhihu.com/p/144597974
https://www.zhihu.com/question/398114261/answer/1254053398
https://www.zhihu.com/question/398114261/answer/1254692810
https://www.zhihu.com/question/398458462/answer/1255674578
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
华为MindSpore布道师招募
助力小白成为大牛
告别技术造神,尊重每个开发者。
在开源社区中一起快速成长,共建开源生态!
扫描下图二维码即可报名参与~
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
「炫富」的GPT-3来了:31位作者,45TB数据,72页论文,1750亿个参数,会编故事,还会三位数加减法...相关推荐
- bootmgr快速修复win7_「科普」UEFI+GPT、Legacy+MBR引导模式介绍 引导修复
此贴主要介绍3个内容: 1,磁盘分区表格式:MBR.GPT 2,BIOS引导模式:Legacy BIOS.UEFI BIOS 3,引导修复方法:NTBOOTAutofix工具修复.BOOTICE工具修 ...
- 玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型火爆,已有大小羊驼LLaMA.Vicuna等很多可选. 但这些羊驼们玩起来经常没有ChatGPT效果好,比如总说自己只是一个语言模型.没 ...
- AI「干掉」程序员后,又对艺术家下手了
几十年前,柯达说出了那句经典的广告语,「你负责按快门,剩下的交给我们」.在未来,AI 兴许也会打起类似的广告,「你什么都不用干,剩下的交给我们」. 人工智能领域缺钱,但这两个月来,他们不缺「好消息」. ...
- 《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
- AI突破的「阴暗面」:怎样防止GPT-3跟人类学坏?
原文:IEEE Spectrum 编译:梦佳 近期,大规模语言模型频频出现在公众视野中. 前有Google发布首个万亿级模型 Switch Transformer,参数量达到1.6万亿,速度是Goog ...
- 开发者必备!Github 上 1.6W 星的「黑魔法」,早知道就不会秃头了
转自 | 新智元 来源 | Facebook 编辑 | QJP 当程序员谈论开发设计时,常常会聊到非常多的定律,而Github上的一个名为「hacker-laws」的仓库收录了一些最常见的定律.原则等 ...
- 一年只有0.001「薇」!杜克大学陈怡然教授自嘲「科学家不如带货」
来源:新智元 最近,国内直播带货一姐薇娅偷逃税被罚了! 杭州市税务局稽查局查明,网络主播黄薇(网名:薇娅)在2019年至2020年期间偷逃税款6.43亿元,其他少缴税款0.6亿元,依法对黄薇作出税务行 ...
- 浙大吴飞「舌战」阿里贾扬清:AI内卷与年薪百万,哪个才是真实?
转自:机器之心 为了推动 AI 技术的应用创新,促进人工智能领域的学术交流.人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新 ...
- 微软旷视人脸识别100%失灵!照片「隐身衣」,帮你保护照片隐私数据
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处. 左图,右图,你能看出区别吗? 其实,算法已经悄悄给右边的照片加上了微小的修改. 但就是这样肉眼根本看不出来的扰动,就能10 ...
最新文章
- 在 Linux 中使用超级用户权限
- 知识点小记之转义字符
- [原创]windows server 2012 AD架构 试验 系列 – 5 AD备份与还原
- ctk编译linux,CTK插件框架学习5-插件间通信(Netlink实现热拔插监控)
- 60秒计时器的仿真电路_基于伏秒平衡的同步整流方案探讨
- U盘的RUNAUTO..文件的删除
- 【转载】pyinstaller的使用和几个坑
- 坐标的先对转化clienttoscreen与screentosclient
- Atitit.软件GUI按钮与仪表盘(01)--报警系统--
- Fire Net C++
- 高斯积分(概率积分)以及它与伽马函数之间的关系
- dell笔记本电脑驱动_驱动到底是什么?别再用精灵管家无脑装驱动了
- Swift中数组字典和plist文件的转换
- php fatal error解决,PHP中超时提示Fatal error: 解决办法
- 程序员宝宝们6661儿童节快乐
- PHP 调用金山词霸API获取音标和音频
- python做ui界面_从零开始创建UI
- 关于幼儿教师音乐素养对幼儿成长影响力的研究的论文怎么写呀
- Integration using Feynman technique
- “有心杀敌,无力回天”的无奈