视学算法报道  

来源:AIM

编辑:好困

【新智元导读】不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少!

GPT-4官宣?

近日,OpenAI的首席执行官Sam Altman出席了「the AC10 online meetup」的线上QA,并透露了关于GPT-4的最新消息。

去年,OpenAI在一篇题为「语言模型是小样本学习者」的论文中介绍了当时最大的神经网络GPT-3。

作为最先进的语言模型,GPT-3包括1750亿个参数,而其前身GPT-2的参数为15亿,并且击败了之前保持「有史以来最大」记录的图灵NLG模型(170亿)。

由于OpenAI几乎是每间隔一年就发布一个GPT模型:2018年发布了GPT-1,2019年发布了GPT-2,2020年发布了GPT-3。

到了2021年,网络上对于测GPT-4的猜测就如雨后春笋一般层出不穷。

例如7月份的一篇报道预测GPT-4或许会有10万亿的参数量。

也有文章表示GPT-4的参数量将与大脑的突触一样多,达到100万亿个。

甚至连OpenAI的「自己人」也觉得这怎么也得有个100亿吧。

然而,谁也没有想到,GPT-4的参数竟然比GPT-3还少!

GPT-4的期待

Altman在采访中表示:「与流行的看法相反,GPT-4不会比GPT-3大,但会使用更多的计算资源。」

实现这一点,GPT-4将使用与之前GPT模型不同的方法,包括数据算法和微调,这其中的重点显然是在较小的模型中获得最大的收益。

通常认为,一个模型的参数越多,它能实现的任务就越复杂。

不过,有越来越多的研究指出,一个模型的有效性可能不一定像人们认为的那样与它的大小相关。

例如,最近一项来自谷歌的的研究表明,比GPT-3小得多的模型:微调语言网(FLAN),在一些具有挑战性的基准上比前者提供了更好的结果。

https://arxiv.org/pdf/2109.01652.pdf

这篇标题为「微调语言模型是零样本学习者」的论文,似乎是直指OpenAI的那篇GPT-3论文,火药味十足。

言归正传,从Altman的发言中可以看出,OpenAI也一直在摸索如何通过训练较小的模型来完成一些任务,并达到更好的效果。

Altman还表示,GPT-4将更加关注代码的生成,也就是更接近OpenAI通过API在私人测试中发布的Codex模型。

Codex是GPT-3的衍生版本,也是GitHub Copilot的基础。

它能理解十几种语言,还能用自然语言解释简单的命令,并代表用户执行这些命令,允许为现有的应用程序建立自然语言界面。

只要对Codex发号施令,它就会将英语翻译成代码。

比如:「add this image of a rocketship」

随后,这张火箭照片就被添加进来了:

Codex不仅能够收到指令后自行编程,还能够开发个小游戏。

此外,Codex还能接受语音指令。

「啪,每行开头的空格消失了!」

除了GPT-4之外,Altman还表示,之后的GPT-5或许能够通过图灵测试。

不过,这可能并不值得付出努力去做。

DALL.E将开源

DALL.E要开源了!

DALL.E与GPT-3一样,也是一个Transformer语言模型。

作为GPT-3的120亿参数衍生版本,它将文本和图像作为单一的数据流接收,其中包含多达1280个词元,并使用最大似然法进行训练。

自然语言输入是一个完全开放的沙盒,如果能按照模型的喜好使用文字,你几乎可以创造任何东西。

DALL-E文本到图像的端到端生成

由于OpenAI一直没有开源DALL.E,因此之前的创作都是基于图像标注模型CLIP。

在概念上,这种从文本描述生成图像的想法与DALL.E模型惊人地相似,但实际上却完全不同。

DALL.E是直接从语言中产生高质量的图像而进行的端到端训练,而CLIP则是使用语言来引导现有的无条件图像生成模型。

而这些基于CLIP的方法要相对拙略一些,所以输出的结果并不像DALL.E那样具有很高质量和精确度。相反,这些生成的图像是怪异、迷幻和抽象的。

正是这种怪异使这些基于CLIP的作品如此独特,让人在熟悉的事物上看到完全不同的结果。

「牛油果形状的扶手椅」:上图由DALL.E生成,下图由CLIP生成的

AGI:算法、数据和计算机

对于AGI,UCLA的计算机科学教授、人工智能先驱Stuart Russell表示深度学习是不足实现的。

「关注原始计算能力完全没有抓住重点。我们不知道如何让一台机器真正智能化,即使它有宇宙那么大。」

相比之下,OpenAI相信,在大型数据集上输入大型神经网络并在巨大的计算机上进行训练是实现AGI的最佳途径。

OpenAI的首席技术官Greg Brockman表示:「谁拥有最大的计算机,谁就能获得最大的好处。」

此外,OpenAI相信缩放假说:给定一个可扩展的算法,如GPT系列背后的基本架构Transformer,就可能有一条通向AGI的直接路径,包括基于该算法训练越来越大的模型。

但大型模型只是AGI难题的一个部分,训练它们需要大型数据集和大量的计算能力。

当机器学习界开始揭示无监督学习的潜力时,数据不再是一个瓶颈。

再加上生成性语言模型,以及少量的任务转移,也就解决了「大型数据集」问题。

OpenAI只需要巨大的计算资源来训练和部署他们的模型就可以了。

这或许就是在2019年决定与微软合作的原因,这样就通过授权微软在商业上使用OpenAI的模型,以换取使用其云计算基础设施和所需的强大GPU。

参考资料:

https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/

https://towardsdatascience.com/gpt-4-will-have-100-trillion-parameters-500x-the-size-of-gpt-3-582b98d82253

点个在看 paper不断!

不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减相关推荐

  1. 如何训练2457亿参数量的中文巨量模型“源1.0”

    如何训练2457亿参数量的中文巨量模型"源1.0" 浪潮人工智能研究院 从2018年的BERT到2020年的GPT-3,NLP语言模型经历了爆发式的发展过程,其中BERT模型的参数 ...

  2. Meta开源1750亿参数GPT-3,打脸OpenAI?网友点评:GPT-4都要来了

      视学算法报道   编辑:LRS [新智元导读]OpenAI的GPT-3已发布两年,但还是只听说过,没见过.最近Meta复现了一遍GPT-3,改名OPT,把代码.权重.部署都开源了出来,并且还更环保 ...

  3. OpenAI CEO Sam Altman:巨型 AI 模型时代即将终结!

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 「巨型 AI 模型时代即将终结」,当这句话最新出自 OpenAI CEO Sam Altman 之口时,业界哗然. 毕竟在过去一段时间中, ...

  4. 1750亿参数,史上最大AI模型GPT-3上线:不仅会写文章、答题,还懂数学

    「我们训练了 GPT-3,一种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍.我们在 few-shot 情况下测试了它的性能.」 本周五,OpenAI 提出的 ...

  5. GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

    2020-06-02 12:01:04 OpenAI最强预训练语言模型GPT-3周四发表在预印本 arXiv 上,1750亿参数! GPT系列的预训练语言模型一直是大力出奇迹的典型代表,但是一代和二代 ...

  6. 人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷

    这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 "继比特币之后又一个轰动全球的现象级新技术&q ...

  7. 强大如 GPT-3,1750 亿参数也搞不定中国话

    2020-08-14 17:31:34 2019 年,GPT-2 凭借将近 30 亿条参数的规模拿下来"最强 NLP 模型"的称号:2020 年,1750 亿条参数的 GPT-3 ...

  8. 「炫富」的GPT-3来了:31位作者,45TB数据,72页论文,1750亿个参数,会编故事,还会三位数加减法...

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 那个语言模型又迭代了,现在有1750亿个参数. 这个让英伟达狂喜,让调参师流泪的数字来自OpenAI,史上最大AI语言模型-- GPT-3 ...

  9. 重磅!Meta AI开源OPT-175B:1750亿参数大模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:机器之心 |  编辑:陈萍 OPT-175B,使人工智能更加开放和可复制. Meta AI 在昨 ...

最新文章

  1. KOA 在typescript下编译找不到模板render和session错误的解决
  2. input的onkeyup效果 超级简短代码
  3. 信息学奥赛一本通(2049:【例5.19】字符串判等)
  4. css使图片变成黑白效果 - 代码篇
  5. 【BZOJ】【1036】树的统计
  6. Java中final、finally、finalize的理解
  7. 算法笔记_面试题_数组/链表/跳表/各种数据结构复杂度对比
  8. 初步接触Java中的Lambda表达式
  9. Python-Numpy语法总结-数组的创建
  10. 已知鸡兔共35只c语言,三支一扶行测备考数量关系:简单计算之鸡兔同笼
  11. Quartz表达式校验方法
  12. 动手深度学习PyTorch(三)模型选择、欠拟合和过拟合
  13. 计算机usb接口无法读取,USB接口不识别设备的问题及处理办法
  14. 电影文件的合并与分割
  15. Android学习笔记---集成百度语音合成的坑与坑
  16. D3DCULL_CW 和 D3DCULL_CCW
  17. linux启动tomcat权限不足
  18. [PHP问题]Cannot redeclare xxxxxx() (previously declared in C:\WWW\xxx.xxx:xxx)
  19. 海量数据处理面试题集锦
  20. 基于面向对象 来写一个简单的贪吃蛇小游戏(代码可直接用)

热门文章

  1. 使用WinINet和WinHTTP实现Http訪问
  2. 【青少年编程】【一级】小镇一日游
  3. Datawhale组队学习周报(第013周)
  4. Modeling System Behavior with Use Case(3)
  5. 基于 Opencv 实现眼睛控制鼠标
  6. 写代码时发现......还得是 SpringBoot !一篇拿下
  7. GPT-3模型为何难以复现?这也许是分布式AI框架的最优设计
  8. 只给测试集不给训练集,要怎么做自己的物体检测器?
  9. ​50年来最具影响力的十大编程语言!
  10. 近900000条if-then关系图谱,让神经网络“懂”常识推理