模型越大，真的越香吗？千亿参数之后是万亿，万亿之后呢？

‍

智源导读：自2018年谷歌提出BERT模型以来，以BERT、GPT等为代表的模型越来越往「大」这一方向发展，短短3年时间，模型参数已经从最初3亿，扩张到万亿规模。与此同时，以T5、GPT-3等为代表的预训练大模型，不仅在各个NLP任务中取得SOTA结果，还同时深刻影响了CV、语音等研究领域的发展。

构建「大模型」来提升性能，逐渐成为通向通用智能的一个可行方案。智源研究院最近也发布了「悟道」模型，在中文预训练、多模态、认知以及蛋白质预测等方面取得了显著的提升。

但是，这自然带来一个灵魂之问：构建越来越大的模型，真的就会越来越好吗？大模型之路，真的能够通向通用智能吗？

在3月20日，智源研究院举办的“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”上，由六位研究者分别针对这一问题，给出了 “YES or NO”的答案。

整理 | 熊宇轩

编辑 | 贾伟

问：对于未来的研究，模型真的越大越好吗？

发言嘉宾（按先后顺序）：

裘捷中 | 清华大学博士生

杨植麟 | 循环智能智源青年科学家

邓亚峰 | 360集团副总裁，人工智能研究院及搜索事业部负责人

王仲远 | 快手多媒体内容理解部负责人

文继荣 | 中国人民大学智源首席科学家

刘知远 | 清华大学智源青年科学家

边际效应在递减，性能上限仍未知

裘捷中：YES！

但是模型的性能有一个不明确的上限。以谷歌发布的拥有 1.6 万亿参数的 Switch Transfomer 为例，当谷歌把参数量提升了一个量级后，确实会对性能有所提升，但是此时带来的性能收益已经没有以前那么「惊艳」了，并没有在某个任务上将性能提高数十个点。

这似乎是一种边际效应递减的现象。不过我们目前仍然无法判断性能的上限究竟有多高。

超大规模模型调优问题仍未解决

杨植麟：YES but NO！

从「Yes」的角度来说，从 ELMo 到 Bert 再到之后的一系列模型，预训练模型的性能一直在提升，这是一个非常强的证据。

从「No」的方面说，通过最近的一些实验观测结果，我们发现人们似乎之前陷入了一个误区。GPT-3 之所以取得了非常好的效果，在一定程度上并不是因为它是一个非常大的模型，而是因为它找到了一种「提示」的方法，这些方法也可以应用到非常小的模型上，达到更好的效果。我们之前在「PET」和「P-Tuning」中的工作都给证明了上述观点。

此外，超大规模模型的 Fine-Tuning 调优还没有很好地得到解决。之所以 GPT-3 没有做调优，Switch Transfomer 调优效果不好、 Bert 没有百亿级参数的模型，本质上都是因为超大规模模型的调优问题还没有被解决。

在 NLP 领域中，我们对参数量达到百亿、千亿的模型进行调优，得到的效果往往是很差的。

我们刚发现这个问题，但是我们也相信该问题在将来可以被解决，我们会尝试在更大的模型上使用 P-Tuning 等技术。

使用超大规模的模型在未来是一个非常确定的趋势，但是在实现该目标的过程中还需要解决一系列技术上的问题，其中有一些是具体的问题（例如，如何使 P-Tuning 生效），还有一些问题是更加本质的问题（例如，如何从预测任务迈向决策任务）。

通用领域，YES；专用领域，NO

邓亚峰：YES and NO.

我认为在通用领域的答案是「Yes」，而某在专用领域的答案是「No」。

我从 2012 年开始关注深度学习技术在计算机视觉和自然语言处理领域的应用，模型的加深和大规模数据的应用是推动该领域模型效果不断提升的根本动力。

人的大脑神经元数量是千亿规模的，其中每个神经原有 1,000 个左右的突触，而 GPT-3 的参数量是 1,700 多亿。可见，当前模型的参数规模可能也没有达到通用人工智能所要求的水平。从工业界的角度来说，我们需要通过更大的模型获取更好的性能。

但是从「No」的角度来看，现在的深度学习模型采用的是非常暴力的映射关系，没有考虑到知识和逻辑性，有很多的映射关系还需要进一步细化。然而，这个周期相对会比较长，工业界希望先看到模型的效果，将产品落地，再逐渐进行优化。

在专有领域中，这个问题的答案可能是「No」。对于专有领域的应用而言，硬件在进行推理时，可能无法承载超规模大的预训练模型。所以，我们需要在专有领域中针对具体应用进行模型的裁剪和优化。此外，有时专有领域也不需要超大规模的模型，不恰当的网络架构的设计也许会造成对计算资源极大的浪费。

大，只是相对的大

王仲远：YES！

就现阶段而言，模型肯定是越大越好。首先，模型的「大」是相对于「小」而言的，那么我们如何定义「大」模型呢？

上世纪 60 年代，图灵奖获得者马文·明斯基在批判第一代神经网络时，认为它所需要的计算量很大，此时的「大」指的是数十 KB。在如今看来，这种规模的数据量可以说是极小的。因此，试想一下，在二十年后，如今我们眼中的「大」模型，是否还能称之为真正的大模型呢？

此外，「模型是不是越大越好」取决于对比基准。近年来，虽然预训练模型的规模快速增长，但是我们使用的数据量仍然只占人类已有的数据中非常小的一部分。我们之所以还没有充分使用已有的数据有着很多的原因，这涉及到算法和模型的设计、硬件所能支持的算力，以及如何最高效地使用训练出来的模型。讨论「模型是不是越大越好」这一问题与现有的对比基准十分相关，许多证据都表明目前我们还处在非常初级的阶段。

模型再大，无法穷尽真实世界

文继荣：YES！

我坚定地认为模型越大越好。我曾经在很长一段时间内研读过哲学，起初我认为这个世界不可理解、不可掌控，于是非常烦恼。后来，我研读了《逻辑哲学论》，该书作者维特根斯坦是一名语言哲学家，他认为整个世界的语言有一套逻辑体系，这套体系是一个规则化表述的小模型。当时，很多人都怀揣着和他一样的梦想，构建这样一套体系。

然而，在已经影响了一个学派的情况下，维特根斯坦在接下来的研究中推翻了自己之前的结论。他认为从语用学的角度来说，语言不可以通过一套规则化的逻辑体系解释。他认为，任何一个词都没有固定的含义，在不同的情境下词义会产生变化，其意义还会随着环境和时代的改变而不停变化。

这个意义来讲，自然语言是不可能穷尽的，它会不停地演化。实际上，语言模型、图像等人类真实世界场景下的诸多问题都是无法穷尽的。因此，在人工智能技术需要面对各种各样的应用场景的情况下，模型还是越大越好，否则无法涵盖大部分需要考虑的因素，除非我们需要解决的问题本身就有边界（我们可以通过编写一些规则来解决）。

此外，有的研究者发现随着模型的规模越来越大，效果的提升反而不明显了。这可能是模型本身的问题，我们对模型的改进是在做无用功，并没有从根本上增强模型的能力。还有一种可能是，我们所使用的数据无法真正涵盖新的样本，可能跟以前的数据重复了。

大，不是目的，而是手段

刘知远：NO

在我看来，就当前的计算框架而言，可能模型越大越好，因为它可以容纳更多的数据。但是，从长远来看，我认为现在的模型缺少归纳的能力，它基本上仍然是尝试学习文本数据的表层信息。

在古代，人们还没有掌握万有引力定律和牛顿定律之前，可能会直接记录下物体的各种的运动规律（例如，亚里士多德认为质量较轻的物体会比较重的物体自由落体的速度更慢）。

同理，我认为现在的模型也许仍然缺少总结归纳的能力。同样以预测物体运动轨迹为例，虽然模型记录了物体各种运动的轨迹，但是它没有总结出非常简洁的运动规律。一旦我们实现了对这些现象背后的规律总结，就可以指导着我们去进行推理等工作。

所以我特别赞赏通用人工智能的想法。在未来，我们应该尝试从多模态的、更多的数据中找到更高效的归纳或学习的方式，然后建立起人对世界进行认知的层次化的、有抽象能力的体系。这是一个历史上螺旋式否定的过程，未来的新一代模型可能无需如此多的参数，就可以完成某些现在的任务。在这个基础上，我们又可以让模型变得越来越大，呈现出一种螺旋式上升的过程。

文继荣：我和刘知远老师的观点实际上是不矛盾的。我们确实需要通过归纳，可以在达到同样的性能的情况下，将模型缩小到之前的十分之一。但是我从另一个维度来看这个问题，比如在训练语言模型时，由于语用学的原因，在一年前，模型无法学会「内卷」一词的含义，所以模型会随着环境的变化而不停增长。

扫描下面社区小助手二维码加入预训练模型交流群（请备注“预训练”）????

‍

模型越大，真的越香吗？千亿参数之后是万亿，万亿之后呢？相关推荐

计算机的储存容量越大性能就越好吗,内存真的是容量越大频率越大就越好吗？...
这段时间由于工作比较忙没时间天天更新,今天趁现在手中无事,来回答最近很多网友问我的一个问题,不知道他们从哪里听说的内存容量越大,频率越高就一定越好,今天我们就来谈谈这个内存容量和频率是不是真的越大就越 ...
【科创人XTGO】别被《人月神话》毒害，“组织越大效率越低”是误区
与上千位科技创业者共同关注科创人的成长心路. 绩效考核是所有技术管理者的"持久的痛".在本文中,方云研发绩效创始人于人从绩效的概念开始,分析绩效考核与绩效管理的异同,从四维组织力模 ...
mysql limit 越大越慢_mysql 优化之14：php mysql limit 分页优化，页面值越大查询越慢...
php mysql limit 分页优化,页面越大查询越慢一.测试前言当前测试表:nodes_hierarchy目前数据量为20多万程序分页中我们经常使用的核心sql语句select * fro ...
关于为什么频宽越大传输越快、频率越高传输距离越短
关于为什么频宽越大传输越快 . 频率越高传输距离越短频宽可以理解为水管,通常网络传输中越快的意思是单位时间内数据的吞吐量越大表示越快,频宽越宽水管越大,在同等流速情况下,水管越大的在单位时间内流出的 ...
计算机硬盘越大运行速度越大吗,固态硬盘越大运行速度越快吗
固态硬盘越大运行速度越快,原则上来说是对的,固态硬盘容量越大运行速度越快寿命越长,但主要差距在60G,120G和240G固态硬盘之间,例如120G的最大写入速度在300M/S左右,240的最大写入速度 ...
通常计算机的存储容量越大性能就越好吗,为什么计算机的内存越大速度越高？...
首先这个问题本身就有毛病,我们需要知道计算机的运行速度不仅仅是由它的内存来决定的.除了内存外还有CPU,缓存,频率,硬盘读写速度等因素都可能影响计算机的运行速度.电脑的CPU是用来处理数据的,CPU的 ...
计算机硬盘容量越大运行速度越快,固态硬盘容量越大运行速度越快吗固态硬盘运行速度分析...
现在很多人在组装电脑时都会优先选择固态硬盘,那么固态硬盘容量越大运行速度越快吗?这里给大家介绍一下. 固态硬盘容量越大运行速度越快吗 ? 理论上来说,固态硬盘容量越大,IPOS性能越好,随机读写速度越 ...
责任越大权利越大，不要自我设限
责任越大权利越大,不要自我设限阅读引导: 1.责任越大,权利越大,机会越大. 2.绝不自我设限. 在蜘蛛侠电影中有一句名言:能力越大,责任越大. 但在职场上面,应该是:责任越大,权利就越大. 我们往 ...
模型越大表现越差，这个比赛悬赏25万美元找大模型不擅长的任务，去试试？...
视学算法报道编辑:张倩帮大模型找 bug 还能赚钱,去试试? 「找到一项任务,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金.」这是纽约大学的几位研究人员组织的一项另类竞赛. 随着语言 ...
【深度学习】卷积越大性能越强！RepLKNet一作在线分享：Transformer阴影下的超大卷积核复兴...
你有多久没调过 kernel size 了?在下游任务上,Transformer 明显优于传统 CNN,这是因为 Transformer 本质更强吗?传统堆叠大量 3x3 卷积的 CNN 设计模式是最 ...

模型越大，真的越香吗？千亿参数之后是万亿，万亿之后呢？

模型越大，真的越香吗？千亿参数之后是万亿，万亿之后呢？相关推荐

最新文章

热门文章