计算机科学家证明，为什么更大的神经网络可以做得更好

来源：ScienceAI

编辑：萝卜皮

我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指，事情可能不会有太大改善。每只手一个拇指就足够了。

神经网络并非如此，这是执行类人任务的领先人工智能系统。随着他们变得更大，他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明，网络应该只需要这么大，但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。

在 12 月在领先会议 NeurIPS 上发表的一篇论文中，微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明，神经网络必须比传统预期的要大得多，才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。

论文链接：https://arxiv.org/abs/2105.12806

「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说，「他们以这种非常通用的方式证明了这一点。所以从这个意义上说，它会触及计算机科学的核心。」

对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆，我们必须首先了解网络的作用。

神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络，研究人员首先为其提供许多图像和对象标签，对其进行训练以学习它们之间的相关性。之后，网络将正确识别它已经看到的图像中的对象。换句话说，训练使网络记住数据。更值得注意的是，一旦网络记住了足够多的训练数据，它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。

网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下，将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来：线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线，以及一个原始数据点的 x 坐标，他们只需查看这条线（或使用参数）就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。

神经网络做类似的事情。例如，图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标；坐标的数量称为维度。

一个古老的数学结果表明，要将 n 个数据点与曲线拟合，你需要一个具有 n 个参数的函数。（在前面的示例中，两个点由具有两个参数的曲线描述。）当神经网络在 1980 年代首次成为一股力量时，思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。

「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说，「现在，我们经常创建参数数量超过训练样本数量的神经网络，这意味着必须重写这些书。」

Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性，称为稳健性，这是网络处理微小变化的能力。例如，一个不健壮的网络可能已经学会了识别长颈鹿，但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年，当 Bubeck 团队意识到该问题与网络规模有关时，他们正在寻求证明有关该问题的定理。

Bubeck 说：「我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会，因为需要了解规模本身。」

在他们的新证明中，这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点，该曲线具有与稳健性等效的数学属性：平滑度。

为了看到这一点，再次想象平面中的一条曲线，其中 x 坐标代表单个像素的颜色，y 坐标代表图像标签。由于曲线是平滑的，如果稍微修改像素的颜色，沿着曲线移动一小段距离，相应的预测只会发生很小的变化。另一方面，对于极度锯齿状的曲线，x 坐标（颜色）的微小变化会导致 y 坐标（图像标签）的剧烈变化；长颈鹿可以变成沙鼠。

Bubeck 和 Sellke 表明，平滑拟合高维数据点不仅需要 n 个参数，还需要 n × d 个参数，其中 d 是输入的维度（例如，784 表示 784 像素的图像）。换句话说，如果你想让网络健壮地记住它的训练数据，过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实，即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。

耶鲁大学的 Amin Karbasi 说：「证明是非常初级的——没有繁重的数学，它说明了一些非常笼统的东西。」

结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。

其他研究揭示了过度参数化有帮助的其他原因。例如，它可以提高训练过程的效率，以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的，但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来，新的证明暗示稳健性可能比想象的更重要，一个可以释放许多好处的单一密钥。

「稳健性似乎是泛化的先决条件。」Bubeck 说，「如果你有一个系统，你只是稍微扰乱它，然后它就失控了，那是什么样的系统？这是不合理的。我确实认为这是一个非常基础和基本的要求。」

计算机科学家证明，为什么更大的神经网络可以做得更好相关推荐

一个人只有敢于承担责任，才有可能被赋予更大的责任。做不
什么是责任?有人诠释得很精妙--它包括两个基本方面:"责"和"任".就"责"而言,如果没有做好自己分内的事,就应该承担相应后果而受到责罚:就 ...
力扣【下一个更大元素】leetcode-503.下一个更大元素 Ⅱ：单调栈解法+循环数组解法
题目: 思路与解法: 1.如果是暴力法,只需要遍历就可以了,但是那样的话时间复杂度就是O(N^2); 2.可以把这几个数字,抽象成为高度不一样的柱子: 3.寻找的过程,就是从当前柱子去看,被后面的哪一 ...
496. 下一个更大元素 I/503. 下一个更大元素 II/739. 每日温度
2020-05-10 1.题目描述下一个更大元素 2.题解 1.直接进行暴力搜索 2.既然题目的标签是栈,就应该用到栈先进后出的特性,参考了官方的题解之后,我认为最能体现这种特性的就是要找到下一个 ...
【拆解】Apple Watch Series 6 ，电池更大、陶瓷和蓝宝石外壳更薄，更强硬，更耐磨！...
国外知名拆解机构iFixit 对今年新发布的 Apple Watch Series 6,并分享了详尽拆解,今天和大家一起观摩一下. Apple Watch Series 6 与 Series 5 对 ...
计算机科学家帕斯卡,帕斯卡-世界上最伟大的科学家排行榜-天天排行网
帕斯卡,法国著名数学家.物理学家.思想家,近代概率论的奠基者.他提出了关于液体压力的一个定律,被后人称为帕斯卡定律.他设计制造了世界上第一架数字计算器.第一个水银气压计.他在帕斯卡定律的基础上发明了注 ...
ViTAEv2世界第一：6亿参数模型，ImageNet Real 91.2%最高准确率，更大模型、更多任务、更高效率...
关注公众号,发现CV技术之美以超大规模模型和无监督预训练方法为代表的超级深度学习技术,正在深刻地影响着人工智能领域的研究进展,在机器视觉.自然语言处理.多模态分析等多个领域不断取得突破.超级深度模型 ...
对网络骚扰和霸凌说不！神经网络可以做得更好
导语:无论在论坛.评论区还是游戏聊天界面,网络骚扰和网络霸凌都是一件让人烦恼的事.怎样避免这些烦人的问题?也许本文介绍的神经网络模型,可以对于使用AI技术手段解决这些问题有所启示. 译者 | Rach ...
计算机科学家Erik Meijer眼中的Hacker Way工作方式
九月份在GoTo 2015大会上,和函数式编程.反应式异步编程有着紧密关联的,响当当的计算机科学家Erik Meijer在大会上与参会者分享了自己在接下来人生里最后几年的规划和打算,包括,他是如何看待 ...
android大屏适配_大屏开创者三星Note系列，也要被更大屏的折叠屏手机取代了
临近年关,各个手机厂商们的旗舰产品也都发布的差不多了,发布会数量也在逐渐减少,紧随而来的就是一年一度的手机曝光大赛了,关于明年旗舰产品的信息也开始逐渐浮出水面. 其中一条关于三星旗舰的曝光信息则比较特 ...

计算机科学家证明，为什么更大的神经网络可以做得更好

计算机科学家证明，为什么更大的神经网络可以做得更好相关推荐

最新文章

热门文章