本文约2200字,建议阅读9分钟
为什么简单的神经网络扩展策略却如此有效?

对人类来说,对生拇指(opposable thumbs)的出现是一个重大的时刻。那么,如果在进化过程中大自然又赐给我们额外的拇指,人类使用工具的能力是否会更强呢?情况可能不会有太大改观,毕竟一只手有一个拇指就够了。

但对神经网络而言,并非如此。

神经网络已经成为执行类人任务(human-like)的领先AI系统。随着其规模越来越大,理解力也随之增强。这无疑对研究者来说,惊喜与挑战并存。

基本的数学结果表明,网络差不多大就可以了,但现代神经网络的规模往往远超出预测需求——这种情况被称为过度参数化(over-parameterization)。

一般来说,只要参数的数量大于要满足的方程的数量,就可以使用参数化模型类进行数据插值。

而深度学习中一个令人费解的现象是,模型的训练参数比这个经典理论所暗示的要多得多。具体而言,求解n个方程一般只需要 n 个未知数。然而,革命性的深度学习方法围绕着高度参数化的模型,从 n 个训练数据点学习的参数远远超过 n 个。

NeurIPS 会议上发表的一篇题为“A Universal Law of Robustness via Isoperimetry”论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 对规模扩展成功背后的奥秘提供了新的解释:找到一个拟合d维数据的平滑函数至少需要nd参数。

换句话说,d 因子的过度参数化对于平滑插值是必要的,这也恰好表明,深度学习中使用的大尺寸模型是有用的,而非框架的弱点。

而且,神经网络必须比传统的预期要大得多,才能避免某些基本问题。

这一发现为一个持续了几十年的问题提供了普适性的见解。

“这是一个非常有趣的数学理论结果。”瑞士洛桑联邦理工学院的Lenka Zdeborová说道。“他们以一种非常普遍的方式证明了这一点。因此,从该意义上说,它将成为计算机科学的核心。”

对神经网络规模的标准期望,来自于对它们如何记忆数据的分析。但要理解记忆,首要做的是理解网络。

神经网络的一个常见任务是识别图像中的物体。为了创建这样的网络,首先,研究人员需要提供大量的图像和标签,以训练其学习数据之间的相关性。然后,网络将会在所看到的图像中进行正确地的识别。换句话说,训练会使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能以不同程度的准确度预测从未见过的物体标签,即泛化。

可以说,网络的规模决定了它的记忆量。

这点可以借助图形的方式加以理解。想象一下,在xy平面上得到了两个数据点。接下来,你可以将这些点与一条由两个参数(线的斜率和穿过垂直轴时的高度)描述的线相连接。如果给定其他人这条线,以及其中一个原始数据点的x坐标,那么,他们只需查看这条线(或使用参数)就可以找出相应的y坐标。因为,这条线已经记住了这两个数据点。

当然,神经网络与之类似。例如,图像由数百或数千个值描述——每个像素对应一个值。构成这个组合的自由值,在数学上就等价于高维空间中的点的坐标,而坐标的数量称为维数。

一个古老的数学结果表明,要用曲线拟合n个数据点,需要一个包含n个参数的函数。当神经网络在 20 世纪 80 年代首次作为一股力量出现时,思考同样的事情是有意义的。无论数据的维度如何,他们应该只需要n个参数来拟合n个数据点。

“这不再是将会发生的事情,”德克萨斯大学奥斯汀分校的 Alex Dimakis 说。“现在,我们常规地创建神经网络,它的参数比训练样本的数量还要多,这意味着书必须重写。”

他们正在研究神经网络需要加强的另一种特性——鲁棒性,即网络处理微小变化的能力。例如,一个鲁棒性差的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改的版本错误地标记为沙鼠。2019 年,在 Bubeck 和同事们意识到这个问题与网络规模有关时,也试图进行一些与之相关的定理证明。

据研究推测,鲁棒性法则应该适用于所有的两层神经网络。在本文中,研究团队也证明了它实际上适用于任意光滑参数化函数类,只要参数的大小至多为多项式。而且多项式大小限制对于有界深度神经网络是必要的。

Bubeck 说:“我们当时正在研究对抗的例子,然后网络规模就强行加入了进来。于是,我们意识到这或许是一个令人难以置信的机会,因为涉及到了解规模本身的一系列问题。”

在研究过程中,这对搭档证明了过度参数化对于网络鲁棒性的必要程度。随后,他们通过计算需要多少个参数来将数据点与具有等同于鲁棒性的曲线拟合,得出了平滑性(smoothness)。

为了充分理解该点,再次回想平面中的曲线,其中 x 坐标表示单个像素的颜色,y 坐标表示图像标签。由于曲线是平滑的,如果对像素颜色稍加修改,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于明显锯齿状的曲线,x 坐标的微小变化可能诱发y坐标的剧烈变化。

这项研究表明,平滑拟合高维数据点并非需要 n 个参数,而是高达 n × d 个参数,其中 d 是输入的维数(例如,对于 784 像素的图像,d 值为 784)。

换句话说,如果你希望网络能可靠地记忆其训练数据,过度参数化不仅有帮助,而且是强制性的。这一证明依赖于高维几何的一个奇怪的事实,即在球面上随机分布的点彼此之间几乎都是一个直径的距离。点之间的巨大间隔意味着用一条平滑的曲线拟合它们,需要许多额外的参数。

“这个证明非常简单——不需要复杂的数学运算,而且说明了一些非常普遍的原理,”耶鲁大学的 Amin Karbasi 说。

该结果提供了一种新颖的方法,以更好地理解为什么简单的神经网络扩展策略却如此有效。

除了这次的研究之外,其他相关的一些研究,也揭示了过度参数化之所以有用的原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然依据目前所知,过度参数化对于鲁棒性是必要的,但尚不清楚鲁棒性对其他事物究竟有多重要。但是,如果能将其与过度参数化联系起来,新的研究便给出了明示,鲁棒性极有可能比人们想象的更重要。

编辑:黄继彦

校对:林亦霖

研究揭秘:神经网络越大、表现越好的“神秘力量”相关推荐

  1. 模型越大表现越差,这个比赛悬赏25万美元找大模型不擅长的任务,去试试?...

    视学算法报道 编辑:张倩 帮大模型找 bug 还能赚钱,去试试? 「找到一项任务,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金.」这是纽约大学的几位研究人员组织的一项另类竞赛. 随着语言 ...

  2. 【科创人XTGO】别被《人月神话》毒害,“组织越大效率越低”是误区

    与上千位科技创业者共同关注科创人的成长心路. 绩效考核是所有技术管理者的"持久的痛".在本文中,方云研发绩效创始人于人从绩效的概念开始,分析绩效考核与绩效管理的异同,从四维组织力模 ...

  3. mysql limit 越大越慢_mysql 优化之14:php mysql limit 分页优化,页面值越大查询越慢...

    php mysql limit 分页优化,页面越大查询越慢 一.测试前言 当前测试表:nodes_hierarchy目前数据量为20多万 程序分页中我们经常使用的核心sql语句select * fro ...

  4. 关于为什么频宽越大传输越快 、 频率越高传输距离越短

    关于为什么频宽越大传输越快 . 频率越高传输距离越短 频宽可以理解为水管,通常网络传输中越快的意思是单位时间内数据的吞吐量越大表示越快,频宽越宽水管越大,在同等流速情况下,水管越大的在单位时间内流出的 ...

  5. 计算机硬盘越大运行速度越大吗,固态硬盘越大运行速度越快吗

    固态硬盘越大运行速度越快,原则上来说是对的,固态硬盘容量越大运行速度越快寿命越长,但主要差距在60G,120G和240G固态硬盘之间,例如120G的最大写入速度在300M/S左右,240的最大写入速度 ...

  6. 通常计算机的存储容量越大性能就越好吗,为什么计算机的内存越大速度越高?...

    首先这个问题本身就有毛病,我们需要知道计算机的运行速度不仅仅是由它的内存来决定的.除了内存外还有CPU,缓存,频率,硬盘读写速度等因素都可能影响计算机的运行速度.电脑的CPU是用来处理数据的,CPU的 ...

  7. 计算机硬盘容量越大运行速度越快,固态硬盘容量越大运行速度越快吗 固态硬盘运行速度分析...

    现在很多人在组装电脑时都会优先选择固态硬盘,那么固态硬盘容量越大运行速度越快吗?这里给大家介绍一下. 固态硬盘容量越大运行速度越快吗 ? 理论上来说,固态硬盘容量越大,IPOS性能越好,随机读写速度越 ...

  8. 计算机的储存容量越大性能就越好吗,内存真的是容量越大频率越大就越好吗?...

    这段时间由于工作比较忙没时间天天更新,今天趁现在手中无事,来回答最近很多网友问我的一个问题,不知道他们从哪里听说的内存容量越大,频率越高就一定越好,今天我们就来谈谈这个内存容量和频率是不是真的越大就越 ...

  9. 责任越大权利越大,不要自我设限

    责任越大权利越大,不要自我设限 阅读引导: 1.责任越大,权利越大,机会越大. 2.绝不自我设限. 在蜘蛛侠电影中有一句名言:能力越大,责任越大. 但在职场上面,应该是:责任越大,权利就越大. 我们往 ...

  10. 【深度学习】卷积越大性能越强!RepLKNet一作在线分享:Transformer阴影下的超大卷积核复兴...

    你有多久没调过 kernel size 了?在下游任务上,Transformer 明显优于传统 CNN,这是因为 Transformer 本质更强吗?传统堆叠大量 3x3 卷积的 CNN 设计模式是最 ...

最新文章

  1. Oracle的基本操作(二:存储过程)
  2. 设计一条简单的等待工作队列之软件模型设计与实现(二)
  3. 各种常用的WINFORM控件遍历
  4. MFC文档、视图类的基本功能和二者基本关系
  5. nginx 配置expires
  6. Socket编程实践(11) --epoll原理与封装
  7. 验证堆表(heap table)存储方式
  8. 手机NFC天线的集总参数设计
  9. clonezilla的可启动U盘的制作及使用
  10. 蓝桥杯2021年PYTHON 真题,跳房子
  11. LR下载文件脚本实例
  12. Exp10 Final “西普杯”北京天津CTF预选赛真题 writeup
  13. JavaScript-switch条件分支语句
  14. WPA3的特点有哪些?
  15. Matlab用figure;subplot后合并子图
  16. Hologres 助力飞猪双11实时数据大屏秒级响应
  17. CDH6.3.1安装指南
  18. 微信电脑版收到的表格文件保存到桌面打开后不显示内容
  19. 为什么ZMap用一个小时内就能扫遍整个互联网
  20. Python编程入门学习笔记(十)

热门文章

  1. 【c语言】蓝桥杯算法提高 P0101
  2. java postdelayed_你真的懂Handler.postDelayed()的原理吗?
  3. Atitit r2017 r6 doc list on home ntpc.docx
  4. 静态页面和动态页面的区别
  5. 《Adobe Illustrator CC 2014中文版经典教程(彩色版)》—第2课2.6节隐藏和锁定对象...
  6. yii权限rbac验证三张表字段说明
  7. 01_Difference between case object and object
  8. Predictably Irractional - 零成本的成本
  9. python安装不上pyinstaller_记PyInstaller安装过程及问题解决
  10. c51单片机矩阵键盘1602计算器_单片机LCD1602+矩阵+计算器程序(有详细代码注释)