对人类来说,对生拇指(opposable thumbs)的出现是一个重大的时刻。那么,如果在进化过程中大自然又赐给我们额外的拇指,人类使用工具的能力是否会更强呢?情况可能不会有太大改观,毕竟一只手有一个拇指就够了。

但对神经网络而言,并非如此。

神经网络已经成为执行类人任务(human-like)的领先AI系统。随着其规模越来越大,理解力也随之增强。这无疑对研究者来说,惊喜与挑战并存。

基本的数学结果表明,网络差不多大就可以了,但现代神经网络的规模往往远超出预测需求——这种情况被称为过度参数化(over-parameterization)。

一般来说,只要参数的数量大于要满足的方程的数量,就可以使用参数化模型类进行数据插值。

而深度学习中一个令人费解的现象是,模型的训练参数比这个经典理论所暗示的要多得多。具体而言,求解n个方程一般只需要 n 个未知数。然而,革命性的深度学习方法围绕着高度参数化的模型,从 n 个训练数据点学习的参数远远超过 n 个。

NeurIPS 会议上发表的一篇题为“A Universal Law of Robustness via Isoperimetry”论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 对规模扩展成功背后的奥秘提供了新的解释:找到一个拟合d维数据的平滑函数至少需要nd参数。

换句话说,d 因子的过度参数化对于平滑插值是必要的,这也恰好表明,深度学习中使用的大尺寸模型是有用的,而非框架的弱点。

而且,神经网络必须比传统的预期要大得多,才能避免某些基本问题。

这一发现为一个持续了几十年的问题提供了普适性的见解。

“这是一个非常有趣的数学理论结果。”瑞士洛桑联邦理工学院的Lenka Zdeborová说道。“他们以一种非常普遍的方式证明了这一点。因此,从该意义上说,它将成为计算机科学的核心。”

对神经网络规模的标准期望,来自于对它们如何记忆数据的分析。但要理解记忆,首要做的是理解网络。

神经网络的一个常见任务是识别图像中的物体。为了创建这样的网络,首先,研究人员需要提供大量的图像和标签,以训练其学习数据之间的相关性。然后,网络将会在所看到的图像中进行正确的识别。换句话说,训练会使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能以不同程度的准确度预测从未见过的物体标签,即泛化。

可以说,网络的规模决定了它的记忆量。

这点可以借助图形的方式加以理解。想象一下,在xy平面上得到了两个数据点。接下来,你可以将这些点与一条由两个参数(线的斜率和穿过垂直轴时的高度)描述的线相连接。如果给定其他人这条线,以及其中一个原始数据点的x坐标,那么,他们只需查看这条线(或使用参数)就可以找出相应的y坐标。因为,这条线已经记住了这两个数据点。

当然,神经网络与之类似。例如,图像由数百或数千个值描述——每个像素对应一个值。构成这个组合的自由值,在数学上就等价于高维空间中的点的坐标,而坐标的数量称为维数。

一个古老的数学结果表明,要用曲线拟合n个数据点,需要一个包含n个参数的函数。当神经网络在 20 世纪 80 年代首次作为一股力量出现时,思考同样的事情是有意义的。无论数据的维度如何,他们应该只需要n个参数来拟合n个数据点。

“这不再是将会发生的事情,”德克萨斯大学奥斯汀分校的 Alex Dimakis 说。“现在,我们常规地创建神经网络,它的参数比训练样本的数量还要多,这意味着书必须重写。”

他们正在研究神经网络需要加强的另一种特性——鲁棒性,即网络处理微小变化的能力。例如,一个鲁棒性差的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改的版本错误地标记为沙鼠。2019 年,在 Bubeck 和同事们意识到这个问题与网络规模有关时,也试图进行一些与之相关的定理证明。

据研究推测,鲁棒性法则应该适用于所有的两层神经网络。在本文中,研究团队也证明了它实际上适用于任意光滑参数化函数类,只要参数的大小至多为多项式。而且多项式大小限制对于有界深度神经网络是必要的。

Bubeck 说:“我们当时正在研究对抗的例子,然后网络规模就强行加入了进来。于是,我们意识到这或许是一个令人难以置信的机会,因为涉及到了解规模本身的一系列问题。”

在研究过程中,这对搭档证明了过度参数化对于网络鲁棒性的必要程度。随后,他们通过计算需要多少个参数来将数据点与具有等同于鲁棒性的曲线拟合,得出了平滑性(smoothness)。

为了充分理解该点,再次回想平面中的曲线,其中 x 坐标表示单个像素的颜色,y 坐标表示图像标签。由于曲线是平滑的,如果对像素颜色稍加修改,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于明显锯齿状的曲线,x 坐标的微小变化可能诱发y坐标的剧烈变化。

这项研究表明,平滑拟合高维数据点并非需要 n 个参数,而是高达 n × d 个参数,其中 d 是输入的维数(例如,对于 784 像素的图像,d 值为 784)。

换句话说,如果你希望网络能可靠地记忆其训练数据,过度参数化不仅有帮助,而且是强制性的。这一证明依赖于高维几何的一个奇怪的事实,即在球面上随机分布的点彼此之间几乎都是一个直径的距离。点之间的巨大间隔意味着用一条平滑的曲线拟合它们,需要许多额外的参数。

“这个证明非常简单——不需要复杂的数学运算,而且说明了一些非常普遍的原理,”耶鲁大学的 Amin Karbasi 说。

该结果提供了一种新颖的方法,以更好地理解为什么简单的神经网络扩展策略却如此有效。

除了这次的研究之外,其他相关的一些研究,也揭示了过度参数化之所以有用的原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然依据目前所知,过度参数化对于鲁棒性是必要的,但尚不清楚鲁棒性对其他事物究竟有多重要。但是,如果能将其与过度参数化联系起来,新的研究便给出了明示,鲁棒性极有可能比人们想象的更重要。

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:

【深度学习】研究揭秘:神经网络越大、表现越好的“神秘力量”相关推荐

  1. 模型越大表现越差,这个比赛悬赏25万美元找大模型不擅长的任务,去试试?...

    视学算法报道 编辑:张倩 帮大模型找 bug 还能赚钱,去试试? 「找到一项任务,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金.」这是纽约大学的几位研究人员组织的一项另类竞赛. 随着语言 ...

  2. 独家思维导图!让你秒懂李宏毅2020深度学习(三)——深度学习基础(神经网络和反向传播部分)

    独家思维导图!让你秒懂李宏毅2020深度学习(三)--深度学习基础(神经网络和反向传播部分) 长文预警!!!前面两篇文章主要介绍了李宏毅视频中的机器学习部分,从这篇文章开始,我将介绍李宏毅视频中的深度 ...

  3. 三维点云的深度学习研究综述

    作者丨aaa 来源丨https://zhuanlan.zhihu.com/p/455210291 编辑丨3D视觉工坊 摘要 点云学习由于在计算机视觉.自动驾驶.机器人等领域的广泛应用,近年来受到越来越 ...

  4. 诺亚面向语音语义的深度学习研究进展

    本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲,介绍了华为诺亚面向语音语义的深度学习进展. 本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验 ...

  5. 一网打尽深度学习之卷积神经网络的经典网络(LeNet-5、AlexNet、ZFNet、VGG-16、GoogLeNet、ResNet)

    看过的最全最通俗易懂的卷积神经网络的经典网络总结,在此分享,供更多人学习. 一.CNN卷积神经网络的经典网络综述 下面图片参照博客:http://blog.csdn.net/cyh_24/articl ...

  6. 深度学习之循环神经网络(10)GRU简介

    深度学习之循环神经网络(10)GRU简介 1. 复位门 2. 更新门 3. GRU使用方法  LSTM具有更长的记忆能力,在大部分序列任务上面都取得了比基础RNN模型更好的性能表现,更重要的是,LST ...

  7. 深度学习之卷积神经网络(5)表示学习

    深度学习之卷积神经网络(5)表示学习  我们已经介绍完卷积神经网络层的工作原理与实现方法,复杂的卷积神经网络模型也是基于卷积层的堆叠构成的.在过去的一段时间内,研究人员发现网络层数越深,模型的表达能力 ...

  8. 【零基础深度学习教程第二课:深度学习进阶之神经网络的训练】

    深度学习进阶之神经网络的训练 神经网络训练优化 一.数据集 1.1 数据集分类 1.2 数据集的划分 1.3 同源数据集的重要性 1.4 无测试集的情况 二.偏差与方差 2.1 概念定义 2.1.1 ...

  9. 2017深度学习最新报告及8大主流深度学习框架超详细对比(内含PPT)

    2017深度学习最新报告(PPT) ​ 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前"深度学习"部分的报告已经全部结束. 本年度作报告的学术 ...

  10. 吴恩达.深度学习系列-C1神经网络与深度学习-W1介绍

    什么是神经网络 用神经网络进行监督学习 why is Deep Learning taking off?为啥神经网络能流行起来? About this Course Heroes of Deep Le ...

最新文章

  1. NLP未来,路在何方?12位巨佬联名指路!
  2. Android平台 Psensor传感器调试方法
  3. 1021 Deepest Root (25 分) 【难度: 中 / 知识点: 树的直径 连通块】
  4. 记录java从左上到右下打印二维数组,从左下到右上打印二维数组
  5. python xlwt模块生成excel文件并写入数据 xlrd读取数据
  6. 考研生物和计算机结合的专业,2020考研:生物医学工程,考研是考原专业还是跨专业考计算机好?...
  7. Java 导出Excel的各种尝试
  8. 数据库:数据导入/数据导出
  9. 【解决】Linux使用vim出现E325:ATTENTION错误
  10. 授权计算机软件著作权,计算机软件著作权查询方式有哪些? 软件著作权授权...
  11. Android如何实现全局的护眼模式
  12. 轻量级配置的登录管理器选择---Silm[zt]
  13. C++中deprecated笔记
  14. [Leetcode] 643. 子数组最大平均数 I java
  15. 2018最新苹果APP上架App Store流程(超详细)
  16. 移动端切图内容包括什么_移动终端界面切图
  17. 无延时直播/超低延时直播画面同步性测试(实测组图)
  18. Google URL Shorter
  19. 阿里无影云电脑磁盘性能测试
  20. 关于微信小程序云开发以及云开发实例展示

热门文章

  1. Ping CAP CTO、Codis作者谈redis分布式解决方案和分布式KV存储
  2. [bzoj2400]Optimal Marks
  3. ERP系统开发平台 (C#语言,支持多数据库)
  4. vue项目中开启Eslint碰到的一些问题及其规范
  5. Laravel 错误处理
  6. a:hover伪类在ios移动端浏览器内点击无效的解决方法
  7. Java面向对象(二、继承)
  8. jquery validation remote进行唯一性验证时只使用自定义参数,不使用默认参数
  9. 常规操作中浏览器缓存检测与服务器请求机制总结
  10. 如何循序渐进向DotNet架构师发展