视学算法报道  

编辑:LRS

【新智元导读】神经网络越大越好几乎已成了共识,但这种想法和传统的函数拟合理论却相悖。最近微软的研究人员在NeurIPS上发表了一篇论文,用数学证明了大规模神经网络的必要性,甚至应该比预期的网络规模还大。

当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。

当然,这个措施确实很有效,随着神经网络越来越大,模型了解和掌握的数据也更多,在部分特定任务上已经超越人类。

但在数学上,现代神经网络的规模实际上有些过于臃肿了,参数量通常远远超过了预测任务的需求,这种情况也被称为过度参数化(overparameterization)。

NeurIPS上的一篇论文中最近就这一现象提出了一种全新的解释。他们认为这种比预期规模更大的神经网络是完全有必要的,只有这样才能避免某些基本问题,这篇论文中的发现也为这一问题提供一种更通用的见解。

论文地址:https://arxiv.org/abs/2105.12806

文章的第一作者Sébastien Bubeck在MSR Redmond管理机器学习基础研究组,主要在机器学习和理论计算机科学中跨越各种主题进行交叉研究。

神经网络就该这么大

神经网络的一项常见任务是识别图像中的目标对象。

为了创建一个能够完成该任务的网络,研究人员首先为其提供许多图像和对应目标标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的目标。

换句话说,训练过程使得神经网络记住了这些数据。

并且,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签,这个过程称为泛化。

网络的大小决定了它能记忆多少东西。

可以用图形化的空间来理解。假设有两个数据点,把它们放在一个XY平面上,可以用一条由两个参数描述的线来连接这些点:线的斜率和它与纵轴相交时的高度。如果其他人也知道这条直线的参数,以及其中一个原始数据点的X坐标,他们可以通过观察这条直线(或使用参数)来计算出相应的Y坐标。

也就是说,这条线已经记住了这两个数据点,神经网络做的就是差不多类似的事情。

例如,图像是由成百上千的数值描述的,每个像素都有一个对应的值。可以把这个由许多自由值组成的集合在数学上相当于高维空间中一个点的坐标,坐标的数量也称为维度。

传统的数学结论认为,要用一条曲线拟合n个数据点,你需要一个有n个参数的函数。例如,在直线的例子中,两个点是由一条有两个参数的曲线描述的。

当神经网络在20世纪80年代首次作为一种新模型出现时,研究人员也这么认为,应该只需要n个参数来适应n个数据点,而跟数据的维度无关。

德克萨斯大学奥斯汀分校的Alex Dimakis表示,现在实际情况已经不是这样了,神经网络的参数数量远远超过了训练样本的数量,这说明了教科书上的内容必须得重写进行修正。

研究人员正在研究神经网络的鲁棒性(robustness),即网络处理小变化的能力。例如,一个不鲁棒的网络可能已经学会了识别长颈鹿,但它会把一个几乎没有修改的版本误标为沙鼠。

2019年,Bubeck和同事们正在寻求证明关于这个问题的定理,当时他们就意识到这个问题与网络的规模有关。

在他们的新证明中,研究人员表明,过度参数化对于网络的鲁棒性是必要的。他们提出平滑性(smoothness),来指出需要多少个参数才能用一条具有等同于鲁棒性的数学特性的曲线来拟合数据点。

要想理解这一点,可以再次想象平面上的一条曲线,其中x坐标代表一个像素的颜色,y坐标代表一个图像标签。

由于曲线是平滑的,如果你稍微修改一下像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有少量的变化。另一方面,对于一条锯齿状的曲线,X坐标(颜色)的微小变化会导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠。

Bubeck和Sellke在论文中证明,平滑拟合高维数据点不仅需要n个参数,而且需要n×d个参数,其中d是输入的维度(例如,784个像素的图像输入维度为784)。

换句话说,如果你想让一个网络稳健地记住它的训练数据,过度参数化不仅是有帮助的,而且是必须的。该证明依赖于一个关于高维几何的事实,即随机分布在球体表面的点几乎都是彼此相距一个直径的距离,点与点之间的巨大间隔意味着用一条光滑的曲线来拟合它们需要许多额外的参数。

耶鲁大学的Amin Karbasi称赞论文中的证明是非常简洁的,没有大量的数学公式,而且它说的是非常通用的内容。

这一证明结果也为理解为什么扩大神经网络的简单策略如此有效提供了一个新的途径。

其他研究揭示了过量参数化有帮助的其他原因。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力。

虽然我们现在知道过量参数化对鲁棒性是必要的,但还不清楚鲁棒性对其他事情有多大必要。但通过将其与过度参数化联系起来,新的证明暗示鲁棒性可能比人们想象的更重要,这也可能为其他解释大模型的益处研究做铺垫。

鲁棒性确实是泛化的一个先决条件,如果你建立了一个系统,只是轻微地扰动它,然后它就失控了,那是什么样的系统?显然是不合理的。

所以,Bubeck认为这是一个非常基础和基本的要求。

参考资料:

https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

点个在看 paper不断!

神经网络为何越大越好?这篇NeurIPS论文证明:鲁棒性是泛化的基础相关推荐

  1. 大盘点|卷积神经网络必读的 100 篇经典论文,包含检测 / 识别 / 分类 / 分割多个领域

    关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等 原文链接:大盘点|卷积神经网络必读的 100 篇经典论文,包含检测 / 识别 / 分类 / 分割多个领 ...

  2. 新晋 ACM Fellow 陶大程,8 篇 NeurIPS 论文详解

    2019-12-26 06:17:03 作者 | AI科技评论 编辑 | 刘萍 近日2019年 ACM Fellows 增选结果出炉之后,备受人们关注,其中除谢源.周礼栋.陈熙霖等业界和学术界著名学者 ...

  3. AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!

    文 | 智商掉了一地 如何让机器生成更接近人类的结果?第一步--停止复读 "人类的本质是复读机","重要的事情说三遍!!!",这些年我们总能听到这样的梗,可是在 ...

  4. 卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 参考|学术头条 编辑|极市平台 作为深度学习的代表算法之一,卷积神经 ...

  5. 论文大盘点|卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:极市平台 作为深度学习的代表算法之一,卷积神经网络(Convolution ...

  6. 八篇 NeurIPS 2019 最新图神经网络相关论文

    最近,人工智能和机器学习领域的国际顶级会议 NeurIPS 2019 接收论文公布,共有 1428 篇论文被接收.为了带大家抢先领略高质量论文,本文整理了八篇 NeurIPS 2019 最新 GNN ...

  7. 必看,61篇NeurIPS深度强化学习论文解读都这里了

    作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...

  8. NeurIPS 2021六篇杰出论文公布,谷歌工程师11年前论文获时间检验奖

    来源:量子位 NeurIPS 2021将于下周正式召开. 近日,大会委员会公布了NeurIPS 2021的杰出论文奖,时间测试奖,以及今年新设的数据集和测试基准最佳论文奖. 杰出论文奖 今年有六篇论文 ...

  9. CIKM投稿数量1700篇,图神经网络成热门方向,最佳论文纷纷进行图研究

    2019-11-06 19:39:37 雷锋网 AI 科技评论按:2019年11月3日-7日,信息检索和数据挖掘的顶会 ACM CKIM 2019在北京召开,并于昨日颁发了本届会议的最佳论文奖,其中来 ...

最新文章

  1. 使用PostMan工具测试spring boot接口的若干请求参数形式
  2. AI提高药物发现效率 | ML,Supercomputers and Big Data
  3. bzoj1433: [ZJOI2009]假期的宿舍
  4. DL之DNN优化技术:DNN中抑制过拟合/欠拟合、提高泛化能力技术的简介、使用方法、案例应用详细攻略
  5. python logging模块的作用及应用场景_Python logging模块原理解析及应用
  6. 语言兔子繁衍问题讲解_颍湄脞録兔子不搁那窝里
  7. 【转载】接口和抽象类的区别 --相信你看完不会再混淆了
  8. 【狂神css笔记】CSS介绍选择器
  9. 【图像增强】基于matlab可见边缘梯度比率图像增强【含Matlab源码 1404期】
  10. 计算机创新课堂教案,1 1.1计算机概述1.2计算机系统课堂教学教案
  11. 王彩云计算机学院,通知丨中南民族大学2016-2017学年度研究生评优结果公示
  12. HBase 数据库介绍
  13. linux centos 回收站,centos下实现回收站功能
  14. 服务器无线存储器,教你把无线路由器打造成网络存储器
  15. 寻找那些神奇的自幂数---C语言
  16. UCOSIII实时操作系统------软件定时器
  17. 如何安装 Ubuntu 22.04 LTS 桌面版 ?
  18. linux 系统内存nand flash,uboot在nandflash存储时内存和NandFlash存储空间
  19. load()方法异步请求数据
  20. nltk download所需包

热门文章

  1. 用PULL解析器解析XML文件
  2. 重读TCP协议(3)
  3. 在SQL Server中如何转化长日期形式为短日期格式
  4. 技术图文:03 结构型设计模式(上)
  5. 刻意练习:LeetCode实战 -- Task10. 两数相加
  6. HOGDescriptor 描述类
  7. linux 搜索so文件,Linux下查找和安装依赖的.so文件
  8. AI 与小学生的做题之战,孰胜孰败?
  9. 关系抽取论文整理,核方法、远程监督的重点都在这里
  10. 手把手教你使用Flask轻松部署机器学习模型(附代码链接) | CSDN博文精选