为什么深层神经网络难以训练_深度学习与统计力学(III) :神经网络的误差曲面...
谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
英文原报告“深度学习统计力学”。
即使一个深层网络能够通过选择参数表达所需的函数,也不清楚什么时候可以通过(随机)梯度下降将公式(3)中的训练误差
在本节中,我们回顾从统计力学复杂能量曲面和神经网络误差曲面的各种类比中获得的见解,以及从神经网络误差曲面的受控数值探索中获得的见解。
1 随机高斯曲面和鞍点
在机器学习中,许多早期的工作都是由凸曲面上的优化所提供的强大理论保证所推动的,在凸曲面上的每一个局部最小值都是全局最小值[35]。相反,对非凸曲面的优化则持怀疑态度,因为传统的观点认为这种曲面可能会充满高误差的局部极小值,这可能会捕获梯度下降动力学并影响性能。尽管少数变量上的一般非凸函数可能确实具有高误差局部极小值,但在高维中通常不是这样。
统计物理中经典的光滑
这个零系综的临界点的统计数据展示了一个有趣的典型结构,为高维空间上一般函数的形状提供了一个窗口[36]。具体地,任意梯度消失的临界点
- a)临界点的高度
;
- b)函数曲面下降的方向指数或比例
。
其中比例
文献36发现了
图2 神经网络误差曲面的类比。(a) 平滑随机高斯曲面临界点典型结构示意图。更多负方向的临界点出现在较高的误差处。(b) 实践中神经网络误差临界点处,
尽管
这些基于物理的关于大型神经网络不存在高误差局部极小值的结论与更多的数学工作一致,证明了在更简单的情况下这种极小值是不存在的。文献39证明了具有一个隐含层的线性神经网络的误差曲面不存在非全局极小的局部极小,所有高误差临界点都是鞍点,文献40将这一结果推广到更深层的线性网络。
2 与自旋玻璃的类比
最近的工作[41]也显示了神经网络的误差曲面与统计物理中一个成熟的模型,即球形自旋玻璃的能量函数之间的联系。一般来说,神经网络的误差曲面是突触权重
这里,
D-自旋球形自旋玻璃的能量函数[42,43]。文献41中从神经网络误差曲面到公式(6)所做简化和假设是很强的,在实践中不太可能成立。因此公式(6)确实应该只被看作是一个简单示例模型。不管怎样,人们可能希望这个示例模型的能量函数的典型特征类似于神经网络的误差曲面。
对公式(6)中误差函数形状的严格分析揭示了临界点的有趣结构[44,45]。事实上,
负曲率方向最有可能出现在误差水平的窄带内,随着带的高度随
最近的工作[46]对神经网络上的SGD动力学与D-自旋球形自旋玻璃能量函数进行了仔细的比较,发现了有趣的共性,但也有差异。在平均场玻色系统中,物理方法[47]和严格方法[48]都表明,梯度下降动力学在没有障碍交叉的情况下收敛到最宽和最高的极小值,尽管存在更深的局部和全局极小值。相比之下,文献46的工作在梯度下降动力学中发现了其他有趣的老化现象,这些现象表明当降低训练误差时,更平坦的方向普遍存在。
3 与干扰的类比
文献49和50通过考虑一个称为 Hinge 损失的特殊损失函数
我们现在用一个平行符号来描述干扰问题,并与神经网络训练进行类比。干扰问题的一个简单版本考虑固定体积中的一组
干扰场景展示了一种有趣的相位转换,即许多粒子可以自由移动的低密度相位(图2d)和大多数成对相互作用涉及粒子与正能量重叠的高密度干扰相位(图2e)。在神经网络类比中,低密度相对应于过度参数化的情形,较少的
4 实际神经网络曲面的探索
除了发展和比较示例理论模型的误差曲面,许多工作探索实际的神经网络曲面。最近的研究甚至对非常大的神经网络[55,56]的 Hessian 矩阵进行了数值探索[53,54]。有趣的是,经过训练后,曲面底部附近的 Hessian 呈现出一个重尾的体谱,加上一组与分类任务中的类标签数量一一对应的异常值。
文献57和58中给出了另一个有趣的误差曲面,其中含有罕见但较宽的梯度下降优先发现的极小值,这表明有可能出现有助于找到这些极小值[59]的新的熵算法。随着进一步的理论发展,需要获得一个统一的、高分辨率的神经网络误差曲面观形态。系列预告
数据科学人工智能:深度学习与统计力学(I) :深度学习中的基础理论问题zhuanlan.zhihu.com
数据科学人工智能:深度学习与统计力学(II) :深度学习的表达能力zhuanlan.zhihu.com
深度学习与统计力学(III) :神经网络的误差曲面
深度学习与统计力学(IV) :深层网络的信号传播和初始化
深度学习与统计力学(V) :深度学习的泛化能力
深度学习与统计力学(VI) :通过概率模型进行“深度想象”
为什么深层神经网络难以训练_深度学习与统计力学(III) :神经网络的误差曲面...相关推荐
- 华南理工深度学习与神经网络期末考试_深度学习基础:单层神经网络之线性回归...
3.1 线性回归 线性回归输出是一个连续值,因此适用于回归问题.回归问题在实际中很常见,如预测房屋价格.气温.销售额等连续值的问题.与回归问题不同,分类问题中模型的最终输出是一个离散值.我们所说的图像 ...
- 为什么深层神经网络难以训练_“用魔法击败魔法”?一群计算神经学家正借神经网络解释大脑...
原文:Deep Neural Networks Help to Explain Living Brains [1] 作者:Anil Ananthaswamy(科普作家) 译者:Yang 2011 年冬 ...
- 为什么深层神经网络难以训练_为什么神经网络难以理解生命游戏?
导语 生命游戏是一种简单的符号表示模型,却可以产生复杂的结果.我们可以发现对生命游戏显然有效的,几组神经网络的初始参数解:但随机输入初始参数和选择样本的神经网络,却极难理解生命游戏,成功收敛到最优解需 ...
- 神经网络算法未来_“深度学习三巨头”来了俩,Hinton、LeCun预言深度学习的未来...
当地时间 6 月 23 日,今年的 ACM 图灵奖得主."深度学习三巨头"中的 Geoffrey Hinton.Yann LeCun 在 ACM FCRC 2019上发表演讲,分享 ...
- bp 神经网络 优点 不足_深度学习之BP神经网络--Stata和R同步实现(附Stata数据和代码)
说明:本文原发于"计量经济圈"公众号,在此仅展示Stata的部分.R部分请移步至本人主页的"R语言与机器学习--经济学视角"专栏,或点击下方链接卡跳转. 盲区行 ...
- 华南理工深度学习与神经网络期末考试_深度学习算法地图
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...
- 函数或变量 rtenslearn_c 无法识别_深度学习的数学-卷积神经网络的结构和变量关系...
前言 本篇博客主要介绍卷积神经网络的组成部分,以及变量表示,最后附上卷积神经网络代价函数的计算 正文 前文中学到的神经网络都是全连接类型的,隐藏层对输入层有着各自固定的偏好模式,满足偏好模式(权重和偏 ...
- 神经网络 异或_深度学习入门笔记(2)线性神经网络
在上一篇笔记中我们一起学习了单层感知器的原理,但针对于异或问题.我们的单层神经网络就束手无策了 *异或运算: 0 0 输出为0,0 1输出为1, 1 0输出为 1, 1 1输出为 0 即,针对以下四个 ...
- [人工智能-深度学习-33]:卷积神经网络CNN - 常见分类网络- LeNet网络结构分析与详解
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...
最新文章
- const引用和非const引用
- pdo_mysql 必须 ×未安装_php pdo_mysql未安装问题解决方法_PHP教程 | 蒲公英网
- python精要(66)—类(3)-文档字符串,注释文档
- 机器学习(李航统计学习方法)
- 58到家MySQL军规升级版(转:2018-03-30 58到家DBA 架构师之路)
- sass笔记-1|Sass是如何帮你又快又好地搞定CSS的
- window 安装python 环境
- NYOJ 44 子串和
- 查看新增登记记录及历史记录信息
- Caffe官方例程之 特征可视化python代码 (filter visualization notebook)
- 在firefox 2.0.0.3中使用onenote 2007收集资料
- 华硕主板固态硬盘不识别_华硕主板固态硬盘识别不出来怎么办
- 项目配置多Redis数据源(Redis分片)
- 51单片机控制双步进电机的魔法师思想
- c语言中字符后u代表什么意思,C语言中的0U或1U是什么意思?
- OpenCV + CPP 系列(卅三)图像特征提取(Harris角点检测、Shi-Tomasi角点检测、自定义角点检测)
- 说话人识别matlab实现
- 全球仅10%的开发者从不加班;淘宝回应用户账号被禁用 980 年;苹果宣布首次以官方形式参与天猫618折扣活动...
- Vue项目二 登录注册功能的实现
- 目标检测mAP计算详解
热门文章
- 数据库置疑的处理方法
- 【Pytorch Lighting】第 5 章:时间序列模型
- 局域网映射IPV6记录
- cadence 批量一次性修改title 页码标题等
- 玩客云 Armbian Linux
- 2023-02-11:给你两个整数 m 和 n 。构造一个 m x n 的网格,其中每个单元格最开始是白色, 请你用 红、绿、蓝 三种颜色为每个单元格涂色。所有单元格都需要被涂色, 涂色方案需要满足:
- IT行业的5个热门岗位,你了解吗?
- Git 之三 常用命令:仓库创建、提交、分支等
- vc sp6补丁下载地址及具体安装
- docker:IPv4 forwarding is disabled. Networking will not work. 解决方法