论文阅读笔记:Prevalence of neural collapse during the terminalphase of deep learning training,深度学习训练末期普遍的神经网络崩溃现象

  • 重要性
  • 摘要
  • 简介

美国科学院的一篇在审论文
@article {Papyan24652,
author = {Papyan, Vardan and Han, X. Y. and Donoho, David L.},
title = {Prevalence of neural collapse during the terminal phase of deep learning training},
volume = {117},
number = {40},
year = {2020},
doi = {10.1073/pnas.2015509117},
publisher = {National Academy of Sciences},
issn = {0027-8424},
URL = {https://www.pnas.org/content/117/40/24652},
eprint = {https://www.pnas.org/content/117/40/24652.full.pdf},
journal = {Proceedings of the National Academy of Sciences}
}

重要性

用于图像分类的现代深层神经网络已经取得了甚至超过人类的性能。然而,训练有素的网络的复杂细节迫使大多数从业者和研究人员将其视为黑匣子,几乎无法理解。本文详细考虑了一种现在标准的训练方法:将交叉熵损失训练到零,在分类误差已经为零之后继续很久。将此方法应用于权威的标准deepnet和数据集,我们观察到deepnet的特征和deepnet分类器出现了简单且高度对称的几何结构,我们记录了几何学所传达的重要益处,从而帮助我们理解现代深度学习训练范式的一个重要组成部分。

摘要

训练深度神经网络分类任务的最后阶段(terminal phase of training, 以下简称为TPT),该阶段即为始于训练误差首次消失的时期。在TPT过程中,训练误差实际上已经保持为零,而训练损失继续被推向零。通过对TPT过程直接观察,我们发现了一种普遍的归纳偏见,我们称之为神经崩溃(Nerual collapse,以下简称NC)。NC涉及四种深度关联的现象:

  1. NC1:最后一层训练激活的跨示例类内可变性崩溃为零,因为个体激活本身崩溃为其类的意思。
  2. NC2:该类的表示被折叠到单纯形等角紧框架(equiangular tight frame,ETF)的顶点。
  3. NC3:在重新缩放之前,最后一层分类器塌陷为类均值,或者换句话说,塌陷为单纯形ETF(即,塌陷为自对偶配置)。
  4. NC4:对于给定的激活函数,分类器的决策简化为简单地选择具有最接近的平均值的类别(即,基于最近的类别中心[nearest class center,NCC]决策规则)。TPT产生的对称且非常简单的几何体带来了重要的好处,包括更好的泛化性能、更好的鲁棒性和更好的解释性。

简介

我们的观察集中在当今深度学习的标准训练范式上,深度学习是随着时间的推移发展起来的几个基本要素的累积:

1. 网络被训练到了接近可忽略的交叉熵损失,并对样本训练数据进行插值;
2. 网络被过参数化,使得这种记忆成为可能;
3. 而且这些参数在不断增长的深度上分层,允许复杂的特征工程。最近的一系列研究重视训练的典型本质,即远远超越零分类错误,而寻求零损失。我们称零分类错误之后的阶段为训练的终端阶段(TPT)。

在数学统计方面有着标准准备的科学家可能会预期,这种范式产生的线性分类器,作为这种训练的副产品,将是非常任意的,并且在不同实例、不同数据集之间有很大的差异,以及体系结构到体系结构,因此不显示潜在的跨情境不变结构。科学家可能进一步期望,经过充分训练的决策边界和定义这些边界的基本线性分类器的配置将是非常任意的,并且在不同的情况下会发生混乱变化。这种期望可以通过呼吁模型的过度参数化性质和标准参数来支持,即数据中的任何噪声在过度参数化训练期间传播,从而在拟合参数中产生不成比例的变化。

与这些期望相反,我们在这里表明,TPT频繁地诱导了经过训练的deepnet模型的基本数学简单性,特别是在目前被认为是深度学习中经典的许多情况下的分类器和最后一层激活。此外,确定的结构自然表明性能优势。此外,事实上,我们还表明,随着网络泛化性能的提高以及对抗性鲁棒性的增强,这种刚性结构的收敛往往会同时发生。

我们将此过程称为神经崩溃(NC),通过观察最后一层激活函数和分类器可以得到四种典型现象:

  1. NC1 可变性崩溃:随着训练的进行,当这些激活崩溃到其类的意义时,类内激活的变化变得可以忽略。

  2. NC2 收敛到单纯形等角紧框架(ETF):类内平均值的向量收敛到长度相等,在任何给定对之间形成大小相等的角度,并且是受前两个属性约束的最大成对距离配置。这在数学科学中这被称为单纯形ETF。

  3. NC3 收敛到自对偶性:类意味着线性分类器和线性分类器虽然在数学上完全不同,但在对偶向量空间中的对象彼此收敛,直至重新缩放。结合NC2,这意味着网络分类器的决策完全对称:每个等分类决策区域通过刚性欧氏运动与任何其他此类区域等距;此外,类均值都集中在各自的特定区域内,因此任何两个类之间的混淆程度都不会高于任何其他两个类。

  4. NC4 简化到最近的类中心(NCC):对于给定的deepnet激活函数,网络分类器收敛到选择具有最近的类平均值(标准欧几里德距离)的类。

图1中是VCG13上NC1至NC3现象的可视化:绿色球体表示标准单纯形的版本,红色球体和棒状物表示线性分类器,蓝色球体和棒状物表示类别平均值,蓝色小球体表示最后一层特征。对于所有对象,我们通过颜色的阴影划分不同的类。随着训练的进行,最后一层特征塌陷到它们的类均值(NC1),类均值收敛到单纯形ETF的顶点(NC2),线性分类器接近它们相应的类均值(NC3)。

NC1-NC4表明,在广泛的深度学习工程中,具有明确解释性的高度对称和刚性的数学结构自发产生。

NC2意味着不同的特征手段在其构造的特征空间中围绕球体“等间距”;NC3在其自身的对偶空间中对线性分类器表示相同,而且,线性分类器与类“相同”,直到可能的重新缩放。这些数学上的对称性和刚性极大地简化了经过训练的分类器的分析。正如我们在下面所展示的那样,这将以前从理论上获得的定性理解与(NC4)可能的精确和高度受限的预测进行了对比。

(NC1)至(NC4)提供理论上确定的性能优势:抗随机噪声和对抗性噪声的稳定性。我们表明,在TPT过程中,经过训练的模型在泛化性和对抗鲁棒性方面都在提高。

论文阅读笔记:为什么深度神经网络的训练无论多少次迭代永远有效?可能类内分布已经坍缩为一个点,模型已经崩溃为线性分类器相关推荐

  1. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  2. 论文阅读记录-基于深度神经网络的nilm系统家电识别

    记录一下关于非侵入负荷分解相关的论文文献 1.原文 <HOME APPLIANCE IDENTIFICATION FOR NILM SYSTEMS BASED ON DEEP NEURAL NE ...

  3. ResNet 论文阅读笔记

    ResNet 论文阅读笔记 #机器学习/深度学习 文章介绍 论文地址:https://arxiv.org/pdf/1512.03385.pdf 原文题目:Deep Residual Learning ...

  4. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  5. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  6. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  7. [置顶]人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)...

    这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...

  8. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  9. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

最新文章

  1. 2017-1-25总结 主框架设计
  2. C#并发编程之异步编程(三)
  3. HDU5187 zhx#39;s contest(计数问题)
  4. html信号动画,HTML5 Canvas火箭着陆和雷达信号动画
  5. java 泛型 通配符边界和类型形参边界的区别
  6. poj 2029 Get Many Persimmon Trees 二维树状数组
  7. 橡胶支座抗压弹性模量计算公式_单向滑动抗震弹性支座作用介绍
  8. c语言 滑窗法_滑窗算法
  9. 火电厂( 4×300MW )电气主系统方案与设备配置初步设计
  10. 信息系统的风险评估过程与评估方法
  11. 电商业务中的五大机器学习问题!
  12. 【Uplift】参考资料篇
  13. JS window对象
  14. 【Python】2019年武汉市天气数据分析与可视化
  15. 学习笔记-Wood‘s anomalies
  16. smartbi连接mysql数据库_Smartbi_V9配置MySQL8作为知识库
  17. 极速下载!利用插件破解百度云限速
  18. lxml 爬取豆瓣top250
  19. 汉字应用水平测试软件,汉字应用水平测试(HZC)试点将在11个省市进行
  20. 在机顶盒上被移除adb后恢复的办法

热门文章

  1. 如何用C语言完成水仙花数的搜索
  2. 黑龙江测绘地理信息局2012年度春季事业单位公开招聘“985”院校毕业生拟录用人员名单
  3. 配置 Site-to-Site and Extranet ***
  4. 判断两个时间段交集、时间重叠问题
  5. mysql 80070057_安装iis错误
  6. 微信公众号开发系统,php开发公众号营销系统
  7. C语言:二维数组求和
  8. 软件测试方法中的黑盒测试用例设计方法有哪些?
  9. 提取pfx证书密钥对
  10. pytest源码解读HookspecMarker类和HookimplMarker类分析