Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

2024-04-10 08:32:13

文章目录

引
主要内容
- 定理1
- 推论1
- 引理1 引理2

Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}

引

文章的论证部分让人头疼，仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
∑i=1k[viTx]+,\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+, i=1∑k[viTx]+,
其中vi\mathbf{v}_ivi是给定的, 而x∼N(0,I)\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})x∼N(0,I). 而这篇文章考虑的是:

即, 这个损失函数是否具有局部最优解.

主要内容

定理1

注意, v1,v2,…,vk\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_kv1,v2,…,vk是正交的, 且n=kn=kn=k. 这个时候，损失函数是有局部最优解的, 不过在后面作者提到, 如果n>kn>kn>k, 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).

推论1

引理1 引理2

这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).

Spurious Local Minima are Common in Two-Layer ReLU Neural Networks相关推荐

论文阅读003：《Learning local feature descriptors with triplets and shallow convolutional neural networks》
论文链接:http://www.bmva.org/bmvc/2016/papers/paper119/paper119.pdf github链接:https://github.com/vbalnt/t ...
62_LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 2019 论文笔记
LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 三维卷积神经网络局部相位的揭示目录 LP-3DCNN: Unv ...
3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”
LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 3D卷积计算量大,消耗内存多,论文提出了修正的局部相量(ReLP ...
Local Binary Convolutional Neural Networks ---卷积深度网络移植到嵌入式设备上？
前言:今天他给大家带来一篇发表在CVPR 2017上的文章. 原文:LBCNN 原文代码:https://github.com/juefeix/lbcnn.torch 本文主要内容:把局部二值与卷积神 ...
Three layer Neural Networks
[Three layer Neural Networks] 1.Abstract In this paper, we shall first briefly introduce the origin ...
【论文阅读】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
一.背景神经网络的吸收信息的容量(capacity)受限于参数数目. 条件计算(conditional computation)针对于每个样本,激活网络的部分子网络进行计算,它在理论上已证明,可以作 ...
论文翻译：LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks
引言传统的3D卷积神经网络(CNN)计算成本高,内存密集,容易过度拟合,最重要的是,需要改进其特征学习能力.为了解决这些问题,我们提出了整流局部相位体积(ReLPV)模块,它是标准3D卷积层的有效替 ...
The Physical Layer（Computer networks）
Computer networks--The Physical Layer •Theoretical Basis for Data Communications •Guided Transmissio ...
图神经网络论文阅读(十六) GraLSP: Graph Neural Networks with Local Structural Patterns,AAAI 2020
本文作者来自香港科技大学.北大和北邮,其中包含宋国杰老师和石川老师,这两位都是国内研究图表示学习的翘楚了.之前读石川团队论文的时候自己犯傻发邮件问了一个比较弱智的问题,石川老师还是让学生耐心帮我解答了 ...
Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation阅读笔记
RLA阅读笔记 (一) Title (二) Summary (三) Research Object (四) Problem Statement (五) Method 5.1 Layer Aggrega ...

最新文章

热门文章