Spurious Local Minima are Common in Two-Layer ReLU Neural Networks
文章目录
- 引
- 主要内容
- 定理1
- 推论1
- 引理1 引理2
Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.
@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}
引
文章的论证部分让人头疼,仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
∑i=1k[viTx]+,\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+, i=1∑k[viTx]+,
其中vi\mathbf{v}_ivi是给定的, 而x∼N(0,I)\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})x∼N(0,I). 而这篇文章考虑的是:
即, 这个损失函数是否具有局部最优解.
主要内容
定理1
注意, v1,v2,…,vk\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_kv1,v2,…,vk是正交的, 且n=kn=kn=k. 这个时候,损失函数是有局部最优解的, 不过在后面作者提到, 如果n>kn>kn>k, 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).
推论1
引理1 引理2
这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).
Spurious Local Minima are Common in Two-Layer ReLU Neural Networks相关推荐
- 论文阅读003:《Learning local feature descriptors with triplets and shallow convolutional neural networks》
论文链接:http://www.bmva.org/bmvc/2016/papers/paper119/paper119.pdf github链接:https://github.com/vbalnt/t ...
- 62_LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 2019 论文笔记
LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 三维卷积神经网络局部相位的揭示 目录 LP-3DCNN: Unv ...
- 3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”
LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 3D卷积计算量大,消耗内存多,论文提出了修正的局部相量(ReLP ...
- Local Binary Convolutional Neural Networks ---卷积深度网络移植到嵌入式设备上?
前言:今天他给大家带来一篇发表在CVPR 2017上的文章. 原文:LBCNN 原文代码:https://github.com/juefeix/lbcnn.torch 本文主要内容:把局部二值与卷积神 ...
- Three layer Neural Networks
[Three layer Neural Networks] 1.Abstract In this paper, we shall first briefly introduce the origin ...
- 【论文阅读】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
一.背景 神经网络的吸收信息的容量(capacity)受限于参数数目. 条件计算(conditional computation)针对于每个样本,激活网络的部分子网络进行计算,它在理论上已证明,可以作 ...
- 论文翻译:LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks
引言 传统的3D卷积神经网络(CNN)计算成本高,内存密集,容易过度拟合,最重要的是,需要改进其特征学习能力.为了解决这些问题,我们提出了整流局部相位体积(ReLPV)模块,它是标准3D卷积层的有效替 ...
- The Physical Layer(Computer networks)
Computer networks--The Physical Layer •Theoretical Basis for Data Communications •Guided Transmissio ...
- 图神经网络论文阅读(十六) GraLSP: Graph Neural Networks with Local Structural Patterns,AAAI 2020
本文作者来自香港科技大学.北大和北邮,其中包含宋国杰老师和石川老师,这两位都是国内研究图表示学习的翘楚了.之前读石川团队论文的时候自己犯傻发邮件问了一个比较弱智的问题,石川老师还是让学生耐心帮我解答了 ...
- Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation阅读笔记
RLA阅读笔记 (一) Title (二) Summary (三) Research Object (四) Problem Statement (五) Method 5.1 Layer Aggrega ...
最新文章
- CVPR Oral:我给大家表演一个无中生有|北航商汤耶鲁
- JAVA实现 springMVC方式的微信接入、实现消息自动回复
- Codemirror-开源在线代码编辑器
- Unix高级编程之文件权限
- 二级联动,三级联动,初学者,纯javascript,不含jQuery
- Asp.net MVC 4 异步方法
- 【转载】Linux中断处理学习笔记
- 如果误删谷歌浏览器的书签,怎么恢复
- 生产者消费者之阻塞队列版本
- caffe学习日记--lesson3:win8系统,VS2013下的caffe工程编译探究
- 开源大数据:Alluxio 云原生数据编排
- 具体数学-第11课(Stern-Brocot树和同余关系)
- 9.react 从入门到放弃
- 奇迹1.03H服务端开服架设文件Data文件详解
- 0成本开发一个外卖返利领劵小程序|外卖返利系统
- 论文解读(PairNorm)《PairNorm: Tackling Oversmoothing in GNNs》
- 斐讯n1安装linux安装微信,斐讯N1打造小型NAS六之armbian安装aria2
- C++ 逻辑与或非 逻辑与逻辑或 逻辑非
- Flying Saucer生成pdf报表
- es报Unexpected character (‘ï‘ (code 239)): was expecting comma to separate Object entries解决方法
热门文章
- Springboot整合kafka
- ubuntu系统给u盘拷贝文件
- mysql 单精度和双经度_***mysql中经度纬度字段用什么存储(关于mysql的float和decimal区别)...
- 上下调基因和代谢物--不同颜色显示在同一张KEGG通路图中
- JAVA第11章枚举与泛型总结
- 大数据如何可以推动员工敬业度
- mysql批量导出工具_sql数据库批量导出|
- java自动机字符串匹配_【算法】利用有限自动机进行字符串匹配
- 测试方案包含哪些内容?
- html文本框设置大小,css怎么设置文本框大小