Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/83099563

破碎梯度问题[1]是ICML 2017的一篇文章。标题 The Shattered Gradients Problem If Resnets are the Answer Then What is the Question 十分骚,揭示残差网络真正要解决的问题,使得网络得以加深,效果越好。值得提醒的是,这篇文章仅是从一个角度去解释残差网络,其实学界现在存在很多理论文章研究、解读残差网络。

假设1(典型数据点):如果一层神经元,超过一半处于激活,并且,两层神经元,超过四分之一处于互激活(co-active),那么称计算层x(i)x^{{(i)}}x(i)和x(j)x^{{(j)}}x(j)是典型数据点(typical datapoint)。在文中,假设每对数据点都是典型的。

定义1:令∇i:=∑p=1P∂fp∂n(x(i))\nabla_{i}:=\sum_{p=1}^{P} \frac{\partial f_{p}}{\partial n}(x^{(i)})∇i​:=∑p=1P​∂n∂fp​​(x(i))为给定输入x(i)∈Dx^{(i)} \in Dx(i)∈D,网络输出的第pthp^{th}pth坐标对神经元nnn的导数。对每一输入x(i)x^{(i)}x(i),导数∇i\nabla_{i}∇i​为实值随机变量。因为权重采样自零均值分布,导数具有零均值。下面两式分别为梯度的协方差和相关性:
C(i,j)=E[∇i,∇j],C(i,j)=E[\nabla_{i}, \nabla_{j}],C(i,j)=E[∇i​,∇j​],
R(i,j)=E[∇i,∇j]E[∇i2]⋅E[∇j2]R(i,j)=\frac{E[\nabla_{i}, \nabla_{j}]}{\sqrt {E[\nabla_{i}^{2}] \cdot E[\nabla_{j}^{2}]}}R(i,j)=E[∇i2​]⋅E[∇j2​]​E[∇i​,∇j​]​
其中,数学期望为对分布的权重的梯度/导数求。

定理1(前向网络的梯度协方差):按照He et al. [2],假设权重由方差σ2=2N\sigma_{2}=\frac{2}{N}σ2​=N2​初始化,那么
a) 给定输入x(i)x^{(i)}x(i),梯度的方差为Cfnn(i)=1C^{fnn}(i)=1Cfnn(i)=1;
b) 给定两输入x(i)x^{(i)}x(i)、x(j)x^{(j)}x(j),梯度的协方差为Cfnn(i,j)=12LC^{fnn}(i,j)=\frac{1}{2^{L}}Cfnn(i,j)=2L1​。

定理2(残差网络的梯度协方差):考虑batch normalization disabled的残差网络,并且α=β=1\alpha=\beta=1α=β=1,初始化方法同上[2],那么
a) 给定输入x(i)x^{(i)}x(i),梯度的方差为Cres(i)=2LC^{res}(i)=2^{L}Cres(i)=2L;
b) 给定两输入x(i)x^{(i)}x(i)、x(j)x^{(j)}x(j),梯度的协方差为Cres(i,j)=(32)LC^{res}(i,j)=(\frac{3}{2})^{L}Cres(i,j)=(23​)L,相关性为Rres(i,j)=(34)LR^{res}(i,j)=(\frac{3}{4})^{L}Rres(i,j)=(43​)L。

定理3(残差网络的梯度协方差,考虑BN和rescaling):

[1] The Shattered Gradients Problem If Resnets are the Answer Then What is the Question ICML 2017 [paper]
[2]

「Deep Learning」Note on the Shattered Gradients Problem相关推荐

  1. 「Deep Learning」Note on Deep Convolutinal Activation Feature (DeCAF)

    QQ Group: 428014259 Sina Weibo:小锋子Shawn Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuans ...

  2. 「Deep Learning」Note on SFT-GAN(空间特征变换GAN)

    Sina Weibo:小锋子Shawn Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuanshaofeng/article/deta ...

  3. 「Deep Learning」Note on Switchable Normalization

    QQ Group: 428014259 Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuanshaofeng/article/deta ...

  4. BAT资深算法工程师「Deep Learning」读书系列分享(一) | 分享总结

    本文转载自:https://www.leiphone.com/news/201708/LEBNjZzvm0Q3Ipp0.html 雷锋网 AI 科技评论按:「Deep Learning」这本书是机器学 ...

  5. 「Deep Learning」读书分享系列

      Deep Learning 作者:Ian Goodfellow, Yoshua Bengio 和 Aaron Courville 本书为 Yoshua Bengio 和 Ian Goodfello ...

  6. 「Deep Learning」Notes on GAN Dissection

    QQ Group: 428014259 Sina Weibo:小锋子Shawn Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuans ...

  7. Google提出新型学习范式「Deep Memory」,或将彻底改变机器学习领域

    图源:pixabay 原文来源:arXiv 作者:Sylvain Gelly.Karol Kurach.Marcin Michalski.Xiaohua Zhai 「雷克世界」编译:嗯~是阿童木呀.K ...

  8. 「Computer Vision」Note on Revisiting Unreasonable Effectiveness of Data

    QQ Group: 428014259 Sina Weibo:小锋子Shawn Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuans ...

  9. 「Computer Vision」Note on Lossless Pooling Convolutional Networks

    QQ Group: 428014259 Sina Weibo:小锋子Shawn Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuans ...

  10. Deep Learning for Generic Object Detection: A Survey -- 目标检测综述总结

      最近,中国国防科技大学.芬兰奥卢大学.澳大利亚悉尼大学.中国香港中文大学和加拿大滑铁卢大学等人推出一篇最新目标检测综述,详细阐述了当前目标检测最新成就和关键技术.文章最后总结了未来8个比较有前景的 ...

最新文章

  1. 自己动手丰衣足食之 jQuery 数量加减插件
  2. 塔菲克蓝牙适配器驱动_小身材,大功能,biaze毕亚兹USB蓝牙适配器开箱体验
  3. 杭电4520小Q系列故事——最佳裁判
  4. HDOJ 1713 相遇周期 (最大公约数与最小公倍数)
  5. springMVC中ajax的实现
  6. Grafana教程(prometheus 基本查询语法,alerting报警)
  7. Java-BufferReader中的readLine()方法
  8. Kubernetes详解(五)——Kubernetes核心对象
  9. Python 实现数据结构中的单链表,循环单链表,双链表
  10. 软件项目管理考前复习资料
  11. 全面解析免费及收费SSH工具的基本特性和总结
  12. 常见文件文件头文件尾格式总结及各类文件头
  13. 火狐浏览器打印网页不全_win7系统打印网页显示不全的解决方法
  14. fabric ca 使用案例
  15. 微信公众平台最实用的工具和技巧大集合
  16. 云计算厂商怎么打造自己的生态网络
  17. MATLAB中的直方图阈值处理
  18. 解决win7被node.js抛弃的问题 - 1)npm/node_modules/node/bin/node: line 1: This: command not found 2)win8.1或以上
  19. [n年以前的诗] 回想那一次
  20. Windows端口开启关闭

热门文章

  1. Ubuntu 18.04 开机开启小键盘数字键numlock灯
  2. DRAM发展年历——电容方向
  3. 【MATLAB】MATLAB 可视化之曲面图与网格图
  4. CNZZ异步统计代码
  5. 随机优化算法–爬山法VS模拟退火算法
  6. 对话海尔CEO张瑞敏
  7. 香港流行乐坛三十年(很好的回忆)
  8. 史上最全的iOS开源项目分类汇总没有之一
  9. Google Chromecast
  10. 新型电话诈骗手法“明天到我办公室来一下”全揭秘