Paper之DL之BP:《Understanding the difficulty of training deep feedforward neural networks》

目录

原文解读

文章内容以及划重点

结论


原文解读

原文:Understanding the difficulty of training deep feedforward neural networks

文章内容以及划重点

Sigmoid的四层局限


sigmoid函数的test loss和training loss要经过很多轮数一直为0.5,后再有到0.1的差强人意的变化。

We hypothesize that this behavior is due to the combinationof random initialization and the fact that an hidden unitoutput of 0 corresponds to a saturated sigmoid. Note that deep networks with sigmoids but initialized from unsupervisedpre-training (e.g. from RBMs) do not suffer fromthis saturation behavior.

tanh、softsign的五层局限

换为tanh函数,就会很好很快的收敛

结论

1、The normalization factor may therefore be important when initializing deep networks because of the multiplicative effect through layers, and we suggest the following initialization procedure to approximately satisfy our objectives of maintaining activation variances and back-propagated gradients variance as one moves up or down the network. We call it the normalized initialization

2、结果可知分布更加均匀

     Activation values normalized histograms with  hyperbolic tangent activation, with standard (top) vs normalized  initialization (bottom). Top: 0-peak increases for  higher layers.
       Several conclusions can be drawn from these error curves:  
(1)、The more classical neural networks with sigmoid or  hyperbolic tangent units and standard initialization  fare rather poorly, converging more slowly and apparently  towards ultimately poorer local minima. 
(2)、The softsign networks seem to be more robust to the  initialization procedure than the tanh networks, presumably  because of their gentler non-linearity. 
(3)、For tanh networks, the proposed normalized initialization  can be quite helpful, presumably because the  layer-to-layer transformations maintain magnitudes of activations (flowing upward) and gradients (flowing backward).
3、Sigmoid 5代表有5层,N代表正则化,可得出预训练会得到更小的误差

相关文章
Understanding the difficulty of training deep feedforward neural networks 本文作者为:Xavier Glorot与Yoshua Bengio。

Paper之DL之BP:《Understanding the difficulty of training deep feedforward neural networks》相关推荐

  1. Paper:Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读

    Paper:Xavier参数初始化之<Understanding the difficulty of training deep feedforward neural networks>的 ...

  2. 经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks

    学习笔记,仅供参考,有错必纠 文章目录 Understanding the difficulty of training deep feedforward neural networks Abstra ...

  3. 【Deep Learning】笔记:Understanding the difficulty of training deep feedforward neural networks

    这几天读了这篇论文,在这里将大致内容写在这里. Abstract 介绍这篇论文的主要内容就是尝试更好的理解为什么使用"标准随机初始化"来计算使用标准梯度下降的网络效果通常来讲都不是 ...

  4. Understanding the difficulty of training deep feedforward neural networks

    1.作者 Xavier Glorot  Yoshua Bengio这就是非常出名的Xavier初始化的作者 蒙特利尔大学 加拿大 2.文章目的 本篇文章的主题在于 1.理解为什么随机初始化在很深的神经 ...

  5. 论文解析-《Understanding the difficulty of training deep feedforward neural networks》

    这篇论文详细解析了深度网络中参数xavier初始化方法,这里做一下读书笔记,同时记录一下自己的理解. 1 引言 经典前馈神经网络其实很早就有了(Remelhart et al.,1986),近年来对深 ...

  6. 《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》理解深卷积神经网络中的有效感受野

    前言 论文推荐来自B站UP-启释科技,该up对感受野和卷积有深刻的理解 推荐感受野视频讲解: 深度理解感受野(一) 深度理解感受野(二) 深度理解感受野(三) 深度理解感受野(四) 深度理解感受野(五 ...

  7. 有效感受野--Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

    Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 本文主要分析了 ...

  8. 论文阅读:Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

    文章目录 论文总述 2.感受野的定义 3.理论感受野大小的计算 4.3种增加感受野的操作 5.感受野中心像素的值对输出feature map 的response影响比边缘的像素更大 6.如何知道fea ...

  9. 经典DL论文研读(part4)--ImageNet Classification with Deep Convolutional Neural Networks

    学习笔记,仅供参考,有错必纠 文章目录 ImageNet Classification with Deep Convolutional Neural Networks 摘要 Introduction ...

最新文章

  1. UINavigationController技巧一——修改返回按钮的标题
  2. 用户切换命令:su 与 sudo
  3. HACMP 认证学习系列,第 2 部分-1:计划与设计
  4. c语言二进制转十进制(附完整源码)
  5. Eclipse中Build Path的使用介绍---学习笔记
  6. mysql导入数据库某张表_MSSQLServer2005 导出导入数据库中某张表的数据
  7. 由于远程桌面服务当前正忙|VDI无法连接
  8. .NET架构小技巧(6)——什么是好的架构
  9. 作者:李雪梅(1984-),女,烟台中科网络技术研究所研发工程师。
  10. centos安装mysql8.0.13_CentOS 7.4安装MySql 8.0.13及配置
  11. Java String startsWith()方法
  12. 最全面SpringBoot教程-转自方志朋
  13. LABEL MATRIX里用计数器自动生成流水号和自定义条码格式
  14. 无线路由器无线桥接(一)
  15. 唯物辩证法-矛盾论(普遍性+特殊性+斗争性+同一性)
  16. python爬取58同城所有租房信息_Python 爬虫之-58租房数据
  17. Excel查找重复行
  18. NLTK基础基础教程学习笔记(十四)
  19. seo vue 动态路由_基于Vue SEO的四种方案
  20. 论文汇网站第三期改版完成

热门文章

  1. 利用OpenCV求矩阵的特征值和特征向量
  2. linux strace 用法
  3. 深度学习中,Batch_Normalization加速收敛并提高正确率的内部机制
  4. 用node搭一个静态服务
  5. 关于TP-LINK宽带路由器上的“转发规则”功能用途及设置办法
  6. 凭借这 10 大算法,就可以主宰世界!
  7. Serverless五大优势,成本和规模不是最重要的,这点才是架构
  8. Python 实现猜年龄小游戏
  9. 计算机网络原理和应用,计算机网络原理与应用
  10. xml配置linux启动脚本,linux中利用Shell脚本实现自动安装部署weblogic服务