目录

权重初始化

随机初始化

Xavier Initialization

Kaiming / MSRA Initialization

训练误差和测试误差

Early Stopping

Model Ensembles

正则化

正则化的通用思想

Dropout

解释

Inverted dropout

数据增强

其他方法

使用建议

选择超参数

步骤

Random Search 和 Grid Search


权重初始化

在神经网络的学习中,权重初始值非常重要。很多时候权重初始值的设定关系到神经网络的学习能否成功。

随机初始化

小网络可以,更深的网络会出问题

初始化值比较小

如果初始化数值比较小,比如W = 0.01* np.random.randn(D,H) ,会发生梯度消失。这里说的主要针对sigmoid或tanh函数,输⼊接近于零,反向传播过程中权重的local gradient(其中x这一项等于0)等于0,最后算出来的梯度成为0

并且,激活值集中在 0.5 附近的分布,激活值的分布有所偏向,说明在表现力上会有很大问题。因为如果有多个神经元都输出几乎相同的值,那它们就没有存在的意义了。比如,如果 100 个神经元都输出几乎相同的值,那么也可以由 1 个神经元来表达基本相同的事情。因此,激活值在分布上有所偏向会出现“表现力受限”的问题。

各层的激活值的分布应当有适当的广度,因为通过在各层间传递多样性的数据,神经网络可以进行高效的学习。反过来,如果传递的是有所偏向的数据,就会出现梯度消失或者“表现力受限”的问题,导致学习可能无法顺利进行。

初始化数值比较大

如果初始化数值比较大,比如W = 0.05* np.random.randn(D,H) ,也会发生梯度消失:所有的激活值饱和,local gradient(tanh导数项等于0)等于0,最后算出来的梯度成为0

Xavier Initialization

Xavier 的论文中,为了使各层的激活值呈现出具有相同广度的分布,推导了合适的权重尺度。随机初始化的neuron的output的方差随着input的个数增加而增加,于是要用input个数对权重矩阵进行缩放,使得输入输出的方差不变:如果前一层的节点数为 n,则初始值使用标准差为 1/sqrt(n) 的分布


推导过程

对于一个没有⾮线性的全连接层输出,权重wij都是从同⼀分布中独⽴抽取的。此外,假设该分布具有零均值和⽅差σ2。请注意,这并不意味着分布必须是⾼斯的,只是均值和⽅差需要存在。现在,让我们假设层xj的输⼊也具有零均值和⽅差γ2,并且它们独⽴于wij并且彼此独⽴。在这种情况下,我们可以按如下⽅式计算oi的平均值和⽅差:

保持方差不变的一种方法是设置

2022年Cs231n PPT笔记-训练CNN相关推荐

  1. CS231n官方笔记授权翻译总集篇发布

    CS231n简介 CS231n的全称是CS231n: Convolutional Neural Networks for Visual Recognition,即面向视觉识别的卷积神经网络.该课程是斯 ...

  2. CS231n课程笔记翻译9:卷积神经网络笔记

    译者注:本文翻译自斯坦福CS231n课程笔记ConvNet notes,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客和猴子翻译完成,堃堃和李艺颖进行校对修改. 原文如下 内容列 ...

  3. CS231n课程笔记翻译8:神经网络笔记 part3

    译者注:本文 智能单元 首发,译自斯坦福CS231n课程笔记 Neural Nets notes 3 ,课程教师 Andrej Karpathy 授权翻译.本篇教程由 杜客 翻译完成, 堃堃 和 巩子 ...

  4. CS231n课程笔记翻译:神经网络笔记3(下)

    CS231n课程笔记翻译:神经网络笔记3(下) 笔记译自斯坦福CS231n课程笔记Neural Nets notes 3,课程教师Andrej Karpathy授权翻译. 转自知乎,原文地址: htt ...

  5. 深度学习与计算机视觉教程:斯坦福CS231n · 全套笔记解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/37 本文地址:https://www.showmeai.tech/article-d ...

  6. CS231n课程笔记翻译:图像分类笔记(下)

    译者注:本文翻译自斯坦福CS231n课程笔记image classification notes,课程教师Andrej Karpathy授权翻译.本篇教程由杜客进行翻译,ShiqingFan和巩子嘉进 ...

  7. CS231n课程笔记翻译:图像分类笔记(上)

    译者注:本文翻译自斯坦福CS231n课程笔记image classification notes,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客翻译完成.ShiqingFan对译 ...

  8. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需 ...

  9. 【cs231n作业笔记】一:KNN分类器

    安装anaconda,下载assignment作业代码 作业代码数据集等2018版基于python3.6 下载提取码4put 本课程内容参考: cs231n官方笔记地址 贺完结!CS231n官方笔记授 ...

  10. CS231n课程笔记翻译系列之目录汇总

    知乎上CS231n课程翻译系列 翻译的笔记非常好,为了方便查看,这里把所有目录列于此,并给出链接. Python Numpy教程(全篇) Python 基本数据类型 容器(列表, 字典, 集合, 元组 ...

最新文章

  1. 从客户端(...)中检测到有潜在危险的Request.Form 值的处理办法
  2. python最小值函数_Python3 min() 函数详解 获取多个参数或列表中的最小值
  3. 每天一道LeetCode-----重排链表,节点顺序是从头取一个,从尾取一个,从头取一个,从尾取一个.....
  4. linux下使用TC模拟弱网络环境
  5. 力扣——204. 计数质数
  6. html 显示接口数据格式化,科技常识:html格式化输出JSON示例(测试接口)
  7. ELKStack之操作深入(中)
  8. Aho-Corasick
  9. sql常用语句之DDL
  10. python操作Excel
  11. 易购考拉 The fourth day
  12. python容易挂科吗_如何应付大学的python考试而不至于挂科?
  13. SQL语句按照姓名首字母排序
  14. 具有 Unity Terrain 功能的简单环境设计
  15. 中国支付结算系统发展简史
  16. 计算机算法(二)——进入计算机世界
  17. 视频合并怎么制作?建议收藏这三款软件
  18. 如何debug Vue源码
  19. Python获取全年法定节假日时间
  20. bios设置计算机用户,电脑security设置图解

热门文章

  1. Cent os 7 使用vnc远程访问
  2. 做对的事情远比把事情做对重要得多
  3. 交换两个数组的内容555555555
  4. oracle 存储过程body,【随手记】Oracle存储过程报错 Compilation errors for PACKAGE BODY
  5. 咸鱼の软构实验感想(1)
  6. 中国姓氏人口排名及分布
  7. 『危机领导力』告诉我们如何带好团队
  8. 小班同学学习经历分享(一)游戏程序员成长札记
  9. 平面几何----用角平分线逆定理证明阿氏圆定理
  10. 【动态规划】FatMouse's Speed