点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

来源 :towardsdatascience.com

正文共:4759 字 28 图

预计阅读时间: 12 分钟

本文通过不同的方法初始化神经网络中的图层权重。通过各种简短的实验和思想练习,我们将逐步发现为什么在训练深度神经网络时足够的重量初始化非常重要。在此过程中,我们将介绍研究人员多年来提出的各种方法,并最终深入研究最适合您且最有可能使用的当代网络架构的方法。

接下来的例子来自我自己重新实现的一套笔记,Jeremy Howard在最新版本的fast.ai的深度学习第二部分课程中介绍了这一课程,该课程目前正在2019年春天在USF的数据研究所举行。

为什么要初始化权重

权重初始化的目的是防止层激活输出在正向通过深度神经网络的过程中爆炸或消失。如果发生任何一种情况,损失梯度将太大或太小而无法有效地向后流动,并且如果网络甚至能够这样做,则网络将花费更长时间来收敛。

矩阵乘法是神经网络的基本数学运算。在具有多个层的深度神经网络中,一个前向通道仅需要在每个层,在该层的输入和权重矩阵之间执行连续的矩阵乘法。在一层的这种乘法的乘积成为后续层的输入,依此类推。

对于一个说明这一点的快速和肮脏的例子,让我们假设我们有一个包含一些网络输入的向量x。这是训练神经网络时的标准做法,以确保我们的输入值被缩放,使得它们落入这样的正态分布,平均值为0,标准差为1。

让我们假设我们有一个没有激活的简单的100层网络,并且每个层都有一个包含图层权重的矩阵a。为了完成单个前向传递,我们必须在层输入和每100个层中的权重之间执行矩阵乘法,这将使总共100个连续矩阵乘法。

事实证明,从我们对输入进行缩放的相同标准正态分布初始化图层权重值绝不是一个好主意。为了了解原因,我们可以模拟我们假设网络的正向传递。

哇!在这100次乘法期间的某个地方,层输出变得非常大,甚至计算机也无法识别它们的标准偏差并且意味着数字。我们实际上可以确切地看到发生了多长时间。

激活输出在我们网络的29层内爆炸。我们明确地将权重初始化为过大。

不幸的是,我们还要担心防止层输出消失。为了看看当我们初始化网络权重太小时会发生什么 - 我们将扩展我们的权重值,使得它们仍然落入平均值为0的正态分布内,它们的标准偏差为0.01。

在上述假设的前向传递过程中,激活输出完全消失。

总结一下,如果权重被初始化得太大,网络将无法很好地学习。当权重初始化太小时也会发生同样的情况。

我们怎样才能找到最佳点?

请记住,如上所述,完成正向传递通过神经网络所需的数学只需要连续的矩阵乘法。如果我们的输出y是我们的输入向量x和权重矩阵a之间的矩阵乘法的乘积,则y中的每个元素i被定义为

其中我是权重矩阵的一个给定的行指数一个,ķ既是给定列的索引在权重矩阵一个和元素索引在输入向量X,并Ñ是范围内或在元件的总数X。这也可以在Python中定义为:

y [i] = sum([c * d表示c,d表示拉链(a [i],x)])

我们可以证明,在给定的层,我们从标准正态分布初始化的输入x和权重矩阵a的矩阵乘积平均具有非常接近输入连接数的平方根的标准偏差,在我们的例子中是512。

如果我们根据如何定义矩阵乘法来看这个属性就不足为奇了:为了计算y,我们将输入x的一个元素的元素乘法乘以权重a的一列的512个乘积相加。在我们使用标准正态分布初始化x和a的示例中,这512个产品中的每一个的平均值为0,标准差为1。

然后,这512个产品的总和的平均值为0,方差为512,因此标准差为√512。

这就是为什么在上面的例子中我们看到我们的图层输出在29次连续矩阵乘法后爆炸。在我们简单的100层网络架构的情况下,我们想要的是每层的输出具有大约1的标准偏差。这可以想象我们可以在我们想要的多个网络层上重复矩阵乘法没有激活爆炸或消失。

如果我们首先通过将所有随机选择的值除以√512来缩放权重矩阵a,那么填充输出y的一个元素的元素乘法现在平均将具有仅1 /512的方差。

这意味着矩阵y的标准偏差(包含通过输入x和权重a之间的矩阵乘法生成的512个值中的每一个)将为1.让我们通过实验确认。

现在让我们重新运行我们快速而肮脏的100层网络。与以前一样,我们首先在从内侧标准正态分布的随机选择层的权重[-1,1],但这次我们通过1 /√缩放权重的那些Ñ,其中Ñ是网络输入连接的数目在一个层,该层是我们的例子中有512个。

成功!即使在我们的100个假设层之后,我们的层输出既不会爆炸也不会消失。

虽然乍一看似乎在这一点上我们可以称它为一天,现实世界的神经网络并不像我们的第一个例子似乎表明的那么简单。为简单起见,省略了激活功能。但是,我们永远不会在现实生活中这样做。这要归功于在网络层的尾端放置这些非线性激活函数,深度神经网络能够创建描述现实世界现象的复杂函数的近似近似,然后可用于生成令人惊讶的令人印象深刻的预测,例如手写样本的分类。

Xavier初始化

直到几年前,最常用的激活函数关于给定值是对称的,并且具有渐近接近从该中点加/减一定距离的值的范围。双曲正切和softsign函数举例说明了这类激活。

我们将在假设的100层网络的每一层之后添加双曲正切激活函数,然后看看当我们使用本地权重初始化方案时会发生什么,其中层权重按1 /n缩放。

第100层的激活输出的标准偏差低至约0.06。这绝对是偏小的一面,但至少激活并没有完全消失!

直观地说,发现我们自己的体重初始策略的旅程现在看起来似乎回想起来,你可能会惊讶地听到,就在2010年,这不是初始化体重层的传统方法。

当Xavier Glorot和Yoshua Bengio发表他们的标题性文章“ 理解深度前馈神经网络训练的难度 ”时,他们比较实验的“常用启发式”是在[-1,1]中从均匀分布初始化权重。然后,通过1 /n缩放。

事实证明,这种“标准”方法实际上并不能很好地发挥作用。

使用“标准”重量初始化重新运行我们的100层tanh网络会导致激活梯度变得无限小 - 它们就像消失一样好。

这种糟糕的表现实际上是促使Glorot和Bengio提出他们自己的权重初始化策略,他们在他们的论文中称之为“规范化初始化”,现在通常被称为“Xavier初始化”。

Xavier初始化将图层的权重设置为从在其间界定的随机均匀分布中选择的值

其中nᵢ是该层的传入网络连接数或“扇入” 数,nᵢ₊1是该层的传出网络连接数,也称为“扇出”。

Glorot和Bengio认为,Xavier权重初始化将保持激活和反向传播梯度的变化,一直向上或向下网络层。在他们的实验中,他们观察到Xavier初始化使得5层网络能够在层间保持其重量梯度的几乎相同的方差。

使用Xavier init。图片来源:Glorot和Bengio。

相反,事实证明,使用“标准”初始化会在网络较低层的权重梯度与较高层的权重梯度之间的差异方面带来更大的差距,而最高层的权重梯度接近于零。

没有Xavier init。图片来源:Glorot和Bengio。

为了推动这一点,Glorot和Bengio证明,使用Xavier初始化的网络在CIFAR-10图像分类任务上实现了更快的收敛和更高的准确性。

让我们再次重新运行我们的100层tanh网络,这次使用Xavier初始化:

在我们的实验网络中,Xavier初始化执行与我们之前导出的本地方法完全相同,我们从随机正态分布中采样值,并通过传入网络连接数n的平方根进行缩放。

凯明初始化

从概念上讲,当使用关于零对称且在[-1,1]内有输出的激活函数(例如softsign和tanh)时,我们希望每层的激活输出的平均值为0和a标准偏差大约为1,平均。这正是我们的本土方法和Xavier所能实现的。

但是,如果我们使用ReLU激活功能呢?想以同样的方式扩展随机初始权重值是否仍然有意义?

ReLU激活功能。图片来源:Kanchan Sarkar的博客。

为了看看会发生什么,让我们在我们假设的网络层中使用ReLU激活而不是tanh,并观察其输出的预期标准偏差。

事实证明,当使用ReLU激活时,单个层的平均标准偏差将非常接近输入连接数的平方根,除以2的平方根,或512/2例。

通过该数字缩放权重矩阵a的值将导致每个单独的ReLU层平均具有1的标准偏差。

正如我们之前所展示的那样,保持层激活的标准偏差大约为1将允许我们在深度神经网络中堆叠更多层而不会出现梯度爆炸或消失。

关于如何在具有类似ReLU的激活的网络中最佳地初始化权重的探索是Kaiming He等人的动机。人。要提出自己的初始化方案,即对使用这些类型的非对称,非线性的激活深层神经网络量身定制的。

在他们2015年的论文中,他等。人。证明了如果采用以下输入权重初始化策略,深层网络(例如22层CNN)会更早收敛:

使用适合给定图层的权重矩阵的尺寸创建张量,并使用从标准正态分布中随机选择的数字填充它。

将每个随机选择的数字乘以√2 / √n,其中n是从前一层输出进入给定层的传入连接数(也称为“扇入”)。

偏差张量初始化为零。

我们可以按照这些指示来实现我们自己的Kaiming初始化版本,并验证如果在我们假设的100层网络的所有层使用ReLU,它确实可以防止激活输出爆炸或消失。

作为最后的比较,如果我们使用Xavier初始化,那么将会发生这种情况。

哎哟! 当使用Xavier初始化权重时,激活输出几乎完全消失了第100层!

顺便提一下,当他们训练使用ReLU的更深层网络时,He等。人。发现使用Xavier初始化的30层CNN完全停止并且根本没有学习。然而,当根据上面概述的三步程序初始化相同的网络时,它获得了更大的收敛。

Kaiming init支持30层 CNN的融合

对我们来说,故事的寓意是,我们从头开始训练的任何网络,特别是计算机视觉应用,几乎肯定会包含ReLU激活功能,并且深层次。在这种情况下,开明应该是我们的首选权重初始策略。

是的,你也可以成为一名研究员

更重要的是,当我第一次看到Xavier和Kaiming公式时,我并不羞于承认我感到害怕。对于他们各自的六,二的平方根源,我的一部分不禁感到他们一定是某种我无法自己理解的一种神秘智慧的结果。让我们面对现实,有时深度学习论文中的数学看起来很像象形文字,除了没有Rosetta Stone来帮助翻译。

但我认为我们在这里所经历的旅程向我们表明,这种对恐吓感的下意识反应虽然完全可以理解,但绝不是不可避免的。尽管凯明和(特别是)泽维尔的论文确实包含了他们公平的数学分数,但我们亲眼目睹了实验,经验观察和一些直截了当的常识如何足以帮助推导出支持目前最广泛的核心原则的核心原则。使用重量初始化方案。

或者说:当有疑问时,要勇敢,尝试一下,看看会发生什么!

参考链接:

https://towardsdatascience.com/weight-initialization-in-neural-networks-a-journey-from-the-basics-to-kaiming-954fb9b47c79

本文为计算机视觉联盟编译,转载请联系本公众号获得授权

END

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

文章荐读

Python必备收藏!博士大佬总结的Pycharm 常用快捷键思维导图!

全网首发!2020年AI、CV、NLP顶会最全时间表!

2020 年校招,最值得加入的互联网公司有哪些?

收藏!最强行人检测算法思维导图

中科院和本硕博985在读博士的AI进阶之路

点个在看支持一下吧

神经网络初始化trick:大神何凯明教你如何训练网络!相关推荐

  1. 人工智能大神何凯明往事与风华岁月

    文章目录 快速认识大牛 少年英才 CVPR最佳论文展露头角,去雾算法扬名天下 残差网络轰动业界 何凯明和贾扬清 机器视觉三剑客:何凯明.孙剑与汤晓鸥 何凯明治学方法 研究成果与代表作 参考 快速认识大 ...

  2. matlab小波神经网络,MATLAB 小波神经网络预测求助大神

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 神经网络初始化 从数据库下载训练程序和预测数据,初始化神经网络结构.权值和函数参数,并对训练数据进行归一化处理.其中,input.output分别为训练输 ...

  3. 卷积神经网络中十大拍案叫绝的操作

    作者 | Justin ho 来源 | 知乎 CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.下面会对近几年一些具有变革性 ...

  4. 卷积神经网络中10大拍案叫绝的操作!

    来源:AI蜗牛车 本文约4000字,建议阅读8分钟. 本文我们从变革性工作中探讨日后的CNN变革方向. 标签:人工智能技术 从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一 ...

  5. 卷积神经网络中十大拍案叫绝的操作!

    作者 | Justin ho 来源 | 机器学习算法那些事 整理 | AI科技大本营 从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个 ...

  6. 卷积神经网络中十大令人拍案叫绝的操作

    一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:Justin ho 来源:https://zhuanlan.zhihu.com/p/28749411 前言 CNN从2012年的AlexNet发 ...

  7. 赞!卷积神经网络中十大拍案叫绝的操作

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:作者:Justin ho:程序员遇见GitHub https ...

  8. 收藏 | 卷积神经网络中十大拍案叫绝的操作

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:程序员遇见GitHub  作者:Justin ho http ...

  9. 收藏 | 卷积神经网络中10大拍案叫绝的操作!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:知乎,https://zhuanlan.zhihu.com/ ...

最新文章

  1. “马踏飞”AI机器人实现方案介绍
  2. 牛客题霸 NC18 顺时针旋转矩阵
  3. MemSQL初体验 - (2)初始化测试环境
  4. tslib编译使用方法
  5. #!/bin/sh与#!/bin/bash的区别
  6. 【ElasticSearch】Es 源码之 HttpServerTransport 源码解读
  7. linux c++ 实现http请求
  8. python web 并发 性能_Python Web Server的性能测试
  9. Luogu1220 关路灯
  10. Scratch3.0界面介绍
  11. 程序员因为写了一段爬虫代码,全公司200人被警察一锅端!
  12. Java下变量大小写驼峰、大小写下划线、大小写连线转换
  13. linux 开启ssdp服务,无法网络发现,Windows Server 2012如何启用SSDP Discovery服务
  14. 2021年电子合同最新政策汇总,29项举措鼓励各行业推广应用
  15. 高分子物理名词解释归纳
  16. ppt复现CVPR顶会流程图
  17. MPOS in Retail (Dynamics 365 for Operation)
  18. 苹果电脑硬盘损坏数据是否可以恢复
  19. mysql中autocommit,start transaction和begin/commit的异同
  20. 将安卓系统迁移到鸿蒙OS,华为或很快推出鸿蒙系统手机 将安卓系统迁移到鸿蒙OS只需1-2天即可实现...

热门文章

  1. 80C51汇编语言有哪几条常用伪指令,单片微机原理与接口技术答案(宋跃版)
  2. java中的集合_你真的了解Java中的集合类么?
  3. 【linux】RedHat 7.x 升级 openssh 为 8.x 版本
  4. 安卓button设置背景图_这些安卓源码调试技巧,不懂的人月薪绝对不过 30k !
  5. 交叉编译openwrt php,交叉编译n2n,以openwrt为例子
  6. SQLServer存储过程编写规则
  7. LVS Nginx 负载均衡区别
  8. 编程:使用递归方式判断某个字串是否回文(Palindrome)
  9. DIV实现CSS 的placeholder效果
  10. 数据统计的视觉盛宴---visifire charts