dropout

dropout可以看成是正则化，也可以看成是ensemble

class Dropout(SubLayer):# self._prob：训练过程中每个神经元被“留下”的概率def __init__(self, parent, shape, drop_prob=0.5):if drop_prob < 0 or drop_prob >= 1:raise ValueError("(Dropout) Probability of Dropout should be a positive float smaller than 1")SubLayer.__init__(self, parent, shape)# 被“留下”的概率自然是1-被Drop的概率self._prob = tf.constant(1-drop_prob, dtype=tf.float32)self.description = "(Drop prob: {})".format(drop_prob)def _activate(self, x, predict):# 如果是在训练过程，那么就按照设定的、被“留下”的概率进行Dropoutif not predict:return tf.nn.dropout(x, self._prop)  # 如果是在预测过程，那么直接返回输入值即可return x

BN

简单地将每层得到的数据进行上述归一化操作显然是不可行的、因为这样会破坏掉每层自身学到的数据特征。为了使得中心化之后不破坏 Layer 本身学到的特征、BN 采取了一个简单却十分有效的方法：引入两个可以学习的“重构参数”以期望能够从中心化的数据重构出 Layer 本身学到的特征。

class Normalize(SubLayer):"""初始化结构self._eps：记录增强数值稳定性所用的小值的属性self._activation：记录自身的激活函数的属性，主要是为了兼容图7.17 A的情况self.tf_rm、self.tf_rv：记录μ_run、σ_run^2的属性self.tf_gamma、self.tf_beta：记录γ、β的属性self._momentum：记录动量值m的属性"""def __init__(self, parent, shape, activation="Identical", eps=1e-8, momentum=0.9):SubLayer.__init__(self, parent, shape)self._eps = epsself._activation = activationself.tf_rm = self.tf_rv = Noneself.tf_gamma = tf.Variable(tf.ones(self.shape[1]), name="norm_scale")self.tf_beta = tf.Variable(tf.zeros(self.shape[1]), name="norm_beta")self._momentum = momentumself.description = "(eps:{}, momentum:{})".format(eps, momentum)def _activate(self, x, predict):if self.tf_rm is None or self.tf_rv is None:shape = x.get_shape()[-1]self.tf_rm = tf.Variable(tf.zeros(shape), trainable=False, name="norm_mean")self.tf_rv = tf.Variable(tf.ones(shape), trainable=False, name="norm_var")if not predict:# tf.nn.moments获取原始的均值和误差_sm, _sv = tf.nn.moments(x, list(range(len(x.get_shape())-1)))# 定义操作，方便控制依赖_rm = tf.assign(self.tf_rm, self._momentum*self.tf_rm + (1-self._momentum)*_sm)_rv = tf.assign(self.tf_rv, self._momentum*self.tf_rv + (1-self._momentum)*_sv)with tf.control_dependencies([_rm, _rv]):# 按照算法描述，momentum版本应该必须使用动量更新后的均值和误差
#                _norm = tf.nn.batch_normalization(x, _sm, _sv, self.tf_beta, self.tf_gamma, self._eps)_norm = tf.nn.batch_normalization(x, self.tf_rm, self.tf_rv, self.tf_beta, self.tf_gamma, self._eps)else:_norm = tf.nn.batch_normalization(x, self.tf_rm, self.tf_rv, self.tf_beta, self.tf_gamma, self._eps)# 如果指定了激活函数、就再用相应激活函数作用在BN结果上以得到最终结果# 这里只定义了ReLU和Sigmoid两种，如有需要可以很方便地进行拓展if self._activation == "ReLU":return tf.nn.relu(_norm)if self._activation == "Sigmoid":return tf.nn.sigmoid(_norm)return _norm

深度学习：dropout和BN的实现相关推荐

深度学习Dropout技术分析
深度学习Dropout技术分析什么是Dropout? dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃.注意是暂时,对于随机梯度下降来说,由于是随机 ...
深度学习- Dropout 稀疏化原理解析
搬运原文链接:https://zhuanlan.zhihu.com/p/38200980 深度学习中 Dropout 原理解析文章目录深度学习中 Dropout 原理解析 1. Dropout 简 ...
深度学习中的 BN (BatchNormalization)理解
CNN 三大算子: CONV + BN +RELU 1.为什么 BN 指导思想: 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的. 具有统一规格的数据, ...
cvpr 深度估计_干货 | 2019 到目前为止的深度学习研究进展汇总
本文为 AI 研习社编译的技术博客,原标题 : Best Deep Learning Research of 2019 So Far 作者 | ODSC - Open Data Science 翻译 ...
深度学习论文TOP10，2019一季度研究进展大盘点
鱼羊编译整理量子位报道 | 公众号 QbitAI 9012年已经悄悄过去了1/3. 过去的100多天里,在深度学习领域,每天都有大量的新论文产生.所以深度学习研究在2019年开了怎样一个头呢? ...
人工智能、机器学习、深度学习从入门到进阶学习资料整理
最近整理了下在这里分享给大家,欢迎大家点赞收藏. 学习社区神力AI(MANA):国内最大的AI代码平台. Learn AI:一个AI学习交流中心. AI研习社:一个专注于AI开发者和学术青年求知求职 ...
机器学习、深度学习、神经网络学习资料集合(开发必备)
最近整理了下AI方面的学习资料,包含了学习社区.入门教程.汲取学习.深度学习.自然语言处理.计算机视觉.数据分析.面试和书籍等方面的知识.在这里分享给大家,欢迎大家点赞收藏. 学习社区神力AI(MA ...
高屋建瓴学机器学习/深度学习
高屋建瓴问总结通过高屋建瓴的学习,解决平时越到的一些本质上的疑惑. 问到底该如何理解 Normalization,以及深度学习中的BN? 详解深度学习中的Normalization,BN/LN ...
人工智能、机器学习、深度学习学习资料整理(开发必备)
最近整理了下AI方面的学习资料,包含了学习社区.入门教程.汲取学习.深度学习.自然语言处理.计算机视觉.数据分析.面试和书籍等方面的知识.在这里分享给大家,欢迎大家点赞收藏. 学习社区神力AI(MA ...
李宏毅深度学习自用笔记（未完）
文章目录 1.机器学习是干什么的? 1.机器学习能够找到那些函数? 1.如何告诉机器我们希望找到什么函数? 1.机器如何找到我们想要的函数? 1.机器学习的三个步骤: 2.线性回归模型 2.梯度下降 ...

深度学习：dropout和BN的实现

文章目录

dropout

BN

深度学习：dropout和BN的实现相关推荐

最新文章

热门文章