0. 写作目的

通过实验分析keras中Dropout在训练阶段和测试阶段的使用情况。

结论： Keras使用的 Inverted Dropout，因此测试时不需要修改 Dropout中的参数(rate)。

1. Dropout 的实现方式

Dropout的实现方式有两种。

Dropout:(使用较少， AlexNet使用的是这种Dropout)

训练阶段：

keepProb: 保留该神经元的概率。

d3 = np.random.rand( a3.shape[0], a3.shape[1] ) < keepProb

$a3=a3 * d3$

测试阶段：计算的结果需要乘以keepProb： $a3 = a3 * Keepprob$

Inverted Dropout:（目前常用的方法）：

训练阶段：

d3 = np.random.rand( a3.shape[0], a3.shape[1] ) < keepProb

$a3=a3 * d3$

a3 = a3 / keepProb

测试阶段： $a3=a3$

2. 实验验证Dropout的实现（也可以通过源码查看）

实验思路：通过训练带有Dropout的网络，然后加载训练的模型，并修改其中的Dropout的参数。观察在相同的数据集上的预测结果是否相同，为避免实验的随机性，对于测试实验运行10次观察结果。

实验过程：首先运行代码一，然后运行代码二，然后对比代码一与代码二的结果。

实验结果猜测：如果代码一的结果是代码二结果的 1/2，说明Keras中Dropout是采用AlexNet中的Dropout，如果代码一二的结果近似相等，说明Keras中Dropout使用的是Inverted Dropout。

代码一：

# _*_ coding:utf-8 _*_import keras
from keras.layers import Dense, Dropout, Input
from keras.optimizers import SGD
import numpy as np
from keras.models import Model, load_model
import tensorflow as tf## y = 2 * x1 + x2
def generateData():X = np.array([[3, 2], [2, 4], [1, 6]])y = np.array([[8], [8], [8]])return X, ydef Net(rate=0):tf.reset_default_graph()input_x = Input( shape=(2, ) )x = Dense(units=100, activation='linear')(input_x)x = Dropout(rate=rate)(x)x = Dense(units=100, activation='linear')(x)x = Dense(units=1, activation='linear')(x)model = Model(inputs=input_x, outputs=x)model.summary()return modeldef main():model_with = Net(rate=0.5)model_with.compile(optimizer=SGD(0.001), loss='mse')X, y = generateData()model_with.fit(X, y, nb_epoch=1000, verbose=0)model_with.save('model.h5')for ii in range(10):y_with = model_with.predict( X )print( 'model with dropout:{}'.format(y_with) )if __name__ == "__main__":main()

代码二：

#!/usr/bin/env python
# _*_ coding:utf-8 _*_import keras
from keras.layers import Dense, Dropout, Input
from keras.optimizers import SGD
import numpy as np
from keras.models import Model, load_model
import tensorflow as tf## y = 2 * x1 + x2
def generateData():X = np.array([[3, 2], [2, 4], [1, 6]])y = np.array([[8], [8], [8]])return X, ydef Net(rate=0):tf.reset_default_graph()input_x = Input( shape=(2, ) )x = Dense(units=100, activation='linear')(input_x)x = Dropout(rate=rate)(x)x = Dense(units=100, activation='linear')(x)x = Dense(units=1, activation='linear')(x)model = Model(inputs=input_x, outputs=x)model.summary()return modeldef main():X, y = generateData()model_without = Net(rate=0)model_without.load_weights('model.h5', by_name=True)# model_without = load_model( 'model.h5' )for ii in range(10):y_without = model_without.predict(X)print('model without dropout: {}'.format(y_without))if __name__ == "__main__":main()

3. 实验结果

代码一结果：

model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]
model with dropout:[[8.249627][8.171895][8.094164]]

代码二结果：

model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]
model without dropout: [[8.249627][8.171895][8.094164]]

4. 实验结论

通过实验结果可以看出，Keras中Dropout使用的是Inverted Dropout。

[Reference]

https://github.com/keras-team/keras/issues/5357

Keras 实现细节——dropout在训练阶段与测试阶段的使用分析相关推荐

keras系列︱图像多分类训练与利用bottleneck features进行微调（三）
引自:http://blog.csdn.net/sinat_26917383/article/details/72861152 中文文档:http://keras-cn.readthedocs.io/ ...
BN和Dropout在训练和测试时有哪些差别？
作者丨海晨威@知乎来源丨https://zhuanlan.zhihu.com/p/61725100 编辑丨极市平台 Batch Normalization BN,Batch Normalizatio ...
为什么极度随机树比随机森林更随机？这个极度随机的特性有什么好处？在训练阶段、极度随机数比随机森林快还是慢？
为什么极度随机树比随机森林更随机?这个极度随机的特性有什么好处?在训练阶段.极度随机数比随机森林快还是慢? ExtRa Trees是Extremely Randomized Trees的缩写,意思就是 ...
keras和tensorflow使用 keras.callbacks.EarlyStopping 提前结束训练
此文首发于我的个人博客:keras和tensorflow使用 keras.callbacks.EarlyStopping 提前结束训练 - zhang0peter的个人博客一般来说机器学习的训练次数 ...
Fast-RCNN解析：训练阶段代码导读
转载自:http://blog.csdn.net/linj_m/article/details/48930179#0-tsina-1-35514-397232819ff9a47a7b7e80a4061 ...
HRBU 2021年暑期训练阶段二Day3
目录 A - Shuffle'm Up 题目链接: 题意: 做法: B - Prime Path 题目链接: 题意: 做法: C - Function Run Fun 题目链接: 题意: 做法: D ...
BN和Dropout在训练和测试时的差别
Batch Normalization BN,Batch Normalization,就是在深度神经网络训练过程中使得每一层神经网络的输入保持相近的分布. BN训练和测试时的参数是一样的嘛? 对于BN ...
keras指定gpu_Keras多GPU训练指南
摘要:随着Keras(v2.0.8)最新版本的发布,使用多GPU 训练深度神经网络将变得非常容易,就跟调用函数一样简单!利用多GPU,能够获得准线性的提速. Keras是我最喜欢的Python深度学习 ...
HRBU 2021年暑期训练阶段三Day1
目录 A - Similar Strings 题目链接: 题意: 做法: B - card card card 题目链接: 题意: 做法: C - String 题目链接: 题意: 做法: D - C ...

Keras 实现细节——dropout在训练阶段与测试阶段的使用分析