前言

反向传播计算梯度，表示模型的参数。是使用正向传播和损失函数来计算的。
计算公式如下：

$\frac{df(x)}{dx} = \frac{f(x+h)-f(x-h)}{2h}$

因为向前传播相对容易实现，所以比较容易获得正确的结果，确定要计算成本正确。因此，可以通过计算验证计算。
一维梯度检查

一维线性函数。该模型只包含一个实值参数，并采取x作为输入。
这里写图片描述

一维线性模型

上图显示了关键的计算步骤：首先从开始，然后评估该功能（“前向传播”）。然后计算导数（“反向传播”）。下面就用代码来实现。

导入依赖包

首先我们要导入相应的依赖包，其中一些工具类可以在这里下载。

# coding=utf-8
from testCases import *
from gc_utils import sigmoid, relu, dictionary_to_vector, vector_to_dictionary, gradients_to_vector

正向传播

下面是线性前向传播函数代码：

def forward_propagation(x, theta):"""实现线性向前传播(计算J) (J(theta) = theta * x)Arguments:x -- 一个实值输入theta -- 我们的参数，一个实数。Returns:J -- 函数J的值, 计算使用公式 J(theta) = theta * x"""J = theta * xreturn J

反向传播

线性反向传播函数，计算公式是：

def backward_propagation(x, theta):"""计算J对的导数Arguments:x -- 一个实值输入theta -- 我们的参数，一个实数。Returns:dtheta -- 成本的梯度。"""dtheta = xreturn dtheta

开始检查

然后使用反向传播计算梯度，并将结果存储在一个变量“grad”中。
最后，使用以下公式计算“gradapprox”和“grad”之间的相对差异：

如果计算得到的结果足够小，就证明是梯度没问题了，以下是梯度检查代码：

def gradient_check(x, theta, epsilon=1e-7):"""实现反向传播Arguments:x -- 一个实值输入theta -- 我们的参数，一个实数epsilon -- 用公式对输入进行微小位移计算近似梯度Returns:difference -- 近似梯度与反向传播梯度之间的差异。"""# 用公式的左边来计算gradapprox(1)thetaplus = theta + epsilon  # Step 1thetaminus = theta - epsilon  # Step 2J_plus = thetaplus * x  # Step 3J_minus = thetaminus * x  # Step 4gradapprox = (J_plus - J_minus) / (2 * epsilon)  # Step 5# ：检查gradapprox是否足够接近backward_propagation()的输出grad = backward_propagation(x, theta)numerator = np.linalg.norm(grad - gradapprox)  # Step 1'denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)  # Step 2'difference = numerator / denominator  # Step 3'if difference < 1e-7:print ("梯度是正确的!")else:print ("梯度是错误的!")return difference

然后执行这一段代码，看看梯度是否正确：

if __name__ == "__main__":x, theta = 2, 4difference = gradient_check(x, theta)print("difference = " + str(difference))

当结果满足difference < 1e-7，梯度是正确的。

梯度是正确的!
difference = 2.91933588329e-10

多维梯度检查

多维梯度模型的向前和向后传播如下图：

LINEAR - > RELU - > LINEAR - > RELU - > LINEAR - > SIGMOID

向前传播

多维梯度的向前传播：

def forward_propagation_n(X, Y, parameters):"""实现前面的传播(并计算成本)，如图3所示。Arguments:X -- m例的训练集。Y -- m的样本的标签parameters -- 包含参数的python字典 "W1", "b1", "W2", "b2", "W3", "b3":W1 -- 权重矩阵的形状(5, 4)b1 -- 偏差的矢量形状(5, 1)W2 -- 权重矩阵的形状(3, 5)b2 -- 偏差的矢量形状(3, 1)W3 -- 权重矩阵的形状(1, 3)b3 -- 偏差的矢量形状(1, 1)Returns:cost -- 成本函数(一个样本的逻辑成本)"""# 检索参数m = X.shape[1]W1 = parameters["W1"]b1 = parameters["b1"]W2 = parameters["W2"]b2 = parameters["b2"]W3 = parameters["W3"]b3 = parameters["b3"]# LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOIDZ1 = np.dot(W1, X) + b1A1 = relu(Z1)Z2 = np.dot(W2, A1) + b2A2 = relu(Z2)Z3 = np.dot(W3, A2) + b3A3 = sigmoid(Z3)# Costlogprobs = np.multiply(-np.log(A3), Y) + np.multiply(-np.log(1 - A3), 1 - Y)cost = 1. / m * np.sum(logprobs)cache = (Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3)return cost, cache

反向传播

多维梯度的反向传播：

def backward_propagation_n(X, Y, cache):"""实现反向传播。Arguments:X -- 输入数据点，形状(输入大小，1)Y -- true "label"cache -- 缓存输出forward_propagation_n()Returns:gradients -- 一个字典，它包含了每个参数、激活和预激活变量的成本梯度。"""m = X.shape[1](Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3) = cachedZ3 = A3 - YdW3 = 1. / m * np.dot(dZ3, A2.T)db3 = 1. / m * np.sum(dZ3, axis=1, keepdims=True)dA2 = np.dot(W3.T, dZ3)dZ2 = np.multiply(dA2, np.int64(A2 > 0))dW2 = 1. / m * np.dot(dZ2, A1.T) * 2 # 这有个错误db2 = 1. / m * np.sum(dZ2, axis=1, keepdims=True)dA1 = np.dot(W2.T, dZ2)dZ1 = np.multiply(dA1, np.int64(A1 > 0))dW1 = 1. / m * np.dot(dZ1, X.T)db1 = 4. / m * np.sum(dZ1, axis=1, keepdims=True) # 这有个错误gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,"dA2": dA2, "dZ2": dZ2, "dW2": dW2, "db2": db2,"dA1": dA1, "dZ1": dZ1, "dW1": dW1, "db1": db1}return gradients

开始检查

同样这个还是用回来之前的公式：

但有一些不同的是，不再是一个标量。这是一个叫做“参数”的字典。
其中函数是“ vector_to_dictionary”，它输出“参数”字典，操如下图：

For each i in num_parameters:

计算 J_plus[i]:
        Set to np.copy(parameters_values)
        Set to
        使用 forward_propagation_n(x, y, vector_to_dictionary())计算
    计算 J_minus[i]：同样计算
    计算

最后使用以下的公式计算结果差异：

def gradient_check_n(parameters, gradients, X, Y, epsilon=1e-7):"""检查backward_propagation_n是否正确地计算了正向传播的成本输出的梯度。Arguments:parameters --包含参数的python字典 "W1", "b1", "W2", "b2", "W3", "b3":grad -- backward_propagation_n的输出包含参数的成本梯度。x -- 输入数据点，形状(输入大小，1)y -- true "label"epsilon -- 用公式对输入进行微小位移计算近似梯度Returns:difference -- 近似梯度与反向传播梯度之间的差异。"""# Set-up variablesparameters_values, _ = dictionary_to_vector(parameters)grad = gradients_to_vector(gradients)num_parameters = parameters_values.shape[0]J_plus = np.zeros((num_parameters, 1))J_minus = np.zeros((num_parameters, 1))gradapprox = np.zeros((num_parameters, 1))# Compute gradapproxfor i in range(num_parameters):thetaplus = np.copy(parameters_values)  # Step 1thetaplus[i][0] = thetaplus[i][0] + epsilon  # Step 2J_plus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(thetaplus))  # Step 3thetaminus = np.copy(parameters_values)  # Step 1thetaminus[i][0] = thetaminus[i][0] - epsilon  # Step 2J_minus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(thetaminus))  # Step 3# Compute gradapprox[i]gradapprox[i] = (J_plus[i] - J_minus[i]) / (2 * epsilon)# 通过计算与反向传播梯度比较差异。numerator = np.linalg.norm(grad - gradapprox)  # Step 1'denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)  # Step 2'difference = numerator / denominator  # Step 3'if difference > 2e-7:print ("\033[93m" + "反向传播有一个错误! difference = " + str(difference) + "\033[0m")else:print ("\033[92m" + "你的反向传播效果非常好! difference = " + str(difference) + "\033[0m")return difference

最后运行一下这个多维梯度检测：

if __name__ == "__main__":X, Y, parameters = gradient_check_n_test_case()cost, cache = forward_propagation_n(X, Y, parameters)gradients = backward_propagation_n(X, Y, cache)difference = gradient_check_n(parameters, gradients, X, Y)

以下是输出结果，可以看到已经超过最低的误差了：

反向传播有一个错误! difference = 0.285093156781

所以我们知道backward_propagation_n的代码有错误！这时我们可以去检查backward_propagation并尝试查找/更正错误，最后我们找到以下的代码出了错误：

dW2 = 1. / m * np.dot(dZ2, A1.T) * 2
db1 = 4. / m * np.sum(dZ1, axis=1, keepdims=True)

然后我们修改正确的代码：

dW2 = 1. / m * np.dot(dZ2, A1.T)
db1 = 1. / m * np.sum(dZ1, axis=1, keepdims=True)

我们再检查一遍的结果是：

你的反向传播效果非常好! difference = 1.18904178766e-07

深度学习神经网络中的梯度检查相关推荐

[深度学习] 神经网络中的 batch 和 epoch
参考文章为神经网络中Batch和Epoch之间的区别是什么? Sample Sample是单个数据.即有意义的数据的最小单位. 训练数据集由许多Sample组成. batch batch是一个人为设 ...
深度学习——神经网络中的activation
神经网络中有个词叫做 activation--激活函数现假设一神经网络N,其中w为权值参数,x为输入,b为偏置.神经网络中上层的信号 wx+b 在作为下层的输入之前,需要使用激活函数激活. ...
深度学习神经网络中的MASK机制
简单来说就是得出A然后结合A与下一个特征得出B,结合A,B与下一个特征得出C,那么整个句子的内在关联就是Z=A+B+C
【深度学习篇】--神经网络中解决梯度弥散问题
一.前述在梯度下降中,随着算法反向反馈到前面几层,梯度会越来越小,最终,没有变化,这时或许还没有收敛到比较好的解,这就是梯度消失问题,深度学习遭受不稳定的梯度,不同层学习在不同的速度上二.解决梯 ...
深度学习算法中卷积神经网络的应用
下面一起来探讨一下关于深度学习算法中卷积神经网络的基本概念和应用: 1.卷积神经网络基本概念卷积神经网络也是在传统人工神经网络的基础上发展起来的,它与 BP 神经网络有很大的相似之处,但也有很大的区 ...
matlab在图像识别（深度学习神经网络）中的使用（转）
前言: 1)图像识别用途甚广,解决的算法之一,是深度学习神经网络.matlab近几个版本,对这块的语法修改较多,总体而言,用户用起来更方便了: 2)这里以2018a版本为例,做一些粗略的说明. 1.概 ...
深度学习神经网络：改善与优化的方法
文章目录第一周训练集验证集测试集偏差和方差根据方差和偏差调节网络正则化 dropout 正则化为什么dropout可以工作其他正则化方法归一化输入梯度消失与梯度爆炸神经网络权重 ...
神经网络中的梯度是什么,神经网络梯度公式推导
1.BP神经网络的MATLAB训练Gradient是什么意思?Performance是什么意思?,大神能解释一下吗?谢谢了 Gradient是梯度的意思,BP神经网络训练的时候涉及到梯度下降法,表示为 ...
深度学习必备：随机梯度下降（SGD）优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
DL：深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介.基础知识(神经元/感知机.训练策略.预测原理).算法分类.经典案例应用之详细攻略目录深度学习(神经网络)的简介 1.深度学习浪潮兴起的三大因素深度学习(神经网络 ...

深度学习神经网络中的梯度检查

导入依赖包

正向传播

反向传播

开始检查

多维梯度检查

向前传播

反向传播

深度学习神经网络中的梯度检查相关推荐

最新文章

热门文章