Deep learn toolbox：CNN BP求导解析

《Notes on Convolutional Neural Networks》中详细讲解了CNN的BP过程，下面结合Deep learn toolbox中CNN的BP源码对此做一些解析

卷积层：

卷积层的前向传导：

误差反传：

当卷基层的下一层是pooling层时，如果pooling层的误差敏感项为时，那么卷基层的误差敏感项为：

其中，upsample表示对进行上采样，表示激活函数对输入的导数，代表点积操作

upsample根据pooling时采用方法来定，大概思想为：pooling层的每个节点是由卷积层中多个节点(一般为一个矩形区域)共同计算得到，所以pooling层每个节点的误差敏感值也是由卷积层中多个节点的误差敏感值共同产生的，只需满足两层的误差敏感值总和相等即可，下面以mean-pooling和max-pooling为例来说明。

假设卷积层的矩形大小为4×4, pooling区域大小为2×2, 很容易知道pooling后得到的矩形大小也为2*2（本文默认pooling过程是没有重叠的，卷积过程是每次移动一个像素，即是有重叠的，后续不再声明）,如果此时pooling后的矩形误差敏感值如下：

　　则按照mean-pooling，首先得到的卷积层应该是4×4大小，其值分布为(等值复制)：

　　因为得满足反向传播时各层见误差敏感总和不变，所以卷积层对应每个值需要平摊（除以pooling区域大小即可，这里pooling层大小为2×2=4)），最后的卷积层值

分布为：

　　如果是max-pooling，则需要记录前向传播过程中pooling区域中最大值的位置，这里假设pooling层值1,3,2,4对应的pooling区域位置分别为右下、右上、左上、左下。则此时对应卷积层误差敏感值分布为：

　　求得后，我们就要求卷积层的导数了，论文中给出的公式为：

上式中表示的（u，v）项的值，表示与进行卷积的结果的（u，v）项所对应的的patch。

上述公式和下面的公式是等价的：

损失函数对b的导数为：

deep learn toolbox就是按照上述2个公式计算的。

pooling层

pooling层的前向传导：

down(.)表示一个下采样函数。典型的操作一般是对输入图像的不同nxn的块的所有像素进行求和。这样输出图像在两个维度上都缩小了n倍。每个输出map都对应一个属于自己的乘性偏置β和一个加性偏置b。

已知卷积层的误差敏感项时，那么pooling层的误差敏感项为：

得到误差敏感项后，由于pooling只有两个参数，分别求导：

但在deep learn toolbox中，只是简单地进行subsampling,并没有加sigmoid激活函数，因而pooling层没有参数，不需要对pooling层求导，也不

需要对其参数进行更新。

下面是deep learn toolbox 中CNN BP算法的代码：

[cpp] view plaincopy

function net = cnnbp(net, y)
n = numel(net.layers);
// error
net.e = net.o - y;
// loss function
net.L = 1/2* sum(net.e(:) .^ 2) / size(net.e, 2);
//从最后一层的error倒推回来deltas
//和神经网络的bp有些类似
backprop deltas
net.od = net.e .* (net.o .* (1 - net.o)); // output delta
net.fvd = (net.ffW' * net.od); // feature vector delta
if strcmp(net.layers{n}.type, 'c') // only conv layers has sigm function
net.fvd = net.fvd .* (net.fv .* (1 - net.fv));
end
//和神经网络类似，参看神经网络的bp
// reshape feature vector deltas into output map style
sa = size(net.layers{n}.a{1});
fvnum = sa(1) * sa(2);
for j = 1 : numel(net.layers{n}.a)
net.layers{n}.d{j} = reshape(net.fvd(((j - 1) * fvnum + 1) : j * fvnum, :), sa(1), sa(2), sa(3));
end
//这是算delta的步骤
//这部分的计算参看Notes on Convolutional Neural Networks，其中的变化有些复杂
//和这篇文章里稍微有些不一样的是这个toolbox在subsampling(也就是pooling层)没有加sigmoid激活函数
//所以这地方还需仔细辨别
//这这个toolbox里的subsampling是不用计算gradient的，而在上面那篇note里是计算了的
for l = (n - 1) : -1 : 1
if strcmp(net.layers{l}.type, 'c')
for j = 1 : numel(net.layers{l}.a)
net.layers{l}.d{j} = net.layers{l}.a{j} .* (1 - net.layers{l}.a{j}) .* (expand(net.layers{l + 1}.d{j}, [net.layers{l + 1}.scale net.layers{l + 1}.scale 1]) / net.layers{l + 1}.scale ^ 2);
end
elseif strcmp(net.layers{l}.type, 's')
for i = 1 : numel(net.layers{l}.a)
z = zeros(size(net.layers{l}.a{1}));
for j = 1 : numel(net.layers{l + 1}.a)
z = z + convn(net.layers{l + 1}.d{j}, rot180(net.layers{l + 1}.k{i}{j}), 'full');
end
net.layers{l}.d{i} = z;
end
end
end
//参见paper，注意这里只计算了'c'层的gradient，因为只有这层有参数
calc gradients
for l = 2 : n
if strcmp(net.layers{l}.type, 'c')
for j = 1 : numel(net.layers{l}.a)
for i = 1 : numel(net.layers{l - 1}.a)
net.layers{l}.dk{i}{j} = convn(flipall(net.layers{l - 1}.a{i}), net.layers{l}.d{j}, 'valid') / size(net.layers{l}.d{j}, 3);
end
net.layers{l}.db{j} = sum(net.layers{l}.d{j}(:)) / size(net.layers{l}.d{j}, 3);
end
end
end
//最后一层perceptron的gradient的计算
net.dffW = net.od * (net.fv)' / size(net.od, 2);
net.dffb = mean(net.od, 2);
function X = rot180(X)
X = flipdim(flipdim(X, 1), 2);
end
end

Deep learn toolbox：CNN BP求导解析相关推荐

非线性优化Ceres手动求导数值求导解析求导使用示例
参考Ceres官方文档http://www.ceres-solver.org/nnls_tutorial.html#hello-world 实现手动求导进行非线性优化. 1.问题描述假设下面曲线 y ...
pythonmath反三角函数的导数_Pytorch反向求导更新网络参数的方法
方法一:手动计算变量的梯度,然后更新梯度 import torch from torch.autograd import Variable # 定义参数 w1 = Variable(torch.Flo ...
BP算法双向传_链式求导最缠绵（深度学习入门系列之八）
摘要: 说到BP(Back Propagation)算法,人们通常强调的是反向传播,其实它是一个双向算法:正向传播输入信号,反向传播误差信息.接下来,你将看到的,可能是史上最为通俗易懂的BP图文讲解, ...
深度学习（三十）——Deep Speech, 自动求导
CTC 推断计算(续) 上图是一个Beam Width为3的Beam Search.Beam Search的细节可参见<机器学习(二十三)>. 由于语音的特殊性,我们实际上用的是Beam ...
矩阵求导与BP的证明的建议
前言在有些博客推导神经网络的BP时,涉及到多次矩阵求导运算,尤其是反向传播时候,求的梯度结果被转置了,比如假设最后一层的输出为 y=σ(w⋅x+b) y=\sigma\left(w\cdot x+b ...
BP算法双向传，链式求导最缠绵（深度学习入门系列之八）
摘要: 说到BP(Back Propagation)算法,人们通常强调的是反向传播,其实它是一个双向算法:正向传播输入信号,反向传播误差信息.接下来,你将看到的,可能是史上最为通俗易懂的BP图文讲解, ...
【深度学习之美】BP算法双向传，链式求导最缠绵（入门系列之八）
8.1 BP神经网络极简史在神经网络(甚至深度学习)参数训练中,BP(Back Propagation)算法非常重要,它都占据举足轻重的地位.在提及BP算法时,我们常将它与杰弗里•辛顿(Geoffr ...
机器学习BP算法及矩阵求导
除了基本导数公式,本文介绍的矩阵求导方法不涉及任何公式的套用. 本文以neural network中最常见的一种计算单元为例,详细介绍了BP算法中涉及到的矩阵求导过程.刚接触机器学习时,曾被BP算法中 ...
DL之BP：利用乘法层/加法层(forward+backward)算法结合计算图(CG)求解反向求导应用题
DL之BP:利用乘法层/加法层(forward+backward)算法结合计算图(CG)求解反向求导应用题导读计算图中层的实现(加法层/乘法层),其实非常简单,使用这些层可以进行复杂的导数计算.可 ...

Deep learn toolbox：CNN BP求导解析

Deep learn toolbox：CNN BP求导解析相关推荐

最新文章

热门文章