机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战

如果你愿意一层一层剥开CNN的心——你会明白它究竟在做什么

一直以来，卷积神经网络对人们来说都是一个黑箱，我们只知道它识别图片准确率很惊人，但是具体是怎么做到的，它究竟使用了什么特征来分辨图像，我们一无所知。无数的学者、研究人员都想弄清楚CNN内部运作的机制，甚至试图找到卷积神经网络和生物神经网络的联系。2013年，纽约大学的Matthew Zeiler和Rob Fergus的论文Visualizing and Understanding Convolutional Neural Networks用可视化的方法揭示了CNN的每一层识别出了什么特征，也揭开了CNN内部的神秘面纱。之后，也有越来越多的学者使用各种方法将CNN的每一层的激活值、filters等等可视化，让我们从各个方面了解到CNN内部的秘密。

今天这篇文章，将会带大家从多个角度看看CNN各层的功能。

一、CNN每一层都输出了什么玩意儿

这个是最直接了解CNN每一层的方法，给一张图片，经过每一个卷积层，图片到底变成了啥。

这里，我用Keras直接导入VGG19这个网络，然后我自己上传一张照片，让这个照片从VGG中走一遭，同时记录每一层的输出，然后把这个输出画出来。

先引入必要的包：

import keras

from keras.applications.vgg19 import VGG19

from keras.preprocessing import image

from keras.applications.vgg19 import preprocess_input

from keras.models import Model

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

现在引入把我男神的图片上传一下，用keras的图片处理工具把它处理成可以直接丢进网络的形式：

img_path = 'andrew.jpg'

img = image.load_img(img_path, target_size=(200, 300))

plt.imshow(img)

x = image.img_to_array(img)

x = np.expand_dims(x, axis=0)

x = preprocess_input(x)

x.shape

我输入的图像：

然后，我们导入VGG模型，去掉FC层（就是把include_top设为FALSE），因为如果有FC层在的话，由于FC层神经元个数是固定的，所以网络的输入形状就有限制，就必须跟原来的网络的输入一模一样。但是卷积层不受输入形状的限制，因此我们只保留卷积层（和池化层）。

VGG19有19个CONV或FC层，但是如果我们打印出所有层的话，会包括POOL层，所以不止19个。这里我取第2~20层的输出，作为我们研究的对象：

base_model = VGG19(weights='imagenet',include_top=False)

# 获取各层的输出：

layer_outputs = [layer.output for layer in base_model.layers[2:20]]

# 获取各层的名称：

layer_names = []

for layer in base_model.layers[2:20]:

layer_names.append(layer.name)

print(layer_names)

注意，这里的输出还没有实际的值！只是一个壳子，当我们把图片输入到模型中之后，它才有值。

然后我们组装我们新的模型：输入图片，同时输出各层的激活值：

# 组装模型：

model = Model(inputs=base_model.input, outputs=layer_outputs)

# 将前面的图片数据x，输入到model中，得到各层的激活值activations：

activations = model.predict(x)

就这么easy！（如果不太明白代码的含义，可以参见Keras文档。）

这个activations里面，就装好了各层的所有的激活值。我们可以随便找一层的activation打印出来它的形状看看：

print(activations[0].shape)

#输出：

#(1, 200, 300, 64)

什么意思呢？

1，代表输入图片的个数，我们这里只输入了一个图片，所以是1；

200,300，代表图片的大小；

64，代表该层有多少个filters。所以，相当于我们的这一层输出了64张单通道图片。

好了，我们可以将每一层激活得到的图片打印出来看看了。我们将每一层所有filters对应的图片拼在一起显示，代码如下：

import math

for activation,layer_name in zip(activations,layer_names):

h = activation.shape[1]

w = activation.shape[2]

num_channels = activation.shape[3]

cols = 16

rows = math.ceil(num_channels/cols)

img_grid = np.zeros((h*rows,w*cols))

for c in range(num_channels):

f_r = math.ceil((c+1)/cols)

f_c = (c+1)if f_r==1 else (c+1-(f_r-1)*cols)

img_grid[(f_r-1)*h:f_r*h,(f_c-1)*w:f_c*w ] = activation[0,:,:,c]

plt.figure(figsize=(25,25))

plt.imshow(img_grid, aspect='equal',cmap='viridis')

plt.grid(False)

plt.title(layer_name,fontsize=16)

plt.show()

这个代码感觉写的不大好。。。如果读者有更好的方法，也请麻烦告知。

最后是输出了18张大图，由于版面限制，我这里就挑其中的一些来展示：

这个是很靠前的一层（block1_conv2）：

可以看到，里面很多图片都跟我们的输入图片很像。如果我们放大仔细观察的话，比如：

可以发现，很多图片都是把原图片的边缘勾勒了出来。因此，我们知道，该层主要的功能是边缘检测。

这里再说一下我们分析的思路：

根据前面讲解的CNN的原理，我们知道，当filter和我们的原图像的对应部分越像，它们卷积的结果就会越大，因此输出的像素点就越亮！因此，我们可以通过分析输出图片哪些部分比较亮来得知，该层的filters的作用。

所以，其实该层不光是“边缘检测”，还有一个功能——“颜色检测”。因为我还发现了很多这样的图片：

这些图中的高亮部分，都对应于原图片中的整块的颜色，因此我们可以推断该层的部分filters具有检测颜色的功能。

很有意思~

我们接着看中间的某一层（block2_conv2）：

还是放大看一看：

这一层似乎复杂了很多，因为我们搞不清楚这些高亮的部分是一种什么特征，似乎是某种纹路。因此，和前面那个很浅的层相比，这一层提取的特征就没那么直白了。

我们接着再看一个很深的层：

(图太大，我截取部分)

这大概是VGG的第十几层吧，由于经过反复的卷积，图片大小会缩小，因此越来越“像素化”，这个时候，我们可以把这些激活图片，跟原图片去对比，看看原图片哪些部分被激活了：

从这个图可以看到，Andrew整个上半身都被激活了。再看看这个：

Andrew的手部被激活了。更多的例子等大家自己去尝试。我们由此可以合理的推测，该层，已经可以将一些较复杂的东西作为特征来识别了，比如“手”、“身体”等等。这些特征比前面浅层的“边缘”、“颜色”等特征高级了不少。

为了让大家更全面地看到各层的状态，我从每层中调了一张图片排在一起打印出来：

综上：

随着CNN的层数增加，每一层的输出图像越来越抽象，这意味着我们的filters在变得越来越复杂；我们可以很合理地推断，随着CNN的深入，网络层学得的特征越来越高级和复杂。

二、CNN的每一层的filters到底识别啥特征

在上面，我们已经知道了每一层的输出是什么样子，并且由此推测每一层的filters越来越复杂。于是，我们就想进一步地探索一下，这些filters，到底在识别些什么，到底长啥样？

这里就有一个大问题：比如VGG，我们前面讲过这是一个十分规则的网络，所有的filter大小都是3×3。这么小的玩意儿，画出来根本看不出任何猫腻。所有无法像我们上面画出每一层的激活值一样来分析。

那么怎么办呢？我们依然可以用刚刚的思路来分析：

当输入图片与filter越像，他们的卷积输出就会越大。因此，给CNN喂入大量的图片，看看哪个的输出最大。但这样可行度不高，可以换个思路：我们可以直接输入一个噪音图片，用类似梯度下降的方法来不断更新这个图片，使得我们的输出结果不断增大，那么这个图片就一定程度上反映了filter的模样。

这里实际上不是用梯度下降，而是用梯度上升，因为我们要求的是一个极大值问题，而不是极小值问题。

梯度下降的更新参数w的过程，就是 w-->w-α·dw，其中α是学习率，dw是损失对w的梯度。

梯度上升是类似的，是更新输入x，更新的方向变了： x-->x+s·dx，其中s代表步长，与α类似，dx是激活值对x的梯度。

所以，我们可以仿照梯度下降法，来构造梯度上升算法。具体方法和代码可以参见keras的发明者Fchollet亲自写的教程： visualizing what convnets learn

这里我展示一下从浅到深的5个卷积层的filters的模样（注意，这个不是真的filters，而是输入图片，因为这个输入图片与filters的卷积结果最大化了，所以我们这里用输入图片的模样来代表filters的模样）：

【预警：图片可能引起密恐者不适】

block1-conv3：

这一层，印证了我们之前的推断：这个很靠近输入的浅层的filters的功能，就是 “边缘检测”和“颜色检测”。

可能还是有同学不大明白，毕竟这个问题我也想了好久，为什么图片会这么密密麻麻的，看的让人瘆得慌？因为这个不是真的filter！filter大小只有3×3，而这些图片的大小都是我们设置的输入图片大小150×150，加入我们的某个filter是检测竖直边缘，那么输入图片要使卷积的结果最大，必然会到处各个角落都长满竖直的条条，所以我们看到的图片都是密密麻麻的某种图案的堆积。

block2-conv3：

block3-conv3：

到了这一层，我开始看到各种较为复杂的图案了，比如螺旋、波浪、方块、像眼睛一样的形状、像屋顶的砖瓦那样的形状······因缺思厅~

block4-conv3：

block5-conv3：

到了这个比较深的层，我们发现，图片的图案更加复杂了，似乎是前面那些小图案组成的大图案，比如有类似麻花的形状，有类似蜘蛛网的形状，等等，我们直接说不出来，但是明显这些filters识别的特征更加高级了。由于我只选取了部分的filters可视化，所以这里看不到更多的图案，也许把该层的几百个filters都打印出来，我们可以找到一些像虫子、手臂等东西的图案。

同时我们发现，越到深层，图片这种密密麻麻的程度就会降低，因为越到深层，filters对应于原图像的视野就会越大，所以特征图案的范围也会越大，因此不会那么密集了。

另外，如果细心的话，我们可以注意到，越到深层，filters越稀疏，表现在图中就是像这种失效图片越来越多：

这些图片就是纯噪音，也就是根本没有激活出什么东西。具体原因我还不太清楚，等日后查清楚了再补充。但从另一个侧面我们可以理解：越深层，filters的数目往往越多，比如我们这里的block1-conv3，只有64个filters，但是最后一层block5-conv3有多达512个filters，所以有用的filters必然会更加稀疏一些。

综上：

我们现在可以明白（刚刚是推断），CNN的浅层的filters一般会检测“边缘”、“颜色”等最初级的特征，之后，filters可以识别出各种“纹理纹路”，到深层的时候，filters可以检测出类似“麻花”、“蜘蛛”等等由前面的基础特征组成的图案。

三、更近一步，用Deconvnet可视化filters

在CNNs可视化中最有名的的论文当属我们文首提到的： Matthew D. Zeiler and Rob Fergus:Visualizing and Understanding Convolutional Networks. 无论是吴恩达上深度学习还是李飞飞讲计算机视觉，都会引用这个论文里面的例子，有空推荐大家都去看看这个论文。

我看了好久不太懂，但是写完上面的“第一部分”之后，我似乎理解了作者的思路。

我们回到我们在“一”中得到的某个深层的激活值：

然后，我试着把原图贴上去，看看它们哪些地方重合了：

当时，我们惊喜地发现，“上半身”、“手”、“Ng”被精准地激活了。

而上面那篇论文的作者，正是沿着 “将激活值与输入图片对应”这种思路（我的猜测），利用 Deconvnet这种结构，将激活值沿着CNN反向映射到输入空间，并重构输入图像，从而更加清晰明白地知道filters到底识别出了什么。可以说，这个思路，正式我们上面介绍的“一”、“二”的结合！

我画一个草图来说明：

我这个草图相当地“草”，只是示意一下。具体的方法，其实是将原来的CNN的顺序完全反过来，但是组件不变（即filters、POOL等等都不变），

如原来的顺序是： input-->Conv-->relu-->Pool-->Activation

现在就变成了： Activation-->UnPool-->relu-->DeConv-->input

这里的UnPool和DeConv，是对原来的Pool和conv的逆操作，这里面的细节请翻阅原论文，对于DeConv这个操作，我还推荐看这个： https://arxiv.org/abs/1603.07285

其实说白了，Conv基本上是把一个大图（input）通过filter变成了小图（activation），DeConv就反过来，从小图（activation）通过filter的转置再变回大图（input）：

于是，我们把每一层的激活值中挑选最大的激活值，通过Deconvnet传回去，映射到输入空间重构输入图像。这里，我直接把论文中的结论搬出来给大家看看：

左边这些灰色的图案就是我们激活值通过DeConvnet反向输出的，右边的是跟左边图案对应的原图案的区域。

我们可以看出，第一层，filters识别出了各种边缘和颜色，第二层识别出了螺旋等各种纹路；第三层开始识别出轮胎、人的上半身、一排字母等等；第四层，已经开始识别出狗头、鸟腿；第五层城市直接识别出自行车、各种狗类等等完整的物体了！

其实我们发现这个跟我们在“二”中得到的似乎很像，但是这里得到的图案是很具体的，而“二”中得到的各层的图案很抽象。这是因为，在这里，我们不是讲所有的激活值都映射回去，而是挑选最突出的某个激活值来进行映射，而且，在“二”中，我们是从一个噪音图像来生成图案使得激活值最大（存在一个训练的过程），而这里是直接用某个具体图片的激活值传回去重构图片，因此是十分具体的。

综上面的所有之上

CNNs的各层并不是黑箱，每一层都有其特定个功能，分工明确。从浅到深，CNN会逐步提取出边缘、颜色、纹理、各种形状的图案，一直到提取出具体的物体。也就是说，CNNs在训练的过程中，自动的提取了我们的任务所需要的各种特征：

这些特征，越在浅层，越是普遍和通用；

越在深层，就越接近我们的实际任务场景。

因此，我们可以利用以及训练好的CNNs来进行迁移学习（transfer learning），也就是直接使用CNNs已经训练好的那些filters（特征提取器），来提取我们自己数据集的特征，然后就可以很容易地实现分类、预测等等目的。

参考资料：

1.Matthew D. Zeiler and Rob Fergus:Visualizing and Understanding Convolutional Networks.

2.A guide to convolution arithmetic for deep learning

3.Visualizing what convnets learn

CNN剖析：如果你愿意一层一层剥开CNN的心相关推荐

Synchronized解析——如果你愿意一层一层剥开我的心
前言 synchronized,是解决并发情况下数据同步访问问题的一把利刃.那么synchronized的底层原理是什么呢?下面我们来一层一层剥开它的心,就像剥洋葱一样,看个究竟. (想自学习编程的小 ...
synchronized同步机制——如果你愿意一层一层剥开我的心
前言 synchronized,是解决并发情况下数据同步访问问题的一把利刃.那么synchronized的底层原理是什么呢?下面我们来一层一层剥开它的心,就像剥洋葱一样,看个究竟. Synchroni ...
Synchronized解析——一层一层剥开洋葱的心
Synchronized解析--一层一层剥开洋葱的心引入:https://juejin.im/post/5d5374076fb9a06ac76da894#heading-9 前言 synchroni ...
生活就像个洋葱，一层一层剥开它，总有一层让你流泪
Life is like an onion; you peel it off one layer at a time, and sometimes you weep. 生活就像个洋葱,一层一层剥开它, ...
cnn卷积神经网络_卷积神经网络（CNN）原理及应用
一.CNN原理卷积神经网络(CNN)主要是用于图像识别领域,它指的是一类网络,而不是某一种,其包含很多不同种结构的网络.不同的网络结构通常表现会不一样.从CNN的一些典型结构中,可以看到这些网络创造 ...
DL之CNN优化技术：学习卷积神经网络CNN的优化、实践经验(练习调参)、从代码深刻认知CNN架构之练习技巧
DL之CNN优化技术:学习卷积神经网络CNN的优化.调参实践.从代码深刻认知CNN架构之练习技巧目录卷积神经网络CNN调参学习实践练习技巧 1.练习攻略一 2.VGG16练习攻略二卷积神经网络 ...
C语言《C Primer Plus 》演示递归，递归就像洋葱，假设一个洋葱横切，从外面一层一层打开，每一层都调用一次函数
<C Primer Plus >例题解析程序清单 9.6 recur.c 程序 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h ...
PAT甲级1127 ZigZagging on a Tree (30分)：[C++题解]之字形层次遍历树bfs实现一层一层读入
文章目录题目分析题目链接题目分析分析给定中序遍历和后序遍历,先建树: 后面就是写一个bfs,层序遍历稍微改改即可. bfs要做的修改是如何一层一层的读入.令根结点是第一层,本题的之字形遍历就 ...
[Python人工智能] 八.卷积神经网络CNN原理详解及TensorFlow编写CNN
从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇文章介绍了什么是过拟合,并采用droput解决神经网络中过拟合的问题,以TensorFlow和sklearn的lo ...

CNN剖析：如果你愿意一层一层剥开CNN的心

机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战

CNN剖析：如果你愿意一层一层剥开CNN的心相关推荐

最新文章

热门文章