######《Very Deep Convolutional Networks for Large-scale Image Recognition》

  • 2014,牛津大学计算机视觉组(Visual Geometry Group)et al,VGGNet

VGG探索了卷积神经网络深度与其性能之间的关系,通过反复堆叠33的小型卷积核和22的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。VGGNet相比之前state-of-the-art的网络结构,错误率大幅下降,并取得了ILSVRC 2014比赛分类项目的第二名和定位项目的第一名。同时,VGGNet的扩展性很强,迁移到其他图片数据上的泛化性非常好。VGGNet的结构非常简洁,整个网络都使用同样大小的卷积核尺寸(33)和最大池化层(22),卷积步长为1,都采用ReLU作为激活函数。
利用多个堆叠的更小尺寸的卷积核取得的效果优于使用更大尺寸的卷积核,因为多个非线性层会增加网络的深度,从而允许其学习更复杂的特征,并且计算成本更低。

网络结构:

VGGNet各级别网络参数量:

虽然从A到E每一级网络逐渐变深,但是网络的参数量并没有增长很多,这是因为参数量主要都消耗在最后3个全连接层。前面的卷积部分虽然很深,但是消耗的参数量不大,不过训练比较耗时的部分依然是卷积,因其计算量比较大。这其中的D、E也就是VGGNet-16和VGGNet-19。C很有意思,相比B多了几个11的卷积层。
注:1
1卷积的意义主要在于线性变换,而输入通道数和输出通道数不变,没有发生降维。
Trick:VGGNet在训练时有一个技巧,先训练级别A的简单网络,再复用A网络的权重来初始化后面的几个复杂模型,这样训练收敛的速度更快。
(1)训练(Trick):VGG使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁剪成224224的图片,这样能增加很多数据量,对于防止过拟合有很不错的效果。方法1:固定S,对应于单一尺寸的训练,S=256和S=384。方法2:多尺度训练,S的取值范围为[256,512],随机采样S来单独地重新缩放每个训练图像(类似于缩放)。因为图像中的对象可以具有不同的大小,因此在训练期间将这一点考虑进去时非常有益的。也可以看成是通过尺寸抖动的训练集增加,其中单个模型被训练以识别大范围尺度上的对象。
(2)测试(Trick):将图像scale到一个尺寸Q(测试尺寸),将全卷积层首先转换成卷积层(第一个FC层转换为7
7的卷积层,最后两个FC层转成11的卷积层)。然后将所得到的全卷积网络应用于整个(未裁剪)的图像,结果是类别分数图(其通道数量等于类的数量)和一个变化的空间大小(取决于输入图像的大小)。最后,为了获得图像的类分数的固定大小向量,类别分数图被空间平均了。我们也通过水平翻转图像来增加测试集,将原始图像和翻转图像的softmax分类后验概率进行平均,以获得图像的最终分数。
各级别VGGNet在使用Multi-Scale训练时的top-5错误率。(缩放还是有提升的)

作者在对比各级网络时总结出了以下几个观点:
(1)LRN层作用不大;(2)越深的网络效果越好;
(3)1
1的卷积也是很有效的,但没有33的好,大一些的卷积可以学习更大的空间特征。
VGGNet拥有5段卷积,每一段内有2~3个卷积层,同时每段尾部会连接一个最大池化层来缩小图片尺寸。每段内的卷积核数量一样,越靠后的段的卷积核数量越多:64-128-256-512 -512。其中经常出现多个完全一样的3
3的卷积层堆叠在一起的情况,这其实是非常有用的设计。如下图所示,两个33的卷积层串联相当于1个55的卷积层,即一个像素会跟周围55的像素产生关联,可以说感受野的大小为55。而3个33的卷积层串联起来的效果则相当于1个77的卷积层。除此之外,3个串联的33的卷积层,拥有比1个77的卷积层更少的参数量,只有后者的(333)/(77)=55%。更重要的是,3个33的卷积层拥有比1个77的卷积层更多的非线性变换(前者可以使用三次ReLU激活函数,而后者只有一次),使得CNN对特征的学习能力更强。

析:使用尺寸小的卷积的好处?
(1)更少的参数量;(2)更多的非线性变换,使得CNN对特征的学习能力更强;
(3)隐式的正则化效果(收敛速度要快)。等等
析:感受野的概念及大小的计算?
在卷积神经网络中,感受野的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。
感受野大小的计算采用top to down的方式, 即先计算最深层在前一层上的感受野,然后逐渐传递到第一层,使用的公式可以表示如下:   
RF = 1 #待计算的feature map上的感受野大小
for layer in (top layer To down layer):
RF(out) = ((RF -1)
stride) + fsize
stride 表示卷积的步长; fsize表示卷积层滤波器的大小。


注:博众家之所长,集群英之荟萃。

卷积神经网络的网络结构——VGGNet相关推荐

  1. 卷积神经网络的网络结构——以LeNet-5为例

    卷积神经网络的网络结构--以LeNet-5为例 2016-03-29  天狼舰  文章来源  阅 497  转 9 转藏到我的图书馆 微信 分享: QQ空间 QQ好友 新浪微博 腾讯微博 推荐给朋友 ...

  2. 深度学习(7): 卷积神经网络2——网络结构

    文章目录 1 卷积神经网络的结构 1.1 输入层 1.2 卷积层 1.3 Pooling层 1.4 全连接层 1.5 输出层 2 卷积操作 2.1 Padding操作 2.2 滑动窗口卷积操作 2.3 ...

  3. 卷积神经网络的网络结构——ResNet

    <Deep Residual Learning for Image Recognition> 2015,kaiming He et al,ResNet. ResNet由微软研究院的kaim ...

  4. CNN卷积神经网络的网络结构和学习原理

    卷积神经网络,主要是对图片进行处理.假如需要对一个1000*1000的图片进行分类,如果用传统的机器学习或者DNN,如要输入1000000个特征,当然也可以提前用一些方法进行降维,但是处理还是不方便. ...

  5. RegNet——颠覆常规神经网络认知的卷积神经网络(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

            RegNet的博客的准备我可谓是话费了很多的时间,参考了诸多大佬的资料,主要是网上对于这个网络的讲解有点少,毕竟这个网络很新.网上可以参考的资料太少,耗费了相当多的时间,不过一切都是值 ...

  6. 深度学习卷积神经网络CNN之 VGGNet模型主vgg16和vgg19网络模型详解说明(理论篇)

    1.VGG背景 2. VGGNet模型结构 3. 特点(创新.优缺点及新知识点) 一.VGG背景    VGGNet是2014年ILSVRC(ImageNet Large Scale Visual R ...

  7. 卷积神经网络——Alexnet8网络结构及python实现

    简介: 上一节介绍了比较简单的LeNet-5网络结构,随着GPU的发展,电脑运算速度也越来越快,这就会让人去挖掘更复杂更深层次的卷积结构,于是有了双GPU运行的Alexnet8网络结构,包含了五个卷积 ...

  8. 深度学习——02、深度学习入门——经典卷积神经网络架构实例——VGGNet

    Case Study:VGGNet

  9. 卷积神经网络(CNN)综述

    目录 1. 卷积神经网络概念 2. 卷积神经网络的特点 2.1 局部区域连接 2.2 权值共享 2.3 降采样 3. 卷积神经网络的结构 3.1 卷积层 3.2 池化层 4. 卷积神经网络的研究进展 ...

最新文章

  1. ggcor包的安装与绘图示例
  2. C#入门面向对象编程(委托的使用)
  3. 【BZOJ 2432】 [Noi2011]兔农 矩乘+数论
  4. 2010年十大改变电信业的小趋势
  5. 机器视觉技术在表面缺陷检测方面的发展趋势
  6. CodeForces 1491G Switch and Flip(结论)
  7. 计算机应用基础课程基本要求,计算机应用基础课程标准
  8. webpack-dev-server 本地文件 发布 网站 域名 根目录
  9. 基于Jquery的图片自动分组且自适应页面的缩略图展示特效
  10. ios html 图片旋转了,解决移动端iOS下上传图片被旋转问题。
  11. WIN10下的ios开发
  12. 最好的网盘--主流网盘大比拼
  13. Wincc声音报警简单方法
  14. 详解JAVA的getBytes()方法
  15. python中判断小写字符_Python islower()函数 判断字符串中字符是否都为小写
  16. python的注释符号有哪些_python注释符号
  17. Nvidia jetson nano,控制风扇开启和关闭。
  18. 《我的世界》JAVA版本需使用微软账号登录
  19. 再来30个!中国联通5G应用创新案例
  20. 快刀初试:Spark GraphX在淘宝的实践

热门文章

  1. git push的详细使用
  2. 我已安装安防监控摄像头,如何添加人脸识别?
  3. 招标投标中各流程时间期限的规定
  4. STM32---PB3和PB4引脚
  5. 推荐一款护眼黑科技产品
  6. Springboot+vue开发的图书借阅管理系统项目源码下载-P0029
  7. 第十届全球云计算大会 | 华云数据荣获“2013-2022十周年特别贡献奖”
  8. 小学计算机输入法主题教研设计,《拼音输入法》教学设计.doc
  9. 使用tushare获取股票历史交易数据
  10. 222222222222