一、基本信息

标题：Very deep convolutional networks for large-scale image recognition
时间：2014
出版源：arXiv
论文领域：CNN、深度学习
引用格式：Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

二、研究背景

在这项工作中，我们研究了在大规模图像识别中卷积网络的深度对其准确性的影响。

我们的主要贡献是对使用带有非常小(3 * 3)卷积滤波器的结构来增加深度的网络进行了深入评估，结果显示，通过将深度推到16-19个权重层，可以显著改善以前的配置。

CNN取得成功，原因：

大型训练集，如ImageNet
高性能计算GPU以及分布式计算
ImageNet Large-ScaleVisual Recognition Challenge

许多人对AlexNet改进：

更小接收窗口（卷积核大小？），更小步长 ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014)
训练在多尺度上Sermanet et al., 2014; Howard, 2014
本文侧重对卷积深度的改进，使用很小的核3 * 3

三、创新点

深度

输入：224 * 224
预处理：每个像素RGB 减去训练集RGB均值
3个3 * 3 与单个 7 * 7：

3和卷积带来的识别能力更强
参数更少
使用1 * 1卷积，增加决策函数而不影响卷积层接收域

小尺寸卷积核：
GoogleNet也使用了更深的网络（22层），更小的卷积核3 * 3 ，同样使用 1 *1卷积，其更复杂，在第一层降低了特征图的空间分辨率，以减少计算量。单网络分类准确度方面，本文由于GoogleNet。

conv3-64 表示 3 * 3 卷积核大小，数目64
上图从做到右：
8个卷积层 + 3个全连接层到 16个卷积层 + 3个全连接层
卷积层的宽度（通道数）更小，从64到512，每次池化翻倍
虽然深度变多，但是没有比大卷积核的网络更多，可以看对最多144M

训练图像尺寸

单尺度

一般采用256，然后通过256预先训练，再来训练384

多尺度

在[256, 512]范围内随机调整训练图像大小，因此可以识别更多尺寸，从预先固定的384尺寸进行微调。

多尺度的数据增强？

四、实验结果

单尺度验证

使用本地响应规范化(A- lrn网络)不能改善没有任何规范化层的模型A。因此，我们没有在更深层次的架构(B-E)中使用标准化。
分类错误随着深度增加而减小。
C（使用1 * 1）虽然比B好，但是没有D（3 * 3）好，说明卷积的作用同样重要
层数达到19层提升不在明显，当对于更大的数据来说，也行可以继续增加深度
作者还在B上测试使用5 * 5卷积核，结果是提示了7%的错误率在top-1上，说明更小的卷积核优于大尺寸卷积核
使用过尺度抖动增强训练集确实有助于捕获多尺度图像统计。训练图像尺寸S∈[256;512]S\in[256;512]S∈[256;512]

多尺度验证

对于固定尺度S:Q = {S − 32, S, S + 32}.
对于多尺度S∈[Smin;Smax]S \in\left[S_{m i n} ; S_{m a x}\right]S∈[Smin;Smax]：Q={Smin⁡,0.5(Smin⁡+Smax⁡),Smax⁡}Q=\left\{S_{\min }, 0.5\left(S_{\min }+S_{\max }\right), S_{\max }\right\}Q={Smin,0.5(Smin+Smax),Smax}

多组验证

五、结论与思考

作者结论

在这项工作中，我们评估了用于大规模图像分类的深度卷积网络(高达19个权重层)。研究表明，表示法的深度有利于分类的准确性，而且使用传统的ConvNet架构可以实现ImageNet challenge数据集的最先进性能(LeCun et al.， 1989;Krizhevsky等人，2012)，大幅增加深度。在附录中，我们还展示了我们的模型能很好地概括广泛的任务和数据集，匹配或优于建立在较低深度图像表示的更复杂的识别管道。我们的结果再次证实了深度在视觉表现中的重要性。

总结

思考

参考

论文笔记：Very deep convolutional networks for large-scale image recognition（VGG）相关推荐

论文笔记 Very Deep Convolutional Networks for Large-Scale Visual Recognition - ICLR 2014
VGG Very Deep Convolutional Networks for Large-Scale Visual Recognition Karen Simonyan and Andrew Zi ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
论文阅读——Quantizing deep convolutional networks for efficient inference: A whitepaper
Quantizing deep convolutional networks for efficient inference: A whitepaper Abstract 本文针对如何对卷积神经网络的 ...
关于GCN的论文笔记--End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion
用于知识图谱完成的端到端结构感知卷积网络论文题目 End-to-end Structure-Aware Convolutional Networks for Knowledge Base Compl ...
论文阅读-VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
作者: Karen Simonyan et al. 日期: 2015 类型: conference article 来源: ICLR 评价: veyr deep networks 论文链接: http ...
论文笔记《Fully Convolutional Networks for Semantic Segmentation》
[论文信息] <Fully Convolutional Networks for Semantic Segmentation> CVPR 2015 best paper key word: ...
【论文笔记】Region-based Convolutional Networks for Accurate Object Detection and Segmentation
<Region-based Convolutional Networks for Accurate Object Detection and Segmentation>是将卷积神经网络应用 ...
《Very Deep Convolutional Networks For Large-Scale Image Recognition》翻译
1 引言 2 ConvNet配置 2.1 架构 2.2 配置 2.3 讨论 3 分类框架 3.1 训练 3.2 测试 3.3 实现细节 4 分类实验 4.1 单尺度评估 4.2 多尺度评估 4.3 多 ...
【论文翻译】VGG网络论文中英对照翻译--（very deep convolutional networks for large-scale image recognition）
[开始时间]2018.09.23 [完成时间]2018.09.24 [论文翻译]VGG网络论文中英对照翻译--(very deep convolutional networks for large-s ...
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION(VGG网络)-论文阅读笔记
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION VGG网络论文阅读笔记 //2022.4.11上午9:53开始阅 ...

论文笔记：Very deep convolutional networks for large-scale image recognition（VGG）