本文对Hindon等在2012年取得ImageNet计算机视觉分类比赛中取得冠军的论文做一个简单的总结。

一、摘要

略。

二、背景

略。

三、数据集

由于ImageNet中的图片大小不一,但是模型需要输入固定大小的图片,因此对图片进行了下采样,得到尺寸为的图片。具体做法是:首先缩放图片,使得较短的边的长度是256,然后从缩放的图片中裁剪出中间部分的的图像块。之后,对的图片中的每个像素,减去所有训练图片中的像素均值(相当于做了一次0均值中心化,使得所有像素值的均值变为0)。

四、架构

3.1、ReLU非线性激活函数

用具有饱和区域的tanh训练神经网络的速度远不及使用ReLU,下图是证据之一。如图,到达0.25的错误率需要的训练时间,使用ReLU所需的时间大约是使用tanh的15%。

3.2、多GPU训练

由于模型太大,单个GPU无法加载,故将模型近似划分到了两个GPU上。主要是一些提速技巧,不多做介绍。关于GPU和CPU的一些性能参数和技术要点,需要了解才能体会该节的训练加速技巧。

3.3、局部相应正则化

据一些文献说,该正则化效果不是特别突出,而且短时间也没有理解这种正则化,在此略过。

3.4、重叠池化

这一部分比较重要。引入了重叠池化的概念,我们画个图便知。

如图,上半部分池化核尺寸为,步长为1,进行池化处理时,由于步长小于池化核尺寸,所以池化的区域有重叠;下半部分池化核尺寸同上,但是步长为2,池化区域没有重叠。文章指出,使用重叠的池化可以减少top5和top1错误率。这可能是因为重叠池化保留了更多的信息,使得池化后的输出特征更加丰富。提取的特征越丰富,卷积部分的表示能力越强,对后面全连接层进行更高层次的特征组合有利,一定程度上提高了准确率。

3.5、整体架构

整体架构如下图。

其中,第2、4、5个卷积层的卷积核仅与其在同一个GPU的上一层的核映射相连,没有跨GPU通信,第3个卷积层的核连接到第二层中的所有核映射。全连接层中的神经元连接到上一层中的所有神经元。第一个卷积层有96个  的核,对大小为  的输入图像进行卷积,步长是4。第二个卷积层有256个  的核,第三、第四和第五卷积层相互连接,没有任何中间的池层或归一化层。第三卷积层有384个大小为3×3×256的核,连接到第二卷积层的(经过归一化且池化)输出。第四卷积层有384个大小为3×3×192的核,第五卷积层有256个大小为3×3×192的核,全连接层各有4096个神经元。

总结:随着卷积层深度增加,卷积核的数量有逐渐增多的大趋势,我的观点是浅层卷积需要提取的特征都是相对简单的,比如点、线,角度等,深层卷积需要提取由简单特征复合成的高级特征,复合的高级特征比简单的特征数目要多很多,所以需要更多的卷积核来提取特征;而卷积核的大小却呈现由大到小的趋势,且尺寸由11,5变为3,尺寸逐渐减半,这个是不言而喻的,浅层卷积的输入是像素值,所以感受野可以大一些,毕竟11个像素表示的特征还是很模糊的,但是深层卷积就不同了,这些卷层的输入是前面卷积得到的特征映射,特征映射中每个元素可能表示的特征已经很具体了,比如鼻孔,鼻梁等,这个时候核尺寸不能太大了,太大了提取不到有效的特征。

四、减少过拟合

4.1、数据增强

数据增强在CPU上进行,训练在GPU上进行,并行执行,效率不受影响。

第一种数据增强形式包括生成图像平移和水平反射。我们通过在256×256的图像中随机提取224×224的图像块(以及它们的水平镜像),并在这些提取的图像块上训练我们的网络。在测试时,网络通过提取5个224×224个图像块(四个角和中心)以及它们的水平镜像(因此总共有10个图像块)来进行预测,并对10个图像块在softmax层的预测进行平均。

第二种形式的数据增强包括改变训练图像中RGB通道的强度。具体来说,我们在整个ImageNet训练集中对RGB像素值的集合执行PCA。到每个训练图片,添加找到的主成分的倍数。具体的,就是对于RGB图像中的每个像素 (因为是彩色图像,所以一个像素由三个通道值组成),加上向量 。其中, 和  分别是RGB像素值的  协方差矩阵的特征向量和特征值, 是一个从均值为0且标准差为0.1的高斯随机分布产生的随机变量。每个训练图片,在参与训练之前, 的值仅采样一次,直到下一次参与训练时为止,也就是每训练一次,产生一次采样值,该图片所有像素在处理时共享这个值。该方案近似地捕捉了自然图像的一个重要特性,也就是说,对象标识对光照强度和颜色的变化是不变的。该方案减少了top1错误率1%。

4.2、dropout

略。

五、学习的细节

我们使用随机梯度下降训练我们的模型,批处理大小为128个例子,动量为0.9,学习衰减率为0.0005。我们发现,这种少量的重量衰减对于模型的学习是很重要的。换句话说,这里的重量衰减不仅仅是一个正则化:它减少了模型的训练误差。权重  的更新规则如下:

其中, 是迭代轮数, 表示动量,梯度项表示在 第  轮迭代所有样本的均值。我们用标准差0.01从零均值高斯分布初始化了每个层中的权重。 我们用常数1初始化了第二、第四和第五卷积层以及全连接的隐藏层中的偏差。这种初始化通过向ReLU提供正的输入来加速早期的学习阶段。我们用常数0初始化其它层中的偏差。

我们对所有层使用了相同的学习速率,在整个训练过程中,我们手动调整了学习速率。 当验证错误率不再下降时,我们遵循的启发式方法是将学习率除以10。

六、实验结果

6.1、定性评价

图3显示了由网络的两个数据连接层学习的卷积核。 这些卷积核已经学习了各种频率和方向,以及各种彩色斑点。

在图4的左面板中,我们通过计算8个测试图像的前5个预测来定性地评估网络所学到的东西。请注意,即使是远离中心的对象,如左上方的小虫,也可以被网络识出来。大多数前5名的标签似乎是合理的。例如,只有其他类型的猫被认为是豹的合理标签。在某些情况下(格栅,樱桃),照片的焦点或意图是模糊的或有歧义的,如左面板第二行第三列狗和樱桃的照片,即便是人也无法判断它的真实标签是什么。

另一种探测网络视觉知识的方法是考虑图像在最后4096维隐藏层引起的特征激活。如果两幅图像产生的激活向量有比较小的欧几里德距离,则神经网络有较高可能性认为它们是相似的。请注意,在像素级别上,检索到的训练图像的欧式距离通常不接近第一列中的查询图像。例如,检索到的狗和大象以各种姿势出现。

利用两个4096维实值向量之间的欧氏距离计算相似性是低效的,但通过训练自动编码器将这些向量压缩为短的二进制码可以使其有效。

关于Hindon的ILSVRC 2012经典论文相关推荐

  1. 【R-CNN论文翻译】目标检测经典论文R-CNN最新版本(v5版)全面中文翻译

    R-CNN目标检测的奠基性文章,学习目标检测必看的经典论文之一,后续有Fast R-CNN,Faster R-CNN一系列论文. 目前网上能找到的论文翻译版本要么不全,要么不是最新版本的(论文从201 ...

  2. 目标检测经典论文——R-CNN论文翻译:Rich feature hierarchies for accurate object detection and semantic segmentation

    Rich feature hierarchies for accurate object detection and semantic segmentation--Tech report (v5) 用 ...

  3. 目标检测经典论文——Faster R-CNN论文翻译(纯中文版):Faster R-CNN:通过Region Proposal网络实现实时目标检测

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[Faster R-CNN中英文对照版] Faster R-CNN:通过Region Pr ...

  4. 卷积神经网络发展历程及经典论文

    2012年,AlexNet横空出世,以极大优势赢得了ImageNet 2012图像识别挑战赛的冠军,也引发研究人员对早期神经网络.卷积神经网络的思考和再研究.至此,卷积神经网络开始领衔掀起此轮人工智能 ...

  5. 目标检测经典论文——R-CNN论文翻译(纯中文版):用于精确物体定位和语义分割的丰富特征层次结构(技术报告(第5版))

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[R-CNN中英文对照版] 用于精确物体定位和语义分割的丰富特征层次结构 技术报告(第5版 ...

  6. Github标星24k,127篇经典论文下载,这份深度学习论文阅读路线图不容错过

    作者  | Floodsung 翻译 | 黄海广 来源 | 机器学习初学者(ID:ai-start-com) [导读]如果你是深度学习领域的新手,那么你可能会遇到的第一个问题是"我应该从哪篇 ...

  7. 卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 参考|学术头条 编辑|极市平台 作为深度学习的代表算法之一,卷积神经 ...

  8. 论文大盘点|卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:极市平台 作为深度学习的代表算法之一,卷积神经网络(Convolution ...

  9. 计算机视觉经典论文整理

    经典论文 计算机视觉论文 ImageNet分类 物体检测 物体跟踪 低级视觉 边缘检测 语义分割 视觉注意力和显著性 物体识别 人体姿态估计 CNN原理和性质(Understanding CNN) 图 ...

  10. 图像处理和计算机视觉中的经典论文

    转自:http://www.cnblogs.com/moondark/archive/2012/04/20/2459594.html 感谢水木上同领域的同学分享,有了他的整理,让我很方便的获得了CV方 ...

最新文章

  1. Python基础-安装
  2. 牛客OI周赛10-提高组:B-Taeyeon的困惑(值域线段树)
  3. php如何对数据类型检测 有哪些方法,php检测数据类型的几种方法汇总
  4. 什么是 jQuery 事件
  5. ABP入门系列(15)——创建微信公众号模块
  6. 服务器型号惠普RX3600,384854-B21 389344-001 146G SAS 15K 3.5寸HP服务器硬盘批发
  7. spring 3.0.5+velocity tools 2.0
  8. php对键盘控制,键盘控制 - 陈映亮的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. curl and wget
  10. python基础语法-缩进规则:
  11. sql面试题及答案总结
  12. 前端特效-HTML+CSS - 图片悬浮效果
  13. 沁恒CH582F sleep模式RTC唤醒
  14. JVM(三)类加载与字节码技术
  15. 风暴英雄 服务器在哪个文件夹,《风暴英雄》国服官方答疑 玩家最关心的问题都在这里...
  16. excel冻结窗口怎么设置_说说Word和Excel表头共享,全部方法供你选择
  17. 电脑清灰过后,CPU温度下降,显卡温度却上升了
  18. Java SSM商城系统
  19. 学习c语言神经网络编程软件
  20. 程序员成长之旅——同步IO和异步IO(五种IO模型)

热门文章

  1. 路由协议-ospf配置
  2. Action语义学综述
  3. 中国微型电动汽车市场趋势报告、技术动态创新及市场预测
  4. iconfont-阿里巴巴矢量图标库在layui中的使用
  5. android bitmap iplimage,IplImage和Bitmap相互转换
  6. mongoDB下载安装
  7. EPLAN教程——如何手动放置报表(以端子排为例)
  8. 2022自编译最新稳定版newifi3固件
  9. 使用python、java语言批量下载抖音中我的视频、我喜欢的视频,解析抖音视频,批量下载抖音...
  10. matlab里调节触发角度,电机与拖动基础及MATLAB仿真陈亚爱第4章直流电机.ppt