9年后重读深度学习奠基作之一:AlexNet【下】【论文精读】

这两天偶然间在B站看了李沐博士对AlexNet论文的重新解读,收获满满。AlexNet是当今深度学习浪潮奠基作之一,发表在2012年。在视频中,李沐博士主要是分享了他的三步法快速读论文。即当我们看一篇新的论文,可以按照下面这种方法去读:

  • 第一遍:论文标题、摘要、结论。顺带看看论文中重要的图和表。花费十几分钟时间判断论文是否和自己的研究方向相同。
  • 第二遍:确定论文值得读之后,可以快速的把整个论文过一遍,不需要知道所有的细节,但是需要了解重要的图和表,知道每一个部分在干什么,圈出相关文献。觉得文章太难理解的话,可以先看看论文中引用的其它文献,了解相关背景知识。
  • 第三遍:最详细的一遍,知道每一段和每一句话是什么意思,在复现论文时再反复研读。

AlexNet论文链接:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf


1.第一遍

首先是论文标题,论文标题中文意思是:使用深度卷积神经网络对ImageNet数据集进行分类。第一次读论文标题时要注意下面几个关键词:

  • ImageNet:论文使用的数据集是ImageNetImageNet数据集具体内容是什么样的?
  • Neural Networks :神经网络,这篇文章使用了神经网络技术。
  • Deep Convolutional卷积神经网络工作原理是什么? 同时作者为什么要使用深度的卷积神经网络。

下面是论文的作者,论文一作是Alex,这也是本篇论文提出的网络被称为AlexNet的原因。可能对论文前两个作者不是很熟悉,但是论文通信作者是Hinton,长期研究神经网络和深度学习。

下面是论文摘要,摘要总共六句话。

  • 前2句话介绍了自己做的工作,训练了一个很大很深的卷积神经网络在LSVRC-2010 contest取得了很好的结果。
  • 第3句话介绍了网络的模型,有6000万个参数和65万个神经元,模型包含5个卷积层,以及最大池化层和3个全连接层。
  • 第4句和第5句介绍了如何训练网络,使用了不饱和的神经元和GPU实现,为了减少全连接层的过拟合,使用了dropout技术。
  • 最后一句, 介绍在ILSVRC-2012比赛取得了第一名,错误率比第二名低了10.9%,可以看到本文设计的网络模型效果很好。

最后是论文结论部分,不过本篇论文的结论是讨论,和一般论文稍有不同。论文讨论有两段,第一段说我们在有监督学习上取得了很好的效果,证明了网络的深度很重要。第二段说我们没有使用任何的无监督预训练,这直接导致了后面的深度学习研究都集中在有监督学习上;同时作者提出未来会研究视频数据(当前研究的一个很火方向),因为视频数据会提供时序信息,这是静态图像数据所缺失的。


在第一遍时,可以顺带看看论文中重要的图和表,如网络结构图,可能第一遍不一定能看懂。第一遍读完后,可以决定后面是否再度第二遍论文,如果是研究图片分类方向的话,则需要再读第二遍。


2.第二遍

首先是Introduction部分,分为5段。前3段主要是研究内容背景知识介绍,第4段介绍了本文主要贡献。本文训练了一个很大的卷积神经网络在ILSVRC比赛上取得了最好的结果,同时本文在GPU实现了2D卷积操作。本文训练的网络包含一些新的和不常见的特征来提高网络性能和减少训练时间,这部分在论文第3节进行了介绍。第4节介绍了新的技术来防止过拟合。整个网络包含5个卷积层和3个全连接层,同时发现网络深度是很重要的,即使移除任意一层卷积层,都会导致性能下降。

作者还强调了由于GPU内存的限制,在两块GPU上进行训练时需要5-6天时间,如果能有更快的GPU和更大的数据集,网络性能还能进一步提升。


然后是ImageNet Dataset部分,分为3段。介绍了整个数据集大约有1500万张图片,共有22000类。ILSVRC比赛共有1000类,每一类大约有1000张图片。在2010的比赛中,可以得到测试集数据标签,但是在2012年的比赛中则没有测试集标签。

由于ImageNet数据集图片精度并不相同,因此我们每一张图片下采样到256×256256\times256256×256。当短边尺寸小于256时,我们先上采样到256,然后再从图片中截取 256×256256\times256256×256 的图片作为输入。我们没有对图片进行任何的预处理,整个网络是在每个像素的原始RGB值进行训练(也就是端到端训练,这也是深度学习的一大优势)。


再然后是Architecture部分,分为5个小节。

第一个介绍的是ReLU激活函数,函数形式为 f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x),形式比较简单。作者说这是一个非饱和的非线性函数,比其它激活函数训练要快(具体原因没解释),关于ReLU函数的具体介绍可以看参考文献[20]。作者做了一个实验,如图1所示,在将错误率降低到25%时,ReLUtanh函数训练时要快6倍。

第2小节-第4小节介绍的是多GPU训练,归一化处理、pooling处理,主要是偏工程实现,这些部分可先跳过,在读第3遍时再看。

第5小节是网络结构介绍,输入是 224×224×3224\times224\times3224×224×3 的图片,然后是5个卷积层,接着是3个全连接层,最后一层是softmax层,输出为1000个类别标签的预测概率分布。使用了两个GPU进行训练(现在训练网络一般可以不同分割模型),将网络模型切成两半分别在两个GPU中进行训练。第2个、第4个和第5个卷积层的输入为同一GPU上之前一层卷积层的输出,而第3个卷积层的输入为两个GPU上的第2个卷积层输出。每个全连接层的输入都为前一层网络的全部输出。可以看到,随着网络深度的增加,卷积层中图像大小在减少,而深度在不断增加。


接着是Reducing Overfitting部分,作者首先使用了数据增强,增加数据的多样性,然后使用了新的降低过拟合技术dropout。具体原理作者并没有解释,作者使用了50%的概率值来使每一个隐藏层神经元输出为0。这里dropout技术主要用在前两个全连接层。


下面是实验设置,使用SGD进行训练,同时使用了权重衰减(0.0005)。初始化时使用了均值为0标准差为0.01的高斯分布,第2、4、5层和全连接层偏差初始值为1,其余层为0。在训练时会手动改变学习率的值,当验证集上误差率不再变化时,将学习率除以10,学习率初始值为0.01。


下面是论文实验结果部分,可以看到在ILSVRC-2010/2012数据上作者都取得了最低的错误率,同时作者也在2009年版本的ImageNet全部数据上进行了训练,不过在ImageNet全部数据集上进行训练的研究比较少。

作者在训练时也发现了一些有意思的现象,就是两个GPU,一个GPU上和卷积核和图像颜色是有关的,一个和图像颜色是无关的,这个还待解释。另一个是图4所示,当最后一个隐藏层(4096)神经元欧几里得空间距离相近是,两张图片基本上是同一类(深度学习的解释性也是一个很重要的研究方向)。

至此,论文解读到此结束,后面如果想复现本篇论文时,就需要再多读几遍。

重读经典:《ImageNet Classification with Deep Convolutional Neural Networks》相关推荐

  1. 无监督对比学习论文Momentum Contrast for Unsupervised Visual Representation Learning阅读

    目录 MoCo论文:<Momentum Contrast for Unsupervised Visual Representation Learning> 基础概念了解 1.无监督.有监督 ...

  2. MoCO ——Momentum Contrast for Unsupervised Visual Representation Learning

    Title: Momentum Contrast for Unsupervised Visual Representation Learning 作者:Kaiming He Haoqi Fan Yux ...

  3. 对比学习系列论文MoCo v1(二):Momentum Contrast for Unsupervised Visual Representation Learning

    0.Abstract 0.1逐句翻译 We present Momentum Contrast (MoCo) for unsupervised visual representation learni ...

  4. Momentum Contrast for Unsupervised Visual Representation Learning

    Motivation 已有的利用contrastive learning做unsupervised visual representation learning要么受限于GPU不能使用大batch,要 ...

  5. 重读经典:《Momentum Contrast for Unsupervised Visual Representation Learning》

    MoCo 论文逐段精读[论文精读] 这次论文精读李沐博士继续邀请了亚马逊计算机视觉专家朱毅博士来精读 Momentum Contrast(MoCo),强烈推荐大家去看本次的论文精读视频.朱毅博士和上次 ...

  6. MOCO: Momentum Contrast for Unsupervised Visual Representation Learning

    动机: Unsupervised representation learning is highly successful in natural language processing,but sup ...

  7. 无监督对比学习之MOCO 《Momentum Contrast for Unsupervised Visual Representation Learning》

    无监督学习 如果可以建立一种通用的无监督模型,经过海量无标签数据的学习后,可以习得一个强大的特征提取器,在面对新的任务,尤其是医疗影像等小样本任务时,也能提取到较好的特征.这就是无监督学习的意义. 对 ...

  8. 论文阅读:CVPR2020 | MoCo:Momentum Contrast for Unsupervised Visual Representation Learning

    文章目录 前言 一.Introduction 二.Method Contrastive Learning as Dictionary Look-up Momentum Contrast Diction ...

  9. Moco -Momentum Contrast for Unsupervised Visual Representation Learning

    首先这是一篇来自2020年cvpr的一篇文章,MoCo: CVPR 2020 最佳论文,完成了视觉 + 对比学习的里程碑式的工作.填补了 CV 领域的无监督学习和有监督学习的 gap . 作者是何凯明 ...

  10. Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)

    论文:MoCo 这篇文章是CVPR2020的文章,针对上一篇文章的memory bank所占用的空间较大的问题,这一篇文章提出了改进.该文章主要解决的是无监督视觉表示学习问题. 摘要:作者从将对比学习 ...

最新文章

  1. windows 7下安装VS2005,SQL Server2005,VS2008
  2. 强化学习(一)——专业术语及OpenAI Gym介绍
  3. 云原生生态周报 Vol. 19 | Helm 推荐用户转向 V3
  4. java 微信高级群发_微信高级群发接口demo
  5. 新垣结衣自拍照_如何阻止自拍照出现在iPhone的自拍照专辑中
  6. Silverlight WCF RIA服务(十三)数据 3
  7. 智能机器人建房子后房价走势_深圳建二手房价引导制度,学习长沙意图明显,距离稳准狠差点意思...
  8. mysql xtrabackup安装与原理
  9. 创建和销毁对象(1)
  10. Matlab函数之lower函数与upper函数
  11. jlabel字怎么变化_不懂书法“疏密”变化,你的造诣只能是初学者
  12. Linux双系统安装指南
  13. donet使用linq
  14. 如何解决苹果Mac大写键CapsLock不能锁定大小写?
  15. mybatis中显示Type interface com.javacto.dao.UserMapper is not known to the MapperRegistry.
  16. Android之实现遮罩动画的小技巧 类似flash遮罩动画
  17. java 飞机 源码_Java 飞机游戏源码(带音乐)
  18. iis7 下php 环境配置文件,Win7下在IIS7中配置PHP的环境
  19. pip 不使用本地缓存安装指定库
  20. 华为手机总是弹出风险提示

热门文章

  1. [Leedcode][JAVA][第210 题][课程表 II][拓扑排序][BFS][DFS][有向图]
  2. 软件质量保证计划_CMMI V2.0 精讲之“过程质量保证”
  3. 台达asda-b2伺服驱动器说明书_台达解决方案提升粉末冶金液压机的控制精度
  4. app开发人脸登录和指纹登录_易讯云通讯推出“一键登录”,为App登录提供新方案...
  5. zookeeper的acl权限控制_Zookeeper 权限控制 ACL介绍
  6. bin文件怎么转换成文本文档_怎么把pdf文件转换成word文档?这样转很简单
  7. ajax 请求post和get,ajax请求get和post
  8. ANTLR VS FLEXBISON
  9. cs8900a网卡驱动--寄存器
  10. Android判断view在屏幕可见,如何检查TextView是否在Android可见屏幕内