4、实验

本文采用的深度卷积神经网络的原型是(Krizhevsky et al 2012)。利用这个网络训练得到多种特征,然后在多个视觉任务上进行测试。本节讨论的”向前路径“计算法在ILSVRC-2010取得了很好的效果。问题是:利用CNN提取的特征是否可以应用到其他数据集上?CNN的性能是如何随着网络的深度变化的?本文定性和定量的说明了这两个问题,通过可视化语义簇,实验对比和“基准”方法的差别。

本节展示了CAFFE在一些基准数据集上的实验结果,对比了不同的特征提取法和分类法。试验中,CNN网络的第n层激活值,表示成 。 表示最后一个隐层提取的特征(即在最后一个输出分类结果的全连接层之前), 是 前面的激活层, 是 前面的激活层。 是穿过卷积网络的第一个激活层。本文没有评价网络中更低级的层了,因为这些卷积层和高级层相比,没有丰富的语义表示。隐层的激活值就是特征,卷积层之间共享权重。

4.1对CAFFE的测试实验

本文采用的CNN基本的架构来自于(Krizhevsky et al 2012),Krizhevsky赢得了ILSVRC2012的冠军,它的错误率是40.7%。选择这个架构是因为它在复杂多分类任务上的性能不错,并且假设每一个神经元的激励是一个很强的特征。网络输入时RGB的平均值,然后向前传播,穿过5个卷积层(包括对应的pooling层和RuLU非线性单元),3个全连接层,然后得到了最后一层的神经元激励(输出),即1000个类的分布。本文模型的一个实例得到错误率是42.9%,比2012年paper的40.7%差。

本文引用2012年的paper,详细讨论了网络结构和训练规则,以下是两个小的差异:首先,本文忽略了图像原始比例,把它伸缩到256X256,而不是剪裁。然后,本文没有增加数据集的每个像素点的RGB的主成分(的倍数),而是捕获亮度和颜色变化中的不变量。

图 1. 利用t-SNE特征在LISVRC-2012验证集上可视化。(a)是LLC特征,(b)是GIST特征,(c)是CNN的 层特征,(d)是 层特征

图 2. 把在ILSVRC-2012上学习到的模型迁移到数据集SUN-397上,不同的颜色表示不同的语义。

4.2特征的推广和可视化

本文可视化了模型特征,来显示CAFFE的语义,也可视化了其他在cv应用广泛的特征。特别的,本文对比了GIST特征(Oliva&Torralba, 2011)和LLC特征(Wang et al., 2010)。可视化的算法是tSNE方法(van der Maaten&Hinton, 2008),把高维的特征空间投影到2维的嵌入空间中。不同的颜色代表不同的语义类别。一个强的特征,可以把”室内“和“室外”区分开。

图1显示了第一个pooling层的特征和最后一层的特征。可以发现,后面的层的特征更加的聚集和易区分。LLC特征和GIST特征是重叠的,不能分离的。

图2是SUN-397数据集的CAFFE-7的特征映射图。“室内”和“室外”就很好的区分开来。显示出了语义类别的很好的聚集。在特征聚集的中间部分的点,可能暗示了其他有意思的类别。

4.3时间分析

CNN的运算需要很长时间。本文把CAFFE的框架的计算时间进行分解对比。

图3a列出每一层计算时间,并标出了最耗时的层。本文发现卷积和全连接层耗时最大,因为涉及了大规模的矩阵乘法。图3b是按照层的类别(如卷积层,全连接层等)划分,计算出消耗时间。发现全连接层耗时最大,因为涉及大量变换矩阵。所以,当考虑对类别数很多的数据集分类时,可以使用一些“稀疏方法”,如Bayesian输出编码(Hsu et al., 2009)。

图 3. (a)表示计算单个输入图像的时候,每一层所花费的时间。(b)表示不同类别层的花费时间,fc=fully connected layers,conv=convolution layers,pool=pooling layers,neuron=neuron layers,比如ReLU,sigmoid或dropout。

4.4目标识别

为了分析深度特征在低水平目标类别的能力,在Caltech-101数据集(Fei-Fei et al., 2004)上进行试验。利用“dropout”正则化技术(Hilton et al., 2012),在 和 评价分类器性能。把节点一半进行随机的置零,并在测试阶段把机或者乘以0.5。

实验中,每一类随机选择30个样本,在剩余样本中进行测试,交叉验证比是25/5。图4是averaged mean error。

可以发现最好的方法是  with Dropout方法,测试集准确率是86.9%。 的特征性能明显低于 和 的性能,所以实验的时候就没有再考虑更低层的特征了。Dropout正则化方法比没有正则化的方法,性能提高2%左右,SVM方法和logistic方法性能相近。

本文把CAFFE性能和该数据集上最好的方法(Yang et al., 2009)对比,Yang的方法把5个图像特征结合起来,基于多核的分类器。本文性能比Yang的方法高出2.6%。也比Jarrett et al(2009)的2个卷积层的方法高出20%。证明了深度网络在特征提取的重要性。

图 4. 左表表示2个分类器,在3个隐层的训练效果。数据集Caltech-101上每一类选取30个图片作为训练样本。右图表示平均准确率根据训练样本数的变化情况。

4.5区域适应

本节测试CAFFE在区域适应任务上的性能。数据集是office dataset(Saenko et al., 2010)。数据集包含三部分:amazon(来自amazon.com的产品图像),webcam和Dslr(办公环境图像,分别用网络摄像和单反拍摄)。

对于这个数据集,之前的工作大多用的是SURF方法(Bay et al., 2006)进行特征提取。本文依然用t-SNE算法把SURF和CAFFE特征投影到2维空间。图5显示的是webcam和Dslr两个子数据集的特征投影。可以发现,CAFFE的类别聚集更好,并且能聚集不同区域的统一类别物体。表明了CAFFE移除了区域偏差。

图 5. 分别把webcam(green)数据集和dslr(blue)数据集利用SURF特征和 特征可视化。

下面在office数据集上进行定性实验,验证结论。表1是展示了多类别平均准确率,表示区域转换Dslr-Webcam,Amazon-Webcam。实验参数配置参考Saenko et al(2010)。把SURF特征和DeCAF6和DeCAF7特征进行对比,求出每一个方法的多类别平均准确率,分类器是SVM和LogRe,用3个方式训练:只用源数据(S);只用目标数据(T);源数据和目标数据都用(ST)。表中还显示了3个自适应方法。

4.6子类识别

本节测试CAFFE在子类识别上的性能。使用的数据集是Caltech-UCSD鸟类数据集(Welinder et al., 2010)。这里采用了两种方法,分别介绍如下。

方法1:把 图像剪裁成bounding box的1.5倍长宽,resize成 大小,在CNN网络里,用 的特征进行logistic回归分类。

方法2:应用deformable part descriptors(DPD,Zhang et al., 2013)和deformable part model(Felzenszwalb et al., 2010),把CAFFE应用在与训练的DPM模型中。

表2是本文的方法和文献的方法性能对比。CAFFE和LogReg组合,比现有方法性能更好,表明这些特征,尽管不是专门设计用来解决子分类问题,但是可以很好的表示信息。此外,如果加入结构信息(如部分位置),使得性能提升,达到64.96%。超过了DPD方法和POOF方法(Bo et al., 2010)。

本文注意到:由于本文分析的是如何把DeCAF推广到不同的任务,所以就没有讨论微调(fine tune)的问题。为了获得最佳结果,可以执行full bp。然而,本节说明了,没有微调也可以有不错的性能提升,表明CAFFE也许是一个现成的视觉表现方式,不需要大量的计算。

4.7场景识别

本节测试CAFFE在SUN-397大规模场景识别数据集上的性能。目标识别的目的是确定和分类图像中的对象,而场景识别的任务是分类整个图像。SUN-397数据集中,有397个语义场景类别,如教堂、小餐馆、清真寺和体育馆。

基于  with dropout和  with dropout,本文在SUN-397上训练线性分类器,如表3。

5、总结

本文研究的是把一个大规模数据集学习到的模型,迁移到其他数据集上进行预测。主要用来解决某些数据集的有标签数据少的问题。这得益于imagenet数据集的发明。在imagenet上学习到的特征有较强的表达能力,此阶段叫做pre-training。模型迁移之后,进行fine-tuning,即使用bp算法对特定的数据集进行调优。通过实验证明深度卷积网络具有以下特征:

1、可以逐层提取图像的特征,语义从低到高。不需要人工的设计特征。

2、泛化能力较强。可以适用于目标识别、场景识别和区域适应等。

3、鲁棒性强。对图像的扭曲、偏移、缩放等完全适应。

本文另一个贡献是开发出了开源的深度学习软件包CAFFE,基于GPU,性能比纯CPU的代码提高十倍以上。

6、参考文献

Jake Bouvrie. Notes on Convolutional Neural Networks, 2006

Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng and Trevor Dareell. DeCAF: A Deep Convolutional Activation Fearture for Generic Visual Recognition. In ICML, 2014

Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. In IEEE, 1998

欢迎登陆我的个人主页,hello2019,查看原文:http://richardliu.cn/

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告(2)相关推荐

  1. DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告(1)

    1.问题描述 利用深度神经网络进行特征的提取和分类取得了很好的效果.在很多视觉会议的竞赛上,CNN(卷积神经网络)的方法效果都不错.一些"基准"的数据集例如:Caltech-101 ...

  2. DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读

    DeCAF : CAFFE前身,但是在这篇文章中这不是重点,重点是在一个大型数据集合上进行训练的模型能否在其他数据集合上成功应用,因为有些领域数据集合时很少的,那么在这上面训练不现实,所以如果模型能够 ...

  3. [DeCAF]DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition

    基本情况 ICML 2014的文章, arXiv:1310.1531 [cs.CV].主要通过实验证明transfer learning的可行性. Abstract 本文评估从大型固定的一组对象识别任 ...

  4. 【深度学习论文笔记】DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition

     时间:2014/7/29 10:00 论文题目:DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognit ...

  5. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition

    2018.4.22星期日 [1]Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep ConvolutionalActivation Feature fo ...

  6. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征

    DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征 Abstra ...

  7. 论文笔记 Very Deep Convolutional Networks for Large-Scale Visual Recognition - ICLR 2014

    VGG Very Deep Convolutional Networks for Large-Scale Visual Recognition Karen Simonyan and Andrew Zi ...

  8. Deep High-Resolution Representation Learning for Visual Recognition阅读笔记

    用于视觉识别的深度高分辨率表示学习 论文链接 摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...

  9. VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition

    Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...

最新文章

  1. 全国计算机等级考试二级笔试样卷Java语言程序设计
  2. mongodb query
  3. Mifare Ultra Light 非接触式IC卡发卡总结
  4. java静态工厂方法模式_设计模式:简单工厂模式(静态工厂方法模式)
  5. 软件构架则是软件之上的 飞鸽传书 软件
  6. spring boot集成kaptcha图形验证码
  7. atitit,it人怎么样才容易事业成功?? 有以下五种性格的人容易成功
  8. java给界面添加滚动条_Java Swing学习笔记:要求会默写或熟练的,GUI,控件,设置列或行,加滚动条,新界面...
  9. 说说博客园的“关注”与“网摘”
  10. kubectl mysql 集群_mysql-kubernetes
  11. 支付宝mysql集群_支付宝支撑2135亿成交额的数据库架构原理
  12. 【ArcGIS操作】3 数据制图篇
  13. [电脑桌面壁纸]macOS Big Sur 桌面壁纸分享
  14. 关于惠普笔记本电脑电源已连接但显示未充电的解决办法
  15. ML之SHAP:机器学习可解释性之SHAP值之理解单样本单特征预测
  16. 如何写一个仿真文件——testbench
  17. Delphi访问网络共享文件夹
  18. 成都榆熙电子商务有限公司:旗舰店都有哪些优势?
  19. 4.7W防削顶单声道D类音频功率放大器HT6872介绍
  20. 2022.07.19 MySQL唯一索引

热门文章

  1. zigbee CC2530 系列教程 3 点亮1个LED实验
  2. Utilities非默认目录构建和安装
  3. vue中实现拖拽功能
  4. NLP:《NLP Year in Review 2019NLP_2019_Highlights》2019年自然语言处理领域重要进展回顾及其解读
  5. 2022年软件设计师考试知识点:计算机病毒与木马
  6. MySQL 组合索引及覆盖索引
  7. 警惕!沉默的诅咒!诺基亚S60短信漏洞
  8. 5964. 【NOIP2018提高组D2T1】旅行
  9. spring.factories加载原理以及自定义EnvironmentPostProcessor
  10. AMBA AHB总线协议详细说明(AHB5协议)