1、问题描述

利用深度神经网络进行特征的提取和分类取得了很好的效果。在很多视觉会议的竞赛上，CNN（卷积神经网络）的方法效果都不错。一些“基准”的数据集例如：Caltech-101（Fei-Fei et al., 2004），办公室内区域数据集（Saenko et al., 2010）Caltech-UCSD鸟类纹理识别数据集（Wnlinder et al., 2010）以及SUN-397场景识别数据集（Xiao et al., 2010）。在此之前，可以利用传统的特征提取法以及分类方法例如人工神经网络法或者SIFT特征等方法对上述数据集进行分别训练，然后识别。那么问题来了，在有限的数据集上，有监督的深度神经网络结构很容易造成过拟合（Krizhevsky et al., 2012），这应该怎么解决？

本文研究的是，在大规模数据集上进行有监督的训练，提取出来的特征直接应用到其他的分类任务当中。就比如，在ImageNet数据集上训练CNN，得到了一个有参数的神经网络结构，把这个训练好的网络直接作为其他数据集的特征提取器，例如SUN-397数据集。实验证明，这个方法比把SUN-397直接作为训练集单独训练的方法性能更好。作者开发了CAFFE（注：原文中介绍的是DeCAF，现在的版本已经更新并且软件包更名为了“CAFFE”，下文即将提到的CAFFE指的都是原文中的DeCAF），这是一个深度神经网络的开源开发工具，可以直接拿来进行训练数据集，进行特征的提取以及目标分类。如果研究人员不想花费很大的代价训练数据集，作者也公布了训练好的网络模型参数，可以直接拿来进行特征提取或者分类。

2、简介

感知器学习的重要目标就是找到数据集的主要语义的有效表达方式，也就是好的特征。传统的视觉表达是基于扁平化的特征提取方法（如SIFT特征，梯度过滤法等），这些方法效果很好，但是近几年来进展不大。

人们一直在讨论的一个问题是，深度分层的网络结构可以求得特定区域的主要表达，这些“主要表达”是根据语义簇、部分、中间层特征或者说隐层单元提取的（Hinton&Salakhuidinov, 2006; Fidler&Leonardis, 2007; Zhu et al., 2007; Singh et al., 2012; Krizhevsky et al., 2012）。在一些识别任务上，深度神经网络比传统的手工选择特征的性能还好，而且更适用于一些目前还没有找到较好的特征的例子（Le et al., 2011）。最近成果表明，在基于部分的检测任务上，适当的深度无监督特征方法性能也优于梯度直方图方法（Ren&Ramanan 2013）。

深度网络已经应用于大规模的视觉识别任务中，例如利用了卷积层的BP算法模型（LeCun et al., 1989）。如果在大量训练数据的情况下，网络的性能更好，这已经应用于数字分类任务（LeCun et al., 1998）。利用一个大规模的图像数据集（Deng et al 2009），以及结合了”dropout”方法（Krizhevsky et al., 2012），测试的性能在当时超过了所有已知的方法（Berg et al., 2012）。

在有限的训练集上，有监督深度网络容易造成过拟合（Krizhevsky et al,. 2012）。然而，少量的训练集，正是视觉识别要克服的问题。本文研究了多任务学习的半监督的深度卷积表示方法，模型是从相关的其他数据集上训练得到，但是应用在新的任务中。这样做的原因是，这个”新的任务”的训练样本不够。本文的模型也可以认为是基于有监督的预训练阶段（supervised pre-training phase），也可以把本文的模型提取出来的特征，称为CAFFE特征。CAFFE特征就是经过预训练阶段的目标提取任务中提取出来的。与本文工作有关的方法是，基于相关任务的可学习分类器的特征立即表示法（Li et al., 2010; Torresani et al., 2010; Quationi et al., 2008），即训练出来的网络中直接包含了特征提取器和分类器。

本文主要结论：在ImageNet数据集上训练卷积神经网络，然后在其他数据集上测试，数据集包括Caltech-101（Fei-Fei et al 2004），office区域适应数据集（Saenko et al 2010），细致纹理识别数据集（Welinder et al 2010），场景识别数据集（Xiao et al 2010）。测试的结果比在Caltech101这些数据集单独训练分类的结果更好，说明了CNN适用于大规模数据集的训练。

3、相关工作

在cv（计算机视觉）领域，深度卷积神经网络的应用很早，一个用有监督反向传播算法的神经网络成功应用在数字识别上（LeCun et al., 1989）。更近的成果，例如2012年的卷积网络（Krizhevsky et al 2012）在很多基准数据集上的性能测试都取得了冠军，它可以训练100万图片，如ImageNet数据集（Berg et al., 2012）。

“从相关的其他任务的进行学习”这种思想，在机器学习领域的应用也很早（Caruana 1997;Thrun 1996）。之后的工作（Argyriou et al 2006），提出相关任务的最优表示框架，2005年的论文（Ando&Zhang 2005）探索如何把（网络）参数转移到相关的其他任务上。CV领域，在相关任务的训练分类器上形成表示方法（特征），在检索和分类上很有效，尤其当分类器用在视觉方面的工作上（Torresani et al 2010;Li et al 2010）。此类学习的核心问题是，找到特征表示方法，它能得到与目标类别有关的信息并且抛弃了不相关的噪音，例如：亮度。

利用深度表示法（特征）跨任务进行学习，已经在广泛研究，尤其在无监督应用上（Raina et al 2007;Mesnil et al., 2012）。然而，这些paper里的基于卷积网络的模型虽然取得成功，但是限制在较小的数据集中，例如CIFAR和MNIST，但是对于大型数据集则不多（Le et al 2012）。本文研究了“有监督的预训练”，它在cv和多媒体应用成功，利用concept-bank paradigm（Kennedy&Hauptmann 2006；Li et al., 2010; Torresani et al., 2010），方法在大规模数据集进行有监督训练特征，然后应用到其他任务上面（任务不同，标签也不同，重新训练分类器）。

为了评价深度卷积特征的通用性，本文在一些和ImageNet数据集有误差的其他数据集上进行训练和测试。比如SUN-397数据集和场景适应数据集（Chopra et al., 2013; Kulis et al., 2011）。本文评价了学习到的特征是否可以消除“区域偏差”，通过捕捉真实的语义信息，而不是特定区域的过拟合信息。

欢迎登陆我的个人主页，hello2019，查看原文：http://richardliu.cn/

欢迎登陆我的个人主页，hello2019，查看原文： http://richardliu.cn/

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告（1）相关推荐

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告（2）
4.实验本文采用的深度卷积神经网络的原型是(Krizhevsky et al 2012).利用这个网络训练得到多种特征,然后在多个视觉任务上进行测试.本节讨论的"向前路径"计算法 ...
DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读
DeCAF : CAFFE前身,但是在这篇文章中这不是重点,重点是在一个大型数据集合上进行训练的模型能否在其他数据集合上成功应用,因为有些领域数据集合时很少的,那么在这上面训练不现实,所以如果模型能够 ...
[DeCAF]DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition
基本情况 ICML 2014的文章, arXiv:1310.1531 [cs.CV].主要通过实验证明transfer learning的可行性. Abstract 本文评估从大型固定的一组对象识别任 ...
【深度学习论文笔记】DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition
时间:2014/7/29 10:00 论文题目:DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognit ...
DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition
2018.4.22星期日 [1]Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep ConvolutionalActivation Feature fo ...
DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征
DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征 Abstra ...
论文笔记 Very Deep Convolutional Networks for Large-Scale Visual Recognition - ICLR 2014
VGG Very Deep Convolutional Networks for Large-Scale Visual Recognition Karen Simonyan and Andrew Zi ...
Deep High-Resolution Representation Learning for Visual Recognition阅读笔记
用于视觉识别的深度高分辨率表示学习论文链接摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告（1）

1、问题描述

2、简介

3、相关工作

DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告（1）相关推荐

最新文章

热门文章