Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network

《Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network》

本文提出了一个通过用CNN学习可区分性的显著图的在线视觉跟踪算法。给定一个在大规模图片数据集上在线下预训练的CNN，本文的算法将网络的隐含层的输出当做是特征描述子，因为他们在各种各样的视觉识别问题上表现出非常好的表达能力。这些特征通过使用一个在线SVM被用来学习一个可区分性的目标外观模型。此外，作者构想了一个特定目标的显著图，通过在SVM的指导下反向传播CNN特征，最后得到每一帧的最终的跟踪结果，它是基于外观模型和显著图谱生成和构造的。因为显著图谱能够有效地可视化目标的空间结构，所以他提高了目标定位的精度，并且使我们能够实现像素级的目标的语义分割。

本文作者提出一种新的跟踪算法，它是基于一个预训练的CNN来表达目标，这个CNN网络他最初是为了大规模图像分类任务而训练的。在CNN的隐含层的顶端，作者添加了一个额外层，这一层是一个在线的SVM，它是用来学习目标对象的外观，以便很好的将它从背景中区分开来。这个通过SVM学习的模型被用来计算一个特定目标的显著图谱，是通过反向传播和目标对象相关的信息到输入层来完成的。然后利用特定目标的显著图谱来得到生成目标外观的模型（滤波器），通过理解目标对象的空间结构来进行跟踪。

本文的几点贡献：

1、尽管目前基于CNN的跟踪算法都试图用一个在线的方式来学习网络，但是我们的算法采用了一个预训练的CNN来表达目标对象的一般特征，并且取得了非常出色的效果。

2、作者提出了一种构造特定目标显著图的技术，在训练CNN的反向传播误差的时候，它是通过反向传播只和目标对象相关的特征，这种做法克服了现有方法的一些缺陷（限制），只是可视化和预定义类别相一致的显著图。这个技术也是我们能够获得像素级的目标分割。

3、我们在线学习了一个简单的特定目标外观的滤波器，并且将它运用到显著图中，这个策略提高了目标的定位性能，这跟CNN特征的平移不变性的性能是一样的。

Overview of Our Algorithm：

本文的跟踪算法采用了一个预训练的CNN来表示目标。对于每一帧视频，首先我们要采取一些候选样本，这些候选区域是在上一帧视频中目标对象的周围采样的，得到这些图像的观察值后，我们用预训练的CNN来提取这些采样图像的特征描述。我们发现，这些从CNN提取到的语义信息特征是非常有效的，它能够成功的处理结构和光照变化。然而这些特征表示由于CNN的pooling操作会丢失掉目标的一些空间信息，这对于目标跟踪是不太令人满意的，因为空间信息对于目标的精确定位是非常有效的。

为了充分利用CNN特征的表示能力来保存目标的空间信息，我们采用指定目标对象的显著图作为我们的观察值来做跟踪，这些显著图是通过反向传播指定目标对象的CNN特征信息到输入层而产生的。类别特定的显著图是通过反向传播相应的信息到特定的标签来可视化感兴趣的区域来建造的。因为视觉跟踪问题属于一个任意类别的问题，他的类别是不知道的，目标类别的模型是很难预训练到的。

因此，我们采用一个在线的SVM，它能够利用从CNN模型学习到的特定目标的特征来从背景中区分出目标对象，通过在线SVM学习到的特定目标的信息被看做是类别信息。SVM能够区分每一个样本，我们计算每一个正样本显著图，通过沿着预训练的CNN模型反向传播他的CNN特征到输入层，整个过程是在SVM的指导下进行的。每一个显著图会会将从背景中区分得到的目标区域高亮。这个特定目标显著图减轻了CNN特征做视觉跟踪的限制，通过提供目标对象的重要的空间结构特征。

接下来，跟踪算法可以表述为一个顺序的贝叶斯滤波框架，在跟踪的时候用特定目标显著图作为观测值。然后一个产生式的外观模型通过随着时间的推移累加目标的观测值（特定目标的显著图）来构造，它能够揭示目标的有意义的空间构造（例如形状和局部）。然后每一帧的一个密集的似然图谱可以有效的通过卷积来计算，这个卷积操作是发生在特定目标的显著图和产生式外观模型之间的。

本文的算法利用了在线SVM的可区分性的性能，他帮助我们生成一个特定目标显著图谱。此外，作者利用显著图谱来构建产生式外观模型，通过顺序贝叶斯滤波来执行跟踪。这样就很自然的结合了判别式和产生式方法。

3.1 预训练CNN来提取特征描述子

为了表达目标的外观，作者采用了CNN，它是在一个大规模图片数据集上预训练的。这个预训练的模型对于在线跟踪是非常有用的，因为他并不是直接的收集大量的训练数据。在这篇文章中，作者选用的是R-CNN，当然其他的CNN模型也是可以选择的。对于整个网络结构，作者选择的是第一个全连接层的输出，因为他们更趋向于捕获目标对象的一般特征，并且在很多其他领域表现出很好的泛化性能。

对于一个候选的目标Xi，CNN网络将它对应的图片的观测值Zi作为输入，从第一个全连接层返回