Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

网址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf

Abstract

本文主要工作：当前传统的研究都只关注shallow 3D结构，而我们在各类数据集上比较从较浅到非常深的各种3D CNN的结构。

主要结论：

1）在UCF-101, HMDB-51, and ActivityNet上，resnet-18过拟合严重；但在kinecits，并未出现过你和。

2）Kinetics 可以训练非常深的3D CNNs，例如152 resnet

3）Kinetics 预训练的简单3D结构都能比复杂2D结构表现好

Introduction

在行为识别上，well-organized 的3D模型都没有一些stacked flow和RGB images的2D模型好

原因：1）当前视频数据集较小，而3D CNN中参数多

2）预训练问题：3D CNNs can only be trained on video datasets，然而2D CNN有imagenet预训练

所以作者提出主要困惑：3D CNN能否重现 2D CNN和ImageNet的历史？使用在Kinetics上训练的3D CNN能否在行为识别or其他各类任务上产生和imagenet相似的作用? 要解答上述疑惑，kinetics要预备的特点： 1）Kinetics要像ImageNet一样大规模 2）Kinetics要支持训练very deep的结构，这样才能回答上述问题。

本文的主要工作：

1）从relatively shallow to very deep 探究不同的3D CNN结构在不同数据集：UCF-101, HMDB-51, ActivityNet，Kinetics上的性能。网络结构主要基于resnet。

2）探究from scratch和 fine-tuning的比较

本文最主要贡献：this is the first work to focus on the training of very deep 3D CNNs from scratch for action recognition

Experimental configuration

探究的三个问题：

1）determine whether current video datasets have sufficient data for training of deep 3D CNNs

探讨当前的数据集是否足够大，可以训练复杂的3D CNN网络。这里我们用resnet18（最小的resnet结构）在几个数据集上学习。如果resnet18在某个数据集上过拟合，就说明该数据集太小了，以至于不能训练deep 3D CNNs from scratch，因为resnet18已经是比较小的结构。

2）conducted a separate experiment to determine whether the Kinetics dataset could train deeper 3D CNNs.

这一部分主要探究，在Kinetics可以设计多深的3D CNNs。模型深度从18到200。如果可以达到imagenet在深resnet上的性能，我们可以用该数据集来做行为识别中其他数据的预训练

3）examined the fine-tuning of Kinetics pretrained 3D CNNs on UCF-101 and HMDB-51

探讨kinetics产生的预训练参数对小数据集UCF101 和 HMDB-51产生的影响。网络结构：ResNet (basic and bottleneck blocks)， pre-activation ResNet ，wide ResNet (WRN) , ResNeXt, and DenseNet

Experiment

1.第一个问题的探究，在resnet18上他牛不同数据集

1) resnet18在UCF-101, HMDB-51, and ActivityNet的验证误差远远大于训练误差，说明resnet18在这些数据集上过拟合了，所以推断出在这些数据集上train deep 3D CNNs from scratch 是不可行的。但在Kinetics结构不同，并不过拟合，所以可以在Kinetics上训练deep 3D CNNs

2.第二个问题的探究，kinetics能训练多深的3D网络？

验证深层网络在Kinetics上的结果，发现随着depth的升高，acc上升，直到resnet152饱和。但resnet200和resnet152结果差不多，可能已经开始过拟合了。

3.验证fine-tuning和从头训练的对比

Kinetics可以从头训练，但其他数据集不行，所以用Kinetics给其他数据预训练，结果差的还挺多

个人总结

本文有点像总结性论文，探究了多种resnet结构在当前行为识别上的多个常见数据集上的性能。从而得到结论：

1）现有的很多行为识别数据集都太小，不能从头开始训练复杂的3D 网络结构

2）但Kinetics可以，并且网络可以设计的非常深，resnet152 ，resneg200等

3）在行为识别上，Kinetics可以充当imagenet的作用，给其他数据集提供预训练。

github上代码很全，但其实本文的实验结果并不好。例如ucf101用kinetic预训练，resnet50才到89.3。之前的paper，TSM（Temporal Shift Module for Efficient Video Understanding）好像能做到96了。并且作者用了很多图像增强的trick，实际我在ucf101上没用这些trick复现论文时，达不到89。