VTN泛读【Video Transformer Network】

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果

0、前沿

泛读我们主要读文章标题，摘要、结论和图表数据四个部分。需要回答用什么方法，解决什么问题，达到什么效果这三个问题。需要了解更多视频理解相关文章可以关注视频理解系列目录了解当前更新情况。

Video Transformer Network论文下载： https://arxiv.org/pdf/2102.00719.pdf

1、标题

Video Transformer Network

视频Transformer

2、摘要

This paper presents VTN, a transformer-based framework for video recognition. Inspired by recent developments in vision transformers, we ditch the standard approach in video action recognition that relies on 3D ConvNets and introduce a method that classifies actions by attending to the entire video sequence information. Our approach is generic and builds on top of any given 2D spatial network. In terms of wall runtime, it trains 16.1× faster and runs 5.1× faster during inference while maintaining competitive accuracy compared to other state-of-the-art methods. It enables whole video analysis, via a single end-to-end pass, while requiring 1.5× fewer GFLOPs. We report competitive results on Kinetics-400 and Moments in Time benchmarks and present an ablation study of VTN properties and the trade-off between accuracy and inference speed. We hope our approach will serve as a new baseline and start a fresh line of research in the video recognition domain. Code and models are available at: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

本文提出了一种基于Transformer的视频识别框架VTN。受视觉Transformer最近发展的启发，我们抛弃了视频动作识别中依赖于3D卷积网的标准方法，并引入了一种通过关注整个视频序列信息来进行动作分类的方法。我们的方法是通用的，同时可以构建在任何给定的2D空间网络之上。在wall runtime方面，与其他SOTA方法相比，它训练速度快16.1倍，在推断期间运行速度快5.1倍，同时保持相当的准确性。它支持整个视频分析，通过一个单一的端到端通过，同时减少1.5倍的GFLOPs。我们报告了在Kinetics-400和Moments in Time基准上的比赛结果，并提出了一个消融实验，关于VTN特性和准确性和推断速度之间的权衡。我们希望我们的方法将作为一个新的基线，并开始在视频识别领域的一条新的方向。代码放在

https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

3、结论

We presented a modular transformer-based framework for video recognition tasks. Our approach introduces an efficient way to evaluate videos at scale, both in terms of computational resources and wall runtime. It allows full video processing during test time, making it more suitable for dealing with long videos. Although current video classification benchmarks are not ideal for testing long-term video processing ability, hopefully, in the future, when such datasets become available, models like VTN will show even larger improvements compared to 3D ConvNets.

我们提出了一个基于transformer模块的视频识别任务框架。我们介绍了一种从计算资源和wall runtime方面都有效的评估视频规模的方法。它允许在test期间进行全视频处理，使其更适合处理长视频。虽然目前的视频分类基准对于测试long-term的视频处理能力并不理想，希望在未来，当这些数据集可用时，像VTN这样的模型将显示出比3D卷积更大的潜力。

4、重要图表

图1：视频Transformer。链接三个模块：

一个2D空间骨干网f(x)，用于特征提取。

接着是一个基于时间注意力的encoder，它使用特征向量( $\phi _{i}$ )结合位置编码。

分类MLP的[CLS]被处理成最终的一个分类预测。

图2：从Kinetics-400数据集中的abseiling分类视频中平均提取16帧。分析视频的上下文和关注相关部分，比分析围绕特定帧构建的几个片段更直观，因为许多帧可能会导致错误的预测。

表1：不同骨干网络变体的VTN在Kinetics-400验证集上的性能。使用完整的视频推断，报告了top1和top5的准确率。我们报告了在ImageNet上预训练做的工作，和单裁剪的top-1准确性，(†) 表示使用了数据增强。

表2： K400上的消融实验。使用全视频在验证集上的top1和top5精度。

图3：举例说明[CLS]令牌的所有单一注意层权重 vs 从一段视频中抽出16帧。高权重用暖色调黄色标记，低权重用冷色调蓝色标记。在abseiling分类的视频上，与使用不相关信息的分片相比表现出了更高的权重。这个模型对视频来说正在“abseiling”。

图4：在K400上，注意力对训练和验证的影响曲线。针对正两种情况，我们训练了一个类似的具有三个Longformer层的ViT-B-VTN。我们在学过的注意力头肩修改注意力头，和固定注意力分别测试。

表3：测试需要每个模型需要的时间。我们列出训练一个epoch需要多长时间，以及需要多少个epoch才能达到最佳性能。我们比较了每个模型top1和top5精度和参数量。(*)的代码我们使用Facebook的slowfast代码 https://github.com/facebookresearch/slowfast

我们模型用30views报告了精度，为了计算slowfast-16x8-r101在gpu上的时间，我们使用了16size的batch。我们尽可能根据原始的论文报告epoch的数目。所有其他模型，包括NL I3D，都使用我们的代码进行训练，并使用完整的视频推断方法进行评估。（论文代码链接在摘要里。）(†)标记的最后一行的模型，我们进行了广泛的数据增强训练。

图5：我们实现的NL I3D 和 DeiT-B-VTN 在K400上的学习曲线。我们报告了top1的学习和验证曲线。top1精度训练是基于单随机片计算的，而验证我们使用的全视频推断。DeiT-B-VTN在训练和验证的每个步骤都表现了很高的性能，在25个epoch达到最优，而NL I3D需要50个epoch才能达到最优。

表4：推断的GFLOPs数。(*)模型还是从上面网站上下的。我们使用下载代码，复现了slowfast-8x8-r50结果，报告是77%我们获得了76.45%。当使用全视频推断运行模型时，性能大约下降了8%。我们没有跑slowfast-16x8-r101，因为它没发布。多view的GFLOPs，通过每个view的GFLOPs累加。1层的ViT-B-VTN获得了78.6%的top1精度，与SlowFast-16X8-R101比低了0.3%，但减少1.5X的GFLOPs。

表5：比较MiT-v1和MiT-v2.(*)的代码链接上https://github.com/zhoubolei/moments_models

5、解决了什么问题

大火的tansformer是否可用于视频

6、采用了什么方法

attention时间信息，构建VTN网络

7、达到了什么效果

视频识别上与其他SOTA方法相比，训练速度快16.1倍，推断快5.1倍，准确性不会下降。