把一个dataset的表放在另一个dataset里面_视频自监督一. STCR: 一个基于数据增强的简单有效正则项（降低静态信息的影响）...

视频自监督一. STCR: 一个基于数据增强的简单有效正则项（降低静态信息的影响）

今天介绍一个我们近期做的关于视频自监督的简单工作：

Self-supervised learning using consistency regularization of spatio-temporal data augmentation for action recognition，相关代码也update到后续工作对应的github上。

https://arxiv.org/abs/2008.02086arxiv.orgFingerRec/Self-Supervised-Temporal-Discriminative-Representation-Learning-for-Video-Action-Recognitiongithub.com

1. Overview

本文针对视频自监督任务基于Consistency Regularization设定了一个通用/简单有效的正则项, 和其它已有的模型可以互补，也可以单独优化transfer到down-stream任务(如action recognition, video retervial)。

2. Motivation

对于Action Recognition这个task, 对比Image, Video包含的额外Temporal information扮演很重要的角色, 进年来如何从无标数据里面学习到temporal信息是这个领域的核心问题。常见的做法就是预设一种与时序相关的Pretext task，模型想要解决这些task必须学习某种temporal representation，代表性的有从Shuffle&Learn 到 SpeedNet。与之相反，我们的方法是我们观察到现有的强模型存在的问题，去设计self supervised 的方式去缓解标记数据及模型本身带来的不足。

具体而言，我们注意到当前的全监督模型存在两个显著的问题:

(1). 如上图，action中direction information 很大程度上决定了运动的语义，同一个视频时序翻转后会出现两种完全相反的语义 (对应不同的action label)。然而现有的3D CNN在feature encoding 的过程中部分丧失了direction information. 通过confusion matrix我们观察到，在 benchmark上表现最强力的强监督I3D/SF Net等模型仍然关于Sit/Stand Up等反向信息完全相反的动作会有很严重的混淆;

(2). 如上图，由于真实的video不可避免的存在显著的implicit bias[1] (比如通过看到水识别游泳，看到马识别骑马)，现有的模型很容易遇到 object 或者 background的影响，从而损害时序信息的学习，使得在类似场景或者有同样物体存在的时候泛化性很差。

因此，我们想让模型用自监督的方法去缓解3D Backbone存在的这两个问题。

针对问题1，我们的想法是构造逆序的video, 让3D CNN对应的输入保持一致。

针对问题2，一个直观的想法就是能不能完全remove掉background, 如下图,

然而Segmentation很耗时且效果在low-resolution上效果很差，因此最后考虑通过Data Augmentation 把static frame当成noise.

3. 从Consistency Regularization 讲起

Consistency Regularization[1] 是在semi-supervised learning 里面非常典型的方法；想法是对同一个样本

, 经过不同的 Augmentation之后模型的预测结果应该保持不变；

通常，这一项对于半监督中的无标数据进行计算，直观来看，这个约束本身就是unsupervised的。很自然的，我们考虑把上面的两个motivation通过video generate的形式构造。具体实现如下：

4. Method

Pipeline

整个pipeline如上图，延续着Consistency Regularzation[2] 的思路，我们分为两个Branch, 一路Clean表示普通的Video,另一路表示引入Noise之后的, 2路不同的输入经过3D Backbone之后，我们希望feature 在 temporal-level和feature-level保持consistency。

其中

和

的具体实现如下：

Spatio-temporal Transformation

Transformation由简单的矩阵Flip和Rotation实现。共4(rotation) x 4(flip)=16 type.

Intra-video Mixup

Mixup[3] 是 Image Classification 里面常见的增强范式。其核心思想是对已有有标数据，通过Mix的操作去生成多样的新样本，让决策边界更加光滑。

其中

和

是不同的样本以及其对应的标签

和

由于是在自监督的场景下，没有对应的label, 因此我们直接把一个静态帧当成noise和视频内的其它帧进行线性插值。最终的Intra-Video Mixup的实现如下：

其中

是从Beta分布采样的结果，不过我们发现均匀分布和Beta分布的结果基本一致。

如何避免trivial solution

如果STCR单独优化，很容易陷入到trivial solution, 因此在单独优化的时候把spatiao-temporal transformation对应的Inverse当作类别, 去掉逆变换变为分类任务。如果是和已有的Pretext, 则按照Pipeline计算。

5.Experiment & Discussion

STCR可以单独训练也可以作为正则项引入到已有的模型里面。在两个数据集上都有比较大的增益

Spatio-temporal Transformation可视化：

可视化3D Backbone提出的特征，从时序维度上来看，我们的模型对inverse之后的video提出的特征比backbone模型更具对称性。

Intra-video Mixup可视化

从热图来看，在有Intrai-videoMixup 之后的模型对运动区域更敏感，一定程度上降低了background的影响。

把经过t-sne可视化之后，我们发现经过IV Mixup之后的样本在特征空间更加分散，经过finetune之后取得了更好的效果。

有意思的是，当我们把增益最大的5个类别和负增益最大的5个类别的视频拿出来观察发现，带来负向增益的都是如骑马，骑自行车，打球这种 Spatial-related class (通过单个图像就可以分类出)

6. 总结

Implicit Bias是在主流的Video数据集里都显式存在的问题，我们从去年开始都在关注解决这个问题。此前的方法都在关注使用一个尽可能大的DataSet去构造一个尽可能强力的分类模型，而没有探索Data Augmentation带来的增益。受启发于Consistency Regularization, 我们期望把这种Bias当成一种noise去让网络对static的信息不敏感，最终落实到了两个简单的实现上。后续我们把这种Augmentation的思想继续深入了一下，详细见视频自监督二：

很遗憾，最终提出的方法非常简单，没有做出特别有意思的工作~

引用

[1]. Girdhar R, Ramanan D. Cater: A diagnostic dataset for compositional actions and temporal reasoning[J]. ICLR, 2020.

[2]. Laine S, Aila T. Temporal ensembling for semi-supervised learning[J]. arXiv preprint arXiv:1610.02242, 2016.

[3]. Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.