NeurIPS 2021 | 视频分类鲁棒性新基准

关注公众号，发现CV技术之美

▊ 文章信息

标题：Benchmarking the Robustness of Spatial-Temporal Models Against Corruptions

论文链接：https://openreview.net/pdf?id=MQlMIrm3Hv5
项目链接：https://github.com/Newbeeyoung/Video-Corruption-Robustness

▊ 1. 概述

神经网络和大规模数据集推动了图像和视频分析领域巨大的发展，但是现在大部分数据集只考虑不加噪声和扰动的干净数据进行模型评估。在模型的实际部署中，我们会遇到各种各样的扰动，比如天气变化，镜头的移动，系统的错误或数据流失。

计算机视觉模型在这种环境中面对扰动的可维持性即是对常见噪声和扰动的鲁棒性(Common Corruption Robustness)。在单个图像相关的计算机视觉任务中，这些扰动会造成模型表现很大程度地恶化。相应地在视频分析中，时序信息或许会提高模型对这些自然生成扰动的鲁棒性，但是还没有人做过相关的系统性研究。

所以我们选择视频识别作为视频分析领域的突破口，自然而然地提出几个研究问题：

1）现在的视频分类模型大量使用时序信息，是否对模型鲁棒性有帮助？

2）模型是否对带时序信息的扰动(Temporal Corruption)具有鲁棒性？比如在视频传输中丢包造成的扰动会在后续的视频帧造成更大的扰动。

3）模型的鲁棒性(Robustness)，泛化性(Generalization)和效率(Efficiency)是否有冲突？

针对以上几个问题，新加坡南洋理工大学ROSE实验室提出视频分类(Video Classification)鲁棒性的新基准。这个基准包括两个数据集Mini Kinetics-C和Mini SSV2-C，并且从空间和时间域(Spatial Temporal Domain)考虑不同的自然产生的噪声和扰动。

这两个数据集是基于广泛应用的视频分类数据集 Kinetics 和 Something-Something V2。前者更依赖于单个帧的空间信息，后者则更依赖与连续帧中包含的时序信息。

在此基础上，我们设计了12种不同的噪声和扰动并添加在数据集验证集的原有视频上。需要注意的是，在评估模型鲁棒性时，我们通常使用原有的干净数据集做训练，并在添加噪声和扰动的验证集上做评估。在使用我们设计的基准评价最新发表的基于CNN和Transformer的视频分类模型后，我们发现了几个趋势：

1）基于Transformer的模型比基于CNN的视频分类模型更鲁棒

2）模型的鲁棒性和泛化性正相关，但是和模型的效率相冲突。效率包括模型的大小和需要计算的次数。

3）模型对带时序信息的扰动(如动态模糊，比特错误等)更加鲁棒，而对仅带空间信息的扰动(Spatial Corruption)(如散射噪声，雨滴等）不够鲁棒

4）在训练集中添加随机噪声不能提高模型鲁棒性。虽然这种方法在单个图像相关的任务中比较有效。

▊ 2. 构建基准

评价指标

模型对单个扰动的鲁棒性，c指扰动类型，s指扰动的严重程度,Ns指严重程度的分级：

当我们在现实生活中部署计算机视觉系统时，我们假设系统对可能产生的噪声和扰动是未知的。我们通常用模型在各种扰动下的平均表现来评价模型的Common Corruption Robustness:

模型对单个扰动的鲁棒性，c指扰动类型，s指扰动的严重程度,Ns指严重程度的分级：

模型的平均扰动鲁棒性，Nc指扰动类型数量

基准数据集

我们在原有的Kinetics和SSV2数据集验证集的基础上分别添加12类扰动，包括：

视频采集中：散射噪声，动态模糊，雾天，雨天，光线变化，对比度变化，饱和度变化

视频处理中: H265 ABR压缩，H265 CRF压缩，比特错误，丢包，视频帧数转换

并且每一种扰动包含5级严重程度，总体来说我们设计的鲁棒性验证集是原有验证集的12x5=60倍大小。如图为基准数据集中的实例。另外这12种扰动也可以按照空间和时域来进行分类，在下面的基准研究里我们有做相应分类。

▊ 3. 视频鲁棒性基准研究

基于我们提出的视频鲁棒性基准，我们采用最新的视频分类模型做训练，其中包括：S3D, I3D, 3D ResNet, SlowFast, X3D, TAM, and TimeSformer。以下为鲁棒性基准的结果：

我们发现模型鲁棒性和泛化性有正相关性，即同时增长或降低。相反的，模型的鲁棒性和其效率相冲突，即模型越大(Parameter size)，鲁棒性越高；模型计算所需操作越多(FLOPs)，其鲁棒性越高。

另外，我们尝试使用最基础的数据增强方法训练模型，发现高斯噪声对模型表现基本没有提升。这个结果和单个图像任务中的趋势不一致，也给了我们研究和创造视频分类中数据增强方法提供了考研。

▊ 4. 结语

我们这篇论文提出了视频分类鲁棒性的新基准，并且对模型的设计和训练提出一些经验性的分析和指引。在现实的视频分析模型部署中，模型对常见噪声和扰动的鲁棒性是不得不考虑的一个指标，我们踏出第一步对模型鲁棒性进行合理的评估。

作为视频分析中一个新的维度，扰动鲁棒性(Common Corruption Robustness)还有巨大的空间值得我们去研究和提高。

END

欢迎加入「视频技术」交流群

NeurIPS 2021 | 视频分类鲁棒性新基准相关推荐

NeurIPS 2021 | 图像损坏场景下行人重识别新基准
关注公众号,发现CV技术之美 0. 导读行人重识别(Person ReID)在安全部署领域有着广泛应用,当前的研究仅考虑ReID模型在干净数据集上的性能,而忽略了ReID模型在各种图像损坏场景(雨天 ...
53位作者只有1个华人？NeurIPS 2021大奖揭晓，Google、DeepMind、斯坦福百花齐放
视学算法报道编辑:技术组 [新智元导读]11月30日,NeurIPS 2021会议公布了杰出论文奖(Outstanding Paper Awards).时间检验奖(Test of Time ...
NeurIPS 2021 | CyGen：基于概率论理论的生成式建模新模式！
关注公众号,发现CV技术之美本文转自微软研究院AI头条. 编者按:在概率论中,两随机变量的一个联合分布可由一个变量的边缘分布和对应条件分布确定,也可对称地由另一变量的边缘分布和另一方向的条件分布确定 ...
NeurIPS 2021 Spotlight | 准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练...
点击上方"迈微AI研习社",选择"星标★"公众号重磅干货,第一时间送达美国东北大学王言治教授.林雪教授研究组与威廉玛丽学院任彬教授研究组共同提出了一种稀疏训 ...
AI求解偏微分方程新基准登NeurIPS，发现JAX计算速度比PyTorch快6倍，LeCun转发：这领域确实很火...
萧箫发自凹非寺量子位 | 公众号 QbitAI 用AI求解偏微分方程,这段时间确实有点火. 但究竟什么样的AI求解效果最好,却始终没有一个统一的定论. 现在,终于有人为这个领域制作了一个名叫PD ...
AI求解偏微分方程新基准登NeurIPS，发现JAX计算速度比PyTorch快6倍，LeCun转发：这领域确实很火
萧箫发自凹非寺量子位 | 公众号 QbitAI 用AI求解偏微分方程,这段时间确实有点火. 但究竟什么样的AI求解效果最好,却始终没有一个统一的定论. 现在,终于有人为这个领域制作了一个名叫PD ...
豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用
视学算法报道编辑:小咸鱼好困 [新智元导读]谷歌改造Vision Transformer的新作被NeurIPS 2021收录了.在这篇文章里,谷歌提出了TokenLearner方法,Vis ...
谷歌魔改Transformer登NeurIPS 2021！一层8个token更好用
转自:新智元目前,Transformer模型在计算机视觉任务(包括目标检测和视频分类等任务)中获得了最先进的结果. 不同于逐像素处理图像的标准卷积方法,Vision Transformer(ViT) ...
NeurIPS 2021六篇杰出论文公布，谷歌工程师11年前论文获时间检验奖
来源:量子位 NeurIPS 2021将于下周正式召开. 近日,大会委员会公布了NeurIPS 2021的杰出论文奖,时间测试奖,以及今年新设的数据集和测试基准最佳论文奖. 杰出论文奖今年有六篇论文 ...

NeurIPS 2021 | 视频分类鲁棒性新基准

NeurIPS 2021 | 视频分类鲁棒性新基准相关推荐

最新文章

热门文章