2017-Appearance-and-Relation Networks for Video Classification视频分类中的外观与关系网络

 arxiv: https://arxiv.org/abs/1711.09125github: https://github.com/wanglimin/ARTNet

本文提出一种新的架构，学习视频时空特征，称为外观和关系网络（Appearance and Relation—ARTNet），以学习视频表示的端到端方式。ARTNET是通过堆叠多个通用构建块，称为SMART，来构建的，其目标是以单独和明确的方式同时从RGB输入中建模外观和关系。具体而言SMART块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支。外观分支是基于每帧中像素或滤波器响应的线性组合来实现的，而关系分支是基于多帧中像素或滤波器响应之间的惩罚交互来设计的。作者在Kinetics、UCF101和HMDB51数据集上进行了实验，证明了SMART块在时空特征学习方面比3D卷积有明显的改进。作者认为两个视觉线索对视频分类很重要：1.每帧中的静态外观；2.多帧之间的时间关系。

具体地，外观分支用标准2D卷积实现，关系分支用方形池结构实现。来自两个分支的响应被进一步串联并简化为更紧凑的表示。
作者提出了一个外观和关系网络（ARTNet）通过堆叠一组智能块。从本质上讲，视频域中的外观信息和关系信息呈现出多尺度的时空结构。ARTNet能够以分层的方式捕捉这种视觉结构，早期层的智能单元侧重于在短期内描述局部结构，而后期层的智能单元可以捕捉到越来越粗糙、范围越来越广的视觉结构。

本文的贡献：

1.设计了SMART模块，以一种独立而明确的方式同时捕获外观和关系。
2.提出了一种将多个SMART块叠加在一起的ARTNet，对不同尺度下的外观和关系信息进行建模，实现了SMART块参数的端到端优化。

与3D CNNs的不同

作者的工作主要集中于短期时间建模，并且与3D CNNs最相关。我们的ARTNet与3D-CNNs的主要区别在于，我们设计了一个新的智能块，用两个分支结构分别显式地对外观和关系进行建模，而3D-CNNs则用3D卷积来联合隐式地捕捉外观和关系。
作者的工作在三个重要方面不同于以往的工作：（1）采用标准反向传播方法，以有监督的方式学习关系分支的权值，而以往的工作是手动设置模型权值或以无监督的方式学习模型权值。（2）将关系分支与外观分支相结合，形成智能块来捕获时空信息，而以往的工作只针对关系建模模块。（3）我们通过堆叠多个智能块来构建ARTNET来学习分层的时空特征，而以前的工作通常是基于乘法交互的单层。

SMART 模块

上面的分支为关系分支，下面的分支为外观分支。
我们进一步构造了一个智能块来分别和明确地学习时空特征，其中外观分支使用二维卷积来捕获静态结构，关系分支使用平方池结构来建模时间关系。（1）用于空间特征学习的外观分支和（2）用于时间特征学习的关系分支。

外观分支

对单个帧进行操作，旨在捕获有用的静态信息以进行动作识别。使用2D卷积对视频进行操作，捕获每帧中的空间结构。二维卷积的输出为F。

关系分支

对堆叠的连续帧进行操作，目的是捕获这些帧之间的关系以进行动作识别。我们设计了一个方形池结构来建模这个卷输入上的时间关系。具体地说，我们首先对这个体积输入V进行3D卷积，然后通过一个平方函数得到隐藏单元U，然后，我们应用交叉信道池将U中的多个隐藏单元聚合为转换码Z，该交叉信道采用1×1×1卷积实现。在实际应用中，变换码Z也会经过BN层和ReLU非线性，与外观分支的输出保持一致。同时，在三维卷积和平方非线性之间增加了BN层，提高了其稳定性。

智能块

将外观和关系分支的输出与串联和归约操作结合起来。直观地说，空间和时间特征对于动作识别是互补的，这个融合步骤的目的是将它们压缩成一个更紧凑的表示。
我们通过将智能块集成到C3D-ResNet18体系结构中来开发ARTNet[42]，由此产生的体系结构被称为ARTNetResNet18。我们选择C3D-ResNet18来实例化ARTNet，架构细节如下表所示。这些网络采用112×112×16的输入，以保持模型容量和处理能力之间的平衡效率。到为了更好地评估智能块的有效性，我们实现了两种ARTNet-ResNet18：（1）在保持剩余层不变的情况下，我们只用智能块代替C3D-ResNet18中的第一个三维卷积，表示为ARTNet-ResNet18（s）。（2） 我们堆叠多个智能块，并完全替换七个3D卷积，表示为ARTNet-ResNet18（d）。将多个智能块叠加，可以从不同的尺度上获取外观和关系信息，进一步增强ARTNet-ResNet18（s）的建模能力。

实验

作者研究了视频中四种时空特征学习模块的性能：1.二维卷积2.三维卷积3.关系分支4.智能块，用ResNet18进行了实验，对于C2D-ResNet18，是将C3D-ResNet18中的3D卷积替换为2D卷积；对于Relation-ResNet18，是将ARTNet-ResNet18中的智能快替换为Relation branch。结果见下表。

由表可得，3D卷积在学习视频表现方面优于2D卷积（75.7%对71.9%）。作者提出的关系分支和智能块都优于原始的三维卷积。（77.2%对75.7%和77.4%对75.7%）。
作者还研究了堆叠多个关系分支和智能块的有效性，可以观察到叠加多个智能块性能从77.4%提升到78.7%。但是堆叠多个关系分支性能却下降了。

因为堆叠智能块将增加网络深度，这样也可能带来性能上的提升，作者为了证明性能的提升是因为智能块，ARTNet-ResNet18（d）与C3D-ResNet34进行了比较，其结果显示ARTNet-ResNet18（d）的性能更好，说明性能的提高是因为智能块，而不是网络深度的增加。

双流输入的研究

输入RGB和光流两种模式，为了进一步说明智能块在三维卷积上的有效性，我们对ARTNet-ResNet18和C3D-ResNet18的两个流输入进行了实验。

首先，两个流输入可以将C3D-ResNet的性能从75.7%提高到78.2%。说明，尽管三维卷积的目的是直接从RGB中学习时空特征，但流仍然能够提供互补信息。对比C3D的双流融合78.2%和作者提出的智能块RGB流的78.7%，表明智能块在两个流输入上的优越性。
最后作者也对智能块进行了双流的实验，性能提升到了80.4%，但是光流的计算成本很高。

long-term模型的研究

作者提出的智能块和ARTNet侧重于短期时空特征学习，是对现有长期建模架构的补充。Temporal segment network（TSN）时间段网络的简单性使我们能够用我们提出的ARTNet-ResNet18替换原来的2D CNN。

无TSN与有TSN的ARTNet比较。ARTNet侧重于短期的时空特征学习，并且易于与现有的长期建模体系结构相结合。
TSN建模有助于提高ARTNet-ResNet18的性能。例如，采用TSN训练的ARTNet-ResNet18在RGB输入时的性能为80.0%，在两个流输入时的性能为81.4%，比原来的性能分别提高了1.3%和1.0%。这一改进证明了ARTNet与TSN框架的互补性。原则上，ARTNet是一个通用的短期视频模型，可以在任何长期学习框架中进行探索，如LSTM[33，5]和注意力建模[48]。

与最新方法比较

作者比较了ARTNet-ResNet18与最新方法在Kinetics数据集上的性能。为了公平比较，只考虑使用RGB输入，和从零开始学习。可以看出作者提出的ARTNET方法性能比基线方法CNN+LSTM、SPatial Stream、C3D的性能优于10%左右。然后与更深层的C3D架构（C3D-ResNet18和C3D-ResNet34）进行比较，作者的ARTNet性能比更深层的C3D高3%左右。最后和最先进的方法TSN和I3D比较，这两种架构采用了更深层次的主干架构（Inception），空间分辨率更高（224*224），此外，I3D还通过叠加64帧进行长期建模的功能。因此使用TSN来增加ARTNet的时间长度是公平的，ARTNet与TSN训练取得了比TSN和I3D更好性能的结果。（80.0%对77.8%，78.7%对78.2%）

作者通过比较C3D-ResNet18和ARTNetResNet18在Kinetics预训练之后在UCF101测试的结果，发现ARTNetResNet18比C3D-ResNet18性能高3.7%，在HMDB51数据集比C3D高5.5%，表明ARTNet中学习的时空表征比C3D更有效地进行迁移学习。

结论

本文提出了一个新的体系结构—ARTNet，用于视频中的时空特征学习。ARTNet的构建基于SMART模块，它的目标是用一个两个分支单元分别显示地建模外观（空间特征）和关系（时间特征）。可以看出智能块能够产生比三维卷积更好的性能，单RGB输入的ARTNet甚至优于双流输入的C3D。