Knowledge Integration Networks for Action Recognition AAAI 2020

AAAI 2020 码隆科技实验室+南京大学

1 摘要

在这项工作中，我们提出了用于视频动作识别的知识集成网络（KINet）。KINet能够聚合有意义的上下文特征，这些特征对于识别动作非常重要，例如人类信息和场景上下文。我们设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构，该结构允许模型对动作识别中的人和场景知识进行编码。我们探索了两种预先训练的教师网络模型来提取人类和场景的知识，用于训练KINet的辅助任务。此外，我们还提出了一种两层的知识编码机制，其中包含一个跨分支集成（CBI）模块，用于将辅助知识编码为中级卷积特征，以及用于有效融合高级上下文信息的动作知识边缘图（AKG）。这就产生了一个端到端可训练的框架，其中三个任务可以协同训练，从而使模型能够有效地计算强上下文知识。所提出的KINet在大规模动作识别基准Kinetics-400上达到了最先进的性能，最高精度为77.8%。我们进一步证明KINet具有强大的能力，将Kinetics训练模型转移到UCF-101，在那里它获得97.8%的top-1精度。

2 相关背景
2.1 动作识别
人类动作是一个高级别的概念，可以通过人物、场景等各类信息识别某一动作的内容，从而实现动作分类的任务。

下图中，第一列可以直接通过雪地背景和任务的着装就判断是滑雪的动作；第二列，虽然由于分辨率较低，加之存在运动模糊，我们无法看成图中的球是什么种类，但是通过球场和运动员信息，我们可以判断是打篮球的动作；第三列，从人物展示的姿势中，我们可以很容易地辨别出这是俯卧撑的动作。因而，文本信息对于理解视频中的人类动作有着至关重要的作用。相应地，学习到这样的文本信息对于动作识别任务精度的提升大有裨益。

以往工作通常将动作识别当做一个分类任务，试图直接从视频的训练中获取动作相关的语义信息。他们认为视频相关的语义特征信息可以直接通过强大的CNN模型，加上视频级的标签就可以直接训练得到。但近期研究表明，同时研究动作和动作实施者分割对于这两个任务都有很大的促进。

深度学习的方法已经在human parsing (Gong et al. 2017), pose estimation (Wang et al. 2019), semantic segmentation (Zhao et al. 2017), and scene recognition(Zhou et al. 2017; Wang et al. 2017)等领域取得了优异的表现。通过利用这些现有的技术学习视频中的文本信息来增强动作检测模型的能力成为了思路之一。论文作者设计了知识蒸馏机制来学习人和场景的文本知识，通过联合训练动作识别、人物解析、场景识别，是这三个任务联合工作，提供了无需额外手工注释的研究动作识别的新方法。

2.2 人体解析（human parsing）
人体解析是指将在图像中捕获的人分割成多个语义上一致的区域，例如，身体部位和衣物。作为一种细粒度的语义分割任务，它比仅是寻找人体轮廓的人物分割更具挑战性。
人体解析对于以人为中心的分析非常重要，并且具有许多工业上的应用，例如，虚拟现实，视频监控和人类行为分析等。

人体解析常用的数据集：

3 方案原理

Knowledge Integration Networks (KINet)使用两个教师网络来指导主网络。两个教师网络目的在于提供假的ground truth给scene recognition和human parsing两个任务。

主网络包含三个分支，中间的基础分支是用来action recognition，另外两个分别设计用来scene recognition和human representation，引入了Cross Branch Integration (CBI)模块将辅助的知识融进中间的卷积特征和Action Knowledge Graph (AKG)来有效聚合高级的文本信息。

3.1 The Teacher Networks
3.1.1 Human parsing network
使用的数据集是LIP (Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. 2017 CVPR) 。

论文作者直接采用现有的PSPNet ( Pyramid scene parsing network. 2017 CVPR) 作为人体解析的teacher network，网络主体是DenseNet-121。

3.1.2 Scene recognition network
使用的数据集是Places365（Places: A10 million image database for scene recognition. 2017 PAMI），包含365个场景种类。

论文作者直接采用现有的ResNet152 作为teacher network的网络主体。

3.2 The Main Networks
论文使用Temporal Segment Network (TSN) 结构作为动作识别的网络框架。

三个分支共享low-level layers，原因在于：

1）low-level features are generalized over three tasks；
2）sharing features allow the three tasks to be trained more collaboratively with fewer parameters used；
higher level layers是三个独立的分支，并不共享参数，但是通过各种聚合机制交换信息。

3.3 Knowledge Integration Mechanism

论文的目标是设计一个高效的特征聚合方法来融合不同级别的文本知识，为此提出了一个两级的聚合机制，包括Cross Branch Integration (CBI) module 和 Action Knowledge Graph (AKG) method。

3.3.1 Cross Branch Integration (CBI)
CBI的目的在于将从两个辅助分支学习到的中间特征聚合到action recognition分支，进而实现模型融入了人和场景的信息。

如图，与action的特征图分别相乘后，BN层，之后类似resnet操作，再relu，之后三个特征图按通道级联，然后再通过一个1X1的卷积降低通道数，使得通道数和开始的一致，最后再一个类似resnet操作。

CBI模块可以应用到网络的任何一步。

3.3.2 Action Knowledge Graph (AKG)

在最后阶段，对每一个分支单独进行全局平均池化，得到三组同样大小的特征表示向量。每一组包含个特征向量Each group contains N seg feature vectors, 对应于个输入帧，这里的是TSN中的视频片段数量。

然后对这些特征表示向量运用图卷积去建模相互之间的关系，即action, scene和human segments之间的关系。

构建的图的节点总数为：

节点为：

运算为：

和我上次的GCN汇报一样。

3.4 Joint Learning
端到端联合训练，损失函数为：

4 实验效果
4.1 Kinetics-400数据集

4.2 UCF101 数据集

4.3 可视化

5 结论
文本信息的融入十分重要，本文设计了teacher网络来聚合人和场景的信息，取得了很好的效果，后期可以借鉴到动作检测上。

推荐阅读：
TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)
P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet数据集简介及下载分享(百度网盘)

Knowledge Integration Networks for Action Recognition AAAI 2020相关推荐

视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...
PaddlePaddle飞桨论文复现营——3D Residual Networks for Action Recognition学习笔记
PaddlePaddle飞桨论文复现营--3D Residual Networks for Action Recognition学习笔记 1 背景知识 1.1 C3D C3D是一种3D卷积提取视频特征 ...
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络本文原创,欢迎转载 https://blog.csdn ...
Two-Stream Convolutional Networks for Action Recognition in Videos算法笔记
论文:Two-Stream Convolutional Networks for Action Recognition in Videos 链接:https://arxiv.org/abs/1406. ...
双流网络: Two-Stream Convolutional Networks for Action Recognition in Videos
Contents Introduction Two-stream architecture for video recognition Evaluation Enlightenment Referen ...
【论文学习】Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos 原文地址粗略翻译摘要: 我们研究了视频中用于训练动作识别的深度 ...
【视频分类论文阅读】Two-Stream Convolutional Networks for Action Recognition in Videos
论文是视频分类的开山之作,采用了一个双流网络,是空间流和事件流共同组成的,网络的具体实现都是CNN,空间流的输入是静止的图片,来获取物体形状大小等appearance信息,时间流的输入是多个从两帧之间 ...
【论文模型讲解】Two-Stream Convolutional Networks for Action Recognition in Videos
文章目录前言 0 摘要 1 Introduction 1.1 相关工作 2 用于视频识别的双流结构 3 光流卷积神经网络(时间流) 3.1 ConvNet 输入配置 4 实现细节 4.1 测试 4. ...
深度学习-视频行为识别：论文阅读——双流网络（Two-stream convolutional networks for action recognition in videos）
这里写目录标题视频的行为识别前言背景内容组成主要贡献算法介绍网络结构双流(two stream)网络结构空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...

Knowledge Integration Networks for Action Recognition AAAI 2020

Knowledge Integration Networks for Action Recognition AAAI 2020相关推荐

最新文章

热门文章