AAAI 2020 码隆科技实验室+南京大学

1 摘要

在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet)。KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息场景上下文。我们设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。我们探索了两种预先训练的教师网络模型来提取人类和场景的知识,用于训练KINet的辅助任务。此外,我们还提出了一种两层的知识编码机制,其中包含一个跨分支集成(CBI)模块,用于将辅助知识编码为中级卷积特征,以及用于有效融合高级上下文信息的动作知识边缘图(AKG)。这就产生了一个端到端可训练的框架,其中三个任务可以协同训练,从而使模型能够有效地计算强上下文知识。所提出的KINet在大规模动作识别基准Kinetics-400上达到了最先进的性能,最高精度为77.8%。我们进一步证明KINet具有强大的能力,将Kinetics训练模型转移到UCF-101,在那里它获得97.8%的top-1精度。

2 相关背景
2.1 动作识别
人类动作是一个高级别的概念,可以通过人物、场景等各类信息识别某一动作的内容,从而实现动作分类的任务。

下图中,第一列可以直接通过雪地背景和任务的着装就判断是滑雪的动作;第二列,虽然由于分辨率较低,加之存在运动模糊,我们无法看成图中的球是什么种类,但是通过球场和运动员信息,我们可以判断是打篮球的动作;第三列,从人物展示的姿势中,我们可以很容易地辨别出这是俯卧撑的动作。因而,文本信息对于理解视频中的人类动作有着至关重要的作用。相应地,学习到这样的文本信息对于动作识别任务精度的提升大有裨益。


以往工作通常将动作识别当做一个分类任务,试图直接从视频的训练中获取动作相关的语义信息。他们认为视频相关的语义特征信息可以直接通过强大的CNN模型,加上视频级的标签就可以直接训练得到。但近期研究表明,同时研究动作和动作实施者分割对于这两个任务都有很大的促进。

深度学习的方法已经在human parsing (Gong et al. 2017), pose estimation (Wang et al. 2019), semantic segmentation (Zhao et al. 2017), and scene recognition(Zhou et al. 2017; Wang et al. 2017)等领域取得了优异的表现。通过利用这些现有的技术学习视频中的文本信息来增强动作检测模型的能力成为了思路之一。论文作者设计了知识蒸馏机制来学习人和场景的文本知识,通过联合训练动作识别、人物解析、场景识别,是这三个任务联合工作,提供了无需额外手工注释的研究动作识别的新方法。

2.2 人体解析(human parsing)
人体解析是指将在图像中捕获的人分割成多个语义上一致的区域,例如, 身体部位和衣物。作为一种细粒度的语义分割任务,它比仅是寻找人体轮廓的人物分割更具挑战性。
人体解析对于以人为中心的分析非常重要,并且具有许多工业上的应用,例如,虚拟现实,视频监控和人类行为分析等。


人体解析常用的数据集:


3 方案原理


Knowledge Integration Networks (KINet)使用两个教师网络来指导主网络。两个教师网络目的在于提供假的ground truth给scene recognition和human parsing两个任务。

主网络包含三个分支,中间的基础分支是用来action recognition,另外两个分别设计用来scene recognition和human representation,引入了Cross Branch Integration (CBI)模块将辅助的知识融进中间的卷积特征和Action Knowledge Graph (AKG)来有效聚合高级的文本信息。

3.1 The Teacher Networks
3.1.1 Human parsing network
使用的数据集是LIP (Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. 2017 CVPR) 。

论文作者直接采用现有的PSPNet ( Pyramid scene parsing network. 2017 CVPR) 作为人体解析的teacher network,网络主体是DenseNet-121。

3.1.2 Scene recognition network
使用的数据集是Places365(Places: A10 million image database for scene recognition. 2017 PAMI),包含365个场景种类。

论文作者直接采用现有的ResNet152 作为teacher network的网络主体。

3.2 The Main Networks
论文使用Temporal Segment Network (TSN) 结构作为动作识别的网络框架。

三个分支共享low-level layers,原因在于:

1)low-level features are generalized over three tasks;
2)sharing features allow the three tasks to be trained more collaboratively with fewer parameters used;
higher level layers是三个独立的分支,并不共享参数,但是通过各种聚合机制交换信息。

3.3 Knowledge Integration Mechanism

论文的目标是设计一个高效的特征聚合方法来融合不同级别的文本知识,为此提出了一个两级的聚合机制,包括Cross Branch Integration (CBI) module 和 Action Knowledge Graph (AKG) method。

3.3.1 Cross Branch Integration (CBI)
CBI的目的在于将从两个辅助分支学习到的中间特征聚合到action recognition分支,进而实现模型融入了人和场景的信息。


如图,与action的特征图分别相乘后,BN层,之后类似resnet操作,再relu,之后三个特征图按通道级联,然后再通过一个1X1的卷积降低通道数,使得通道数和开始的一致,最后再一个类似resnet操作。

CBI模块可以应用到网络的任何一步。

3.3.2 Action Knowledge Graph (AKG)


在最后阶段,对每一个分支单独进行全局平均池化,得到三组同样大小的特征表示向量。每一组包含个特征向量Each group contains N seg feature vectors, 对应于 个输入帧,这里的是TSN中的视频片段数量。

然后对这些特征表示向量运用图卷积去建模相互之间的关系, 即action, scene和human segments之间的关系。

构建的图的节点总数为:

节点为:


运算为:

和我上次的GCN汇报一样。

3.4 Joint Learning
端到端联合训练,损失函数为:

4 实验效果
4.1 Kinetics-400数据集

4.2 UCF101 数据集

4.3 可视化

5 结论
文本信息的融入十分重要,本文设计了teacher网络来聚合人和场景的信息,取得了很好的效果,后期可以借鉴到动作检测上。

推荐阅读:
TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet数据集简介及下载分享(百度网盘)

Knowledge Integration Networks for Action Recognition AAAI 2020相关推荐

  1. 视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...

  2. PaddlePaddle飞桨论文复现营——3D Residual Networks for Action Recognition学习笔记

    PaddlePaddle飞桨论文复现营--3D Residual Networks for Action Recognition学习笔记 1 背景知识 1.1 C3D C3D是一种3D卷积提取视频特征 ...

  3. Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

    Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络 本文原创,欢迎转载 https://blog.csdn ...

  4. Two-Stream Convolutional Networks for Action Recognition in Videos算法笔记

    论文:Two-Stream Convolutional Networks for Action Recognition in Videos 链接:https://arxiv.org/abs/1406. ...

  5. 双流网络: Two-Stream Convolutional Networks for Action Recognition in Videos

    Contents Introduction Two-stream architecture for video recognition Evaluation Enlightenment Referen ...

  6. 【论文学习】Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos 原文地址 粗略翻译 摘要: 我们研究了视频中用于训练动作识别的深度 ...

  7. 【视频分类论文阅读】Two-Stream Convolutional Networks for Action Recognition in Videos

    论文是视频分类的开山之作,采用了一个双流网络,是空间流和事件流共同组成的,网络的具体实现都是CNN,空间流的输入是静止的图片,来获取物体形状大小等appearance信息,时间流的输入是多个从两帧之间 ...

  8. 【论文模型讲解】Two-Stream Convolutional Networks for Action Recognition in Videos

    文章目录 前言 0 摘要 1 Introduction 1.1 相关工作 2 用于视频识别的双流结构 3 光流卷积神经网络(时间流) 3.1 ConvNet 输入配置 4 实现细节 4.1 测试 4. ...

  9. 深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)

    这里写目录标题 视频的行为识别 前言 背景 内容组成 主要贡献 算法介绍 网络结构 双流(two stream)网络结构 空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...

最新文章

  1. 创建一个水平盒子java_盒子模型理解
  2. python * 与 ** 分别代表元组和字典
  3. 你也可以设计简单的内容管理系统
  4. Java 类的一些高级特征
  5. 爱迪尔 门锁接口文档_爱迪尔门锁系统接口函数(SDK)说明
  6. 搜索引擎新架构:与SQL不得不说的故事
  7. 编写自己的Arduino库
  8. gsu 2524 Frozen Rose-Heads
  9. java上传视频到七牛云_Java进阶学习:将文件上传到七牛云中
  10. 核心指导网络由任务编码器_指导新编码员的最佳做法
  11. 【白皮书分享】2020年度薪酬白皮书.pdf(附下载链接)
  12. Android之判断设备网络连接状态,并判断连接方式
  13. java 二分_java二分查找算法
  14. openmeeting开发心得及相关文档
  15. uniwebview按钮被无形遮挡问题
  16. php ming.dll文件下载,phpshao.dll文件下载
  17. meson和pkg-config
  18. 『单片机原理』程序存储器的结构
  19. windows7计算机启动修复怎么办,Win7电脑开机提示启动修复无法进入系统怎么办?...
  20. 软件设计模式与体系结构实验——2.1-1(2)(抽象)工厂模式的应用

热门文章

  1. Winform DataGridView修改数据源界面不刷新问题
  2. 一些gassian分布假设的,并假设均值依赖于隐藏层,方差固定的模型
  3. 数据段、代码段、堆栈段、BSS段
  4. HDOJ2026 ( 首字母变大写 ) 【水题】
  5. ADO.NET与ORM的比较(4):EntityFramework实现CRUD
  6. 多线程编程(1) - 认识等待函数 WaitForSingleObject
  7. 数字金融反欺诈技术名词表
  8. mysql8以上的连接配置
  9. Ubuntu中Qt5.7.0无法输入中文
  10. winform窗体对象 单例模式与泛型结合