©作者|童湛

学校|南京大学硕士生

研究方向|视频理解

转自:PaperWeekly

本文将介绍我们组 NJU-MCG 在行为识别(Action Recognition)领域被 CVPR 2021 接收的一篇工作。

论文标题:

TDN: Temporal Difference Networks for Efficient Action Recognition

论文链接:

https://arxiv.org/abs/2012.10071

代码链接:

https://github.com/MCG-NJU/TDN

任务介绍

动作识别(Action Recognition):对给定剪裁过视频(Trimmed Video)进行分类,识别这段视频中人物的动作。目前的主流方法有 2D-based(TSN, TSM, TEINet, etc.)和 3D-based(I3D, SlowFast, X3D)。

动作识别作为视频领域的基础任务,常常作为视频领域其他 high-level task/downstream task 的 backbone,去提取 video-level or clip-level 的视频特征。

研究动机

目前 3D-based 的方法在大规模的 scene-based 的数据集(如 kinetics)上相对于 2D 的方法取得了更好的效果,但是 3D-based 也存在一些明显的问题:

  • 3D-based 的网络参数量大,计算开销大,训练的 scheduler 更长,inference latency 明显慢于 2D-based 的方法。

  • 3D 卷积其实并不能很好得学到时序上信息的变化,而且 3D 卷积学出来的时序 Kernel 的 weight 的分布基本一致,更多的还是对时序上的信息做一种  smooth aggregation。这一点在我们组之前的工作 TANet [1] 中有比较详细的讨论,大家有兴趣也可以参考这篇 TANet [2] 的解读文章。也基于此,3D-based 的网络在 Something-Something 这种对时序信息比较敏感的 video 数据集上并不能取得很好的效果(得靠 Kinetics 的 pre-train来提点 :)

基于以上几点,我们组最近一直在探索更高效的 2D-based 的时序建模方法,提出了包括 TSN,TEINet,TEA,TAM 等轻量级的时序 video backbone。

我们今天要介绍的这篇工作 TDN 的研究动机也很直接明了:我们能不能将时序上运动的变化显式得提取出来然后加入到网络中呢?

最早在 14 年 VGG 就提出了大名鼎鼎的 Two-Stream [3] 网络,通过将光流(Optical Flow)信息做为输入去提取时序上的运动信息。但是 Two-Stream 网络需要两个独立分离的 Backbone,计算量直接翻倍,而且提取光流也需要巨大的计算开销。

所以我们提出了 Temporal Difference Network(TDN)这种结构,尝试通过 Difference 这种简单的操作去强制提取出时序信息中运动的变化,然后补充到正常的 RGB 网络中去,在不增加过多的计算量的前提下去更高效得进行时序建模。

下面简单介绍一下我们的方法和实验结果。

具体方法

▲ TDN 的整体结构图

我们的 TDN 是一个 Two-level 的结构,其主要包含短时和长时两个模块——Short-term temporal difference module(S-TDM)和 Long-term temporal difference module(L-TDM)

▲ S-TDM 和 L-TDM 的网络结构

短时建模(S-TDM):首先,我们还是参考 TSN 的采样方式,在整个 Video-level 上均匀分段(segment)进行采样。在网络的前一个阶段,我们希望可以在段内融合局部的运动变化信息,所以我们提取原始 RGB 帧间的 difference 作为局部运动变化的一种表征,然后 CNN 去进一步提取这种运动信息,具体公式如下:

长时建模(L-TDM):相对于之前 S-TDM 的段内 frame-wise 形式的时序建模,在网络的后一个阶段,我们希望可以对段间的运动变化信息进行增强,去放大运动增强。所以我们参考 TEINet 的形式,设计了一种基于 feature-difference 的通道 attention 增强方法。同时,为了提升最后的效果,我们还增加了 multi-scale 和 bidirectional 的结构。这部分的具体公式如下:

实验结果

这里我们列出 Kinetics-400 和 Something-Something V1 和 V2 上的实验结果,对 TDN 进行分析与验证。

▲ 在 Something-Something V1 上,TDN 与其他 SOTA 方法在计算量和精度上的对比

▲ 在Something-Something V1和V2数据集上,TDN与其他方法的比较

在 Something-Something V1 和 V2 这种对时序运动信息敏感的数据集上,TDN 取得了56.8%(Sth V1)和68.2%(Sth V2)的 Top-1 精度(one-clip, center-crop testing scheme),明显超出了之前的所有方法,取得新的 state-of-the-art。

▲ 在Kinetics-400数据集上,TDN与其他SOTA方法进行比较。

上表列出了 TDN 在 Kinetics-400 数据集上与其他 SOTA 方法进行比较。由于 Kinetics 是一种 scene-based 的数据集,所以时序上运动信息的变化不如 Something-Something 敏感和重要。

但是在计算量较低的条件下,TDN 仍能取得了非常有竞争力的效果,Top-1 精度基本与目前 3D-based 的方法(SlowFast, X3D)的最好结果持平,同时我们还取得了最高的 Top-5 精度(94.4%)(ten-clip, three-crop testing scheme)。

讨论

其实在 Kinetics-400 数据集上,3D-based 方法采用的 dense 采样的方式,只能关注到整个视频的一小段 clip,而 TDN 参考 TSN 进行全局稀疏的采样,可以进行 video-level 的时序建模。从 one-clip, center-crop 这种单个view改为 ten-clip, three-crop 这种30 个 view的测试方法,3D-based 方法会有 8-10 个点的提升,TDN 只有 2-3 个点的提升。

但反过来,在单个 view 的 testing scheme 下,TDN 结果将会大幅度领先于 3D-based 方法。而这种单个 view 的采样方式能够在极低的计算代价下,取得比较好的结果,在工业界的现实场景下也更加实用和有意义。

总结

针对视频数据在时序上的动态特性,我们提出了一种高效的时序差分网络(Temporal Difference Network, TDN),通过 Difference 这种简单的操作,去显式得提取出视频中复杂精细的运动变化,在不增加过多的计算量的前提下去更高效得进行时序建模,并且我们通过实验在各个数据集上证明了 TDN 效果。更多方法中的细节,Ablation study 和实验可视化可以参考我们的论文。

参考文献

[1] https://arxiv.org/abs/2005.06803

[2] https://zhuanlan.zhihu.com/p/150147794

[3] https://arxiv.org/abs/1406.2199

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

CVPR 2021 | 利用时序差分进行动作识别的最新Backbone—TDN相关推荐

  1. VALSE学习(十二):视频时序建模和动作识别

    VALSE2019 王利民 南京大学 一.基于视频的时序建模和动作识别方法 当前视频行为识别主要是在三种场景: In the Lab In TV,Movies In web videos 视频动作识别 ...

  2. CVPR 2021 论文大盘点-人员重识别篇

    关注公众号,发现CV技术之美 本篇文章总结人员重识别相关论文,包含无监督人员重识别,基于视频.部分身体的行人重识别,可见光红外人员重识别,域泛化人员重识别,换装人员重识别,行人检索等等.共计 26篇. ...

  3. 【AI】利用简单神经网络做动作识别——基于coco关键点

    前言 coco数据集包含了关键点检测,如果想利用提取到的这些关键点做行为识别,该怎么办呢?下文主要通过搭建一个简单神经网络(多层感知机)来做关键点的分类. 任务:假如需要对打电话和玩手机的动作做分类. ...

  4. CVPR 2021 | WebFace260M:百万级人脸识别数据集和基准

    本文介绍一个大规模的人脸识别数据集:WebFace260M,由 4M identities(身份)和 260M 人脸组成,为百万级深度人脸清洗和识别提供了很好的资源,如图1和Tab.1所示. 又通过提 ...

  5. CVPR 2021 目标检测、跟踪和姿态估计最新进展分享

    微软亚洲研究院 2021 CVPR 论文分享会已完美结束.今日起,CV君将根据不同类别的分享主题进行逐一分享,欢迎查收! 今日分享的主题为:目标检测.跟踪和姿态估计 论文一 论文名称:Bottom-U ...

  6. CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布...

    本文转自机器之心. 昨晚,CVPR 2021 公布了最佳论文.最佳学生论文等奖项.德国马普所和蒂宾根大学的研究者获得了最佳论文奖,加州理工和西北大学的研究者获得最佳学生论文奖.此外,FAIR 包括何恺 ...

  7. 超110篇!CVPR 2021最全GAN论文汇总梳理!

     戳我,查看GAN的系列专辑~! 下述论文已分类打包好!超110篇,事实上仍有一些GAN论文未被包含入内--可见GAN在CVPR 2021仍十分火热. 后台回复 2021GAN (长按红字.选中复制) ...

  8. 66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVer ...

  9. 基于IndRNN的手机传感器动作识别

    近日,来自山东大学和电子科技大学的研究者提出了基于 IndRNN 模型利用手机传感器实现动作识别的网络,该模型解决了现有 RNN 模型的梯度消失和梯度爆炸问题,一定程度上实现了动作识别的用户独立性,同 ...

最新文章

  1. 什么样的技术人员更容易接到软件开发项目?(论干私活儿)
  2. 1986年讲MDCT的基础性论文
  3. X86汇编——简易通讯录
  4. web developer tips (28):CSS class 也支持“转到定义”
  5. 一个java处理JSON格式数据的通用类(三)
  6. 为什么企业需要采用混合云战略?
  7. C 语言实例 - 判断三边能否构成三角形
  8. SDUT 2766 小明传奇2
  9. 使用rvm来管理ruby版本
  10. Ubuntu18.04 Xfce桌面环境配置中文输入法
  11. Tensorflow深度学习入门(5)——优化训练MNIST数据和调用训练模型识别图片
  12. head first 设计模式源码
  13. 如何将png格式的图片缩小?png怎么缩小kb?
  14. 好用全面的电商评论文本情感分析实战教程
  15. uboat-slitaz 中文 美化 uboat定制版 基于xorg
  16. 用 NetworkX + Gephi + Nebula Graph 分析<权力的游戏>人物关系(上篇)
  17. 半导体公司----仙童、英特尔、AMD
  18. 重学Java(007)—— Java基础知识(方法的练习,三个小例子、总结方法的注意事项)
  19. 如何在WPS的word中使用 Mathpix Snipping 和 MathType进行快速输入数学公式
  20. 手机便签待办提醒事项到期不提醒怎么解决?

热门文章

  1. Linux 并发服务器雏形总结
  2. 高性能集群软件Keepalived之基础知识篇
  3. ASP.NET MVC 5 - 验证编辑方法(Edit method)和编辑视图(Edit view)
  4. 教你用ERD轻松修改系统登录密码
  5. c++ 求四边形面积和周长_C语言编程题 题目:任意输入4个点,求围成四边形的面积是多少?...
  6. 计算机丢失filter.dll,AxCoFilter.dll
  7. tensorflow与keras关系
  8. virtualenv 安装与使用linux下(记录一下)
  9. 最好机器学习NLP和python教程
  10. f, (ax1, ax2) = plt.subplots(1, 2, figsize=(20,10)) //该句搭框架,确定输出1行x2列的图象,图片尺寸为20x10英寸