转自:http://blog.csdn.net/wzmsltw/article/details/65437295

注:本文首发在微信公众号-极市平台。如需转载,请联系微信Extreme-Vision

这篇文章主要介绍Zheng Shou在CVPR2016上的工作”Temporal action localization in untrimmed videos via multi-stage cnns”[1]。之后会再介绍他在CVPR2017 上的新工作。

首先介绍一下这篇文章要解决的问题。视频中的人体行为识别主要包括两个方向:Action Recognition 以及 Temporal Action Localization, 分别进行简单的介绍:

  1. Action Recognition的目的为判断一个已经分割好的短视频片段的类别。特点是简化了问题,一般使用的数据库都先将动作分割好了,一个视频片断中包含一段明确的动作,时间较短(几秒钟)且有唯一确定的label。所以也可以看作是输入为视频,输出为动作标签的多分类问题。常用数据库包括UCF101,HMDB51等。
  2. Temporal Action Localization 则不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)。特点是需要处理较长的,未分割的视频。且视频通常有较多干扰,目标动作一般只占视频的一小部分。常用数据库包括THUMOS2014/2015, ActivityNet等。

这篇文章主要解决Temporal Action Localization的问题。SCNN指segment based CNN,即基于视频片段的CNN网络。文章的代码见SCNN github地址。

模型介绍

模型框架

如图所示即为SCNN的整体模型框架。主要包括三个部分,1)多尺度视频片段的生成;2)多阶段SCNN;3)后处理。下面分别进行介绍

  1. 多尺度视频片段生成

SCNN模型框架的第一步就是生成候选的视频片段,之后拿这些片段作为下一步的输入。在SCNN中采用了划窗方法产生视频片段,包括多个大小的窗口:16,32,64,128,256,512, 划窗的重叠为75%。在得到视频片段后,对其进行平均采样16帧视频,从而使得输出的segment的长度均为16。在生成训练数据时,同时还记录和segment和ground truth instance之间的最大重叠度(IoU)以及类别(即如果存在多个重叠的ground truth,取重叠度最大的那个)。

  1. 多阶段SCNN

SCNN 共有3个阶段:proposal, classification and localization network。三者均为结构相同的C3D network[2],只有最后一层全连接层根据任务不同而有不同的长度。三者的输入均为上一步得到的segment。

  • Proposal Network: 输出为两类,即预测该segment是动作的概率及是背景的概率(action or not)。训练时将IoU大于0.7的作为正样本(动作),小于0.3的作为负样本(背景),对负样本进行采样使得正负样本比例均衡。采用softmax loss进行训练。

  • classification Network: 输出为K+1个类别(包括背景类)的分数, 这个网络被用来初始化localization network, 仅在训练阶段使用,在测试阶段不使用。训练时同样将IoU大于0.7的作为正样本(K类动作),小于0.3的作为背景类,对背景类动作进行采样使得背景类动作的数量和K类动作数量的平均值相近。训练时同样采用softmax loss。

  • Localization Network:输出为K+1个类别(包括背景类)的分数,这个分数应该算做是该segment是某类动作的置信度分数。在训练时localization network用训练好的classification network做初始化,使用与classification network 相同的数据集,但增加了基于IoU分数的overlap Loss.其loss function为:

L=Lsoftmax+λ⋅Loverlap

    λ为比例系数,SCNN中设为1。overlap loss为:

Loverlap=1N∑n⎛⎝0.5⋅⎛⎝(P(kn)n)2(vn)α−1⎞⎠⋅[kn>0]⎞⎠

    其中kn为该segment的真实类别,vn为其IoU, Pn为localization network 的输出分数。α 为超参数。 这个loss的作用是根据IoU的分数调整预测结果,使得输出的分数不仅能对动作的类别进行分类,还能够估计其与ground truth的重叠程度。有利于后续的NMS。

  • 测试时的计算流程: 在测试时,只使用proposal 及 localization network。对于每个segment,先用proposal network计算它是动作的概率,若这个概率高于阈值(0.7),则作为一个候选segment进入下一个阶段用localization network计算置信度分数,低于阈值的segment都会被舍弃。

    1. 后处理

后处理是在测试阶段进行的。使用的方法是基于 Pl(localization network的输出分数)进行非极大化抑制(NMS)来移除重叠,在SCNN中,NMS的阈值被设置为0.1。下图就是NMS的一个例子,对于时序上重叠的动作,通过NMS去除分数低的,保留分数高的。 

实验结果

在测评结果时,temporal action localization 问题一般使用的是mAP指标,即各个动作类别的Average Precision(AP)的平均。当一个动作实例与ground truth的重叠度IoU大于阈值,且类别正确时,被视为正确的预测。常用的阈值为0.5,或者同时用多个阈值来进行比较。SCNN分别在MEXaction2以及THUMOS 2014上进行了实验,其结果如下表所示。

可以看出SCNN均获得了不错的效果,是当时state-of-the-art的结果。

个人讨论

在SCNN中,划窗+Proposal Network 构成了算法的proposal部分,这里如果不用Proposal network,直接用划窗结果进行预测的话mAP会下降大概2个百分点(论文实验中给出),proposal network的主要作用是去除一些背景片段。

实际上,proposal的生成也是temporal action localization问题中的难点,这点与Object Detection中的Proposal 生成(R-CNN中的region proposal)类似。一个好的proposal 算法能够大大提高模型的效果。有论文专门讨论这个问题,比如Deep Action Proposal [3]等。

此外,SCNN中segment的大小是通过划窗确定的,很可能不够准确。目前CVPR2017上出现的几篇新的论文[4,5]都对这方面有所讨论,并采用了不同的方法提高segment proposal的边界精度。目前在THUMOS数据集上最好的精度大概比SCNN高十个百分点[4].

参考文献

[1] Shou Z, Wang D, Chang S F. Temporal action localization in untrimmed videos via multi-stage cnns[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1049-1058.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 4489-4497.

[3] Escorcia V, Heilbron F C, Niebles J C, et al. Daps: Deep action proposals for action understanding[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 768-784.

[4] Xiong Y, Zhao Y, Wang L, et al. A Pursuit of Temporal Accuracy in General Activity Detection[J]. arXiv preprint arXiv:1703.02716, 2017.

[5] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.

SCNN-用于时序动作定位的多阶段3D卷积网络相关推荐

  1. CVPR 2021 | 腾讯优图20篇论文入选,含人脸识别、时序动作定位、视频动作分割等领域...

    编辑丨腾讯优图AI开放平台 计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共7015篇有效投稿,最终有1663篇突出重围被录取,录用率约为23.7%.本次,腾讯优 ...

  2. 百度飞将BMN时序动作定位框架 | 数据准备与训练指南 (上)

    一.介绍 BMN模型是百度自研,2019年ActivityNet夺冠方案,为视频动作定位问题中proposal的生成提供高效的解决方案. 简单说,视频的时序动作定位就是给一段视频,分析出从xxx秒到x ...

  3. 时序动作定位 | ActionFormer: 使用Transformers动作时刻

    目录 ActionFormer: Localizing Moments of Actions with Transformers 摘要 3 ActionFormer: A Simple Transfo ...

  4. 用于时序动作提名生成任务,爱奇艺提出BC-GNN图神经网络 | ECCV 2020

    时序动作提名生成任务可以从未处理的长视频中定位出包含动作内容的片段,对视频理解以及时序行为检测任务等有着重要的作用.随着视频数量的激增以及视频内容的丰富,对时序动作提名算法的关注和需求也得到巨大提升. ...

  5. ICCV2021 新增数据集汇总 | 含时序动作定位、时空行为检测、弱光目标检测等!...

    点击下方"计算机视觉联盟",一起进步!重磅干货,第一时间送达 ICCV 2021 数据集汇总 https://github.com/DWCTOD/ICCV2021-Papers-w ...

  6. 时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)

    这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...

  7. 时序动作定位 | 面向时序行为定位任务的无监督预训练

    ​论文链接:https://arxiv.org/abs/2203.13609 代码地址:https://github.com/zhang-can/UP-TAL 主要贡献: 首次面向时序行为定位任务进行 ...

  8. 时序动作定位 | RSKP:基于代表片段知识传播的弱监督时间动作定位(CVPR 2022)

    关于<Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagatio ...

  9. 时序动作定位|使用 ‘注意力机制’ 的弱监督时序动作定位顶会论文理解笔记(Weakly-Supervised Temporal Action Localization)

    目录 Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018) W-TALC: Weakl ...

最新文章

  1. 《从Excel到R 数据分析进阶指南》一3.4 更改数据格式
  2. 基于Socket的java网络编程
  3. the title and note has maintained the same text type
  4. 【数据结构】——冒泡排序、插入排序、选择排序
  5. 同时画多个饼图_手帐术 | 这个神奇饼图里,藏着时间管理的小秘诀
  6. CF1365G Secure Password(构造,交互,二进制分组)
  7. android7.0提示定位,解决android7.0上某些PopuWindow显示位置不正确的问题
  8. 深度学习(二十一)基于FCN的图像语义分割
  9. 关于TCP协议的几个问题
  10. git由于网络原因导致 please make sure you have the correct access rights and the repository exists
  11. GCC的内嵌汇编语法 ATT汇编语言语法
  12. 俄罗斯网络间谍被指攻击斯洛伐克政府长达数月
  13. 微信开发之(四)获取关注后的图文推送信息
  14. RabbitMQ学习——基本概念
  15. 从球衣了解“红魔”曼联历史
  16. mian()方法详细分析(面向对象的体现)
  17. 董老师又双叒叕送书啦,8本《Python数据分析、挖掘与可视化(慕课版)》
  18. Unity Input的手柄映射
  19. unity3D游戏开发十五之NGUI二
  20. obj-y, obj-m

热门文章

  1. 苹果财报揭露四大秘密 万亿市值只差1%
  2. graphpad怎么修改图片大小_GraphPad Prism 绘制箱形图美化技巧
  3. EDA01--Linux简介与基本指令入门
  4. linux mv 文件夹不存在,linux 命令 mv abc.txt ../ 后文件不见了?
  5. Three.js基础入门系列(一)
  6. 《鲁棒控制——线性矩阵不等式处理方法》(俞立)第二、三、四章学习笔记
  7. (stable_sort稳定排序)阿罗拉联盟赛
  8. Python成长之路【第九篇】:Python基础之面向对象
  9. 常见模拟电路设计 二 (含仿真) : 单片机ADC测量正负电压电路设计
  10. 自己的服务器连接教务系统,勤哲Excel服务器做中学教务管理系统