点击我爱计算机视觉标星,更快获取CVML新技术


本文作者为百度视觉技术部林天威,转载自知乎Video Analysis 论文笔记专栏:

https://zhuanlan.zhihu.com/p/75444151

这篇笔记主要介绍我们团队(百度视觉技术部VideoPlus组)发表于ICCV 2019上的工作:"BMN : Boundary-Matching Network for Temporal Action Proposal Generation"[1]。

这篇论文主要针对我去年所发表的BSN[2]方法所存在的一些短板进行了改进,提出了边界匹配网络(Boundary-Matching Network),能够高效地同时给密集分布的大量时序动作提名生成高质量的置信度分数,在算法效率和算法效果上均有明显提升。

基于该方法,我们获得了今年ActivityNet Challenge的时序动作检测任务和时序动作提名任务的两项冠军。基于PaddlePaddle的算法代码也将于近期开源。

时序动作提名生成任务的目的是给未裁剪的长视频生成一定数量的时序动作提名,一个时序提名即是一个可能包含动作片段的时序区间(从开始边界到结束边界),通常采用一定提名数量下的召回率指标来衡量算法效果。我们认为高质量的时序动作提名应该具备几点特质:

(1)灵活的时序长度

(2)精确的时序边界

(3)可靠的置信度分数。

现有的基于滑窗或anchor的方法或是基于聚类的方法都不能同时在这几个方面做好。为了解决这几个难点,[2]中提出了边界敏感网路-BSN,下面首先对BSN方法进行简单的回顾。

一、BSN方法回顾

关于BSN[2]方法,我之前也写过论文笔记,如果不了解的同学可以先看一下。

简单来说,在BSN方法中,我们首先去定位时序动作片段的边界(开始节点和结束节点),再将边界节点直接结合成时序提名,然后对每个候选时序提名,基于动作置信度分数序列来提取一个32维度的proposal-level的特征,最后基于所提取的proposal-level的特征来评估时序提名的置信度。

下面对BSN方法的优点和缺点进行一下讨论。

优点:

  • 框架:提出了一种全新的且非常有效的时序提名生成框架,能够产生满足(1)时长灵活(2)边界准确(3)评分可靠的时序动作提名;

  • 灵活性:BSN方法的模块非常简单且灵活,能够灵活地应用于不同的垂类场景。

缺点:

  • 效率不够高:提名特征提取以及置信度评估的过程是对每个时序提名逐个进行的,虽然可以在一定程度上做并行加速,但总体上还是效率比较差;

  • 语义信息丰富性不足:为了保证提名特征提取过程的效率,BSN中所设计的32维提名特征是比较简单的,但也限制了置信度评估模块从特征中获得更加丰富的语义信息;

  • 多阶段:BSN方法是一个多阶段的方法,没有将几部分网络联合优化。

为了优化这些缺点,我们所期盼的是在一个统一的网络中同时高效的产生时序概率序列以及所以时序提名的置信度分数,且在这个过程中还要进一步提升语义信息的丰富性。

基于anchor的方法(如SSAD[3] )能够通过anchor机制,将大量anchor与特征图相关联,从而可以直接通过卷积层来生成每个anchor的置信度、边界偏移量进行预测。

然而,BSN中并没有预定义anchor,而是自底向上地生成更加灵活多变的时序提名,因此anchor机制并不适用。

因此,为了解决BSN方法中所存在的缺陷,我们在这篇论文中提出了一种新的时序提名置信度评估机制-边界匹配机制(Boundary-Matching mechanism, BM mechanism),以及基于边界匹配机制的边界匹配网络(Boundary-Matching Network, BMN):

BMN网络能够同时生成与BSN中类似的一维边界概率序列,以及二维的BM置信度图来密集的评估所有可能存在的时序提名的置信度分数。

二、边界匹配机制(Boundary-Matching mechansim)

BM置信度图

首先介绍一下什么是BM置信度图。此处,我们将一个时序提名定义为一个开始边界和一个结束边界所构成的边界匹配对。

然后我们按照时序提名开始边界的位置以及时序提名的长度将所有可能存在的时序提名结合成一个二维的边界匹配图。

如下图所示,在这个图上的每一列上的时序提名具有相同的开始时间,而每一行上的时序提名具有相同的时序长度。

此外,由于右下角这个三角形区域中的时序提名的结束时间超出了视频的范围,因此在训练和测试时不被纳入考虑。

因此,这张二维的边界匹配图就能够表示所有潜在存在的时序提名。

而在BM置信度图中,每个点所代表的数值就是其所对应的时序提名的置信度分数。

因此,我们可以通过生成BM置信度图来同时给所有时序提名生成置信度分数。

我们将BM置信度图记作 ,此处 为输入时序特征序列的长度, 则为最大的时序提名长度,该值基于数据集来确定。

为了从时序特征序列来生成所需要的BM置信度图,我们需要从时序特征序列先生成BM特征图,再基于BM特征图来生成BM置信度图:

此处, 是时序特征序列的通道数, 则是每个时序提名的特征采样点数。

BM特征图的生成

首先介绍从时序特征序列到BM特征图的生成过程,这也是这篇文章的核心部分。

具体而言,对于 大小的边界匹配图上的任意一个时序提名 ,要在其时序范围内,从时序特征序列中采样 个点,构成 作为该提名的特征。

我们希望这个采样过程是准确且高效的,即所有提名的特征采样过程是同时完成的。我们所提出的方法如下:

对于时序提名 ,我们在其扩展的时序范围 内采样N个点,构造一个采样矩阵 。其中,对于第n个采样点 , 对应的定义为:

然后,我们在时序维度上对时序特征序列 和 进行点乘,从而得到 

可以看出,这实际上是一个通过点乘来实现线性插值的过程,下图更形象地表示这个过程:

最后,通过将采样矩阵从扩展到 ,并进行 和 在时序维度上的点乘,即可以得到BM特征图 

因此,通过矩阵点乘的方式,我们可以非常高效地同时给所有时序提名生成准确对应的特征表示。

此外,直接从特征序列中采样得到的提名特征表示比起从一维概率序列中采样得到的概率序列具有更丰富的语义信息。

在论文中,我们将这个从时序特征序列采样得到BM特征图的过程记作BM layer。

从BM特征图生成BM置信度图

这个过程即 。此处我们采用了3D卷积层来消除采样维度 ,再通过几个2D卷积层来生成最终的结果。

此处的2D卷积实质上是获得了每个时序提名 周围几个提名的context信息,丰富了时序提名的context信息。

BM置信度图的训练方式

在训练中,我们采用BM标签图 来作为BM置信度图的监督,此处 是对应时序提名与真值之间的最大IoU重叠度。

为了达到更好的效果,训练中我们生成了两种BM置信度图,分别采用回归损失和加权二分类损失训练,记作 和 

下面给出ActivityNet-1.3数据集验证集上的一个可视化结果作为示例,可以看出两种置信度分数存在一定互补性,在测试时取两者的乘积作为最终的置信度分数。

三、边界匹配网络(Boundary-Matching Network)

基于我们所提出的边界匹配机制,我们提出了边界匹配网络BMN,整个方法的框架如下图一所示,网络具体的结构则如下表所示。

BMN网络结构图

BMN网络配置表

可以看出,BMN主要包括3个模块。基础模块包括两个1维卷积层,其作用是作为backbone,处理输入的特征序列,并输出被后续两个模块所共享的时序特征序列。

时序评估模块包含两个1d卷积层,输出开始概率序列和结束概率序列,用于后续的提名生成。

提名评估模块,则包含了前面所介绍的BM layer,一个3d卷积层以及3个2d卷积层,最终输出为BM置信度图。

采用该网络生成时序边界概率序列后,我们采用与BSN中相同的方式产生候选时序提名,并从同时生成的二维置信度图中取出时序提名对应的置信度分数用于最后的时序提名排序。

最后,我们同样采用了Soft-NMS方法来去除了冗余结果。

四、实验

BMN方法在THUMOS-14和ActivityNet-1.3数据集上都获得了明显的效果提升,这里就不详细介绍了。此处主要介绍一下BMN和BSN的对比实验。

Ablation comparison between BSN and BMN in terms of relative AR improvement (%) vs AN curve on validation set of ActivityNet-1.3, where relative AR improvement is calculated based on BSN-TEM results.

主要从性能表现和算法效率上讲一下对比实验的结论:

  • 性能:BMN中的提名评估模块在单独训练的情况下也要比BSN中的提名评估模块效果好;

  • 性能:BMN中联合训练两个模块能带来显著的性能提升;

  • 效率:BSN算法在inference时大部分时间都耗费在了提名特征构造的过程中了;

  • 效率:BMN通过非常高效的提名特征采样,效率上比BSN有非常明显的提升。

五、讨论

本文的主要贡献是通过引入一种全新的时序提名评估机制以及高效的特征采样方式,来提升了BSN方法的性能和效率。

这个采样方式之所以高效,是因为每次前向时采样矩阵是不变的,因此可以预先计算得到,实质上算是用空间换时间吧。

另外,我们在论文中所构建的BMN模型其实是非常简单的,在网络设计和优化方面还存在着不小的提高空间,欢迎大家基于BMN方法再做改进,我们将尽快开源基于PaddlePaddle的代码。

题外话:

因为忙和自己的惰性,专栏也好久没有更新了,希望之后自己能努力保持一定的更新,一方面通过输出的方式读论文能够加深自己对论文的理解,另外一方面写作表达能力、把问题讲清楚的能力真的很重要,只能多写多练。

最后,我们部门在图像和视频相关的各个主要研究方向上基本都有一定投入和相关业务,欢迎感兴趣的应届校招同学发简历到 lintianwei01@baidu.com 参加内推。

参考文献

[1] T. Lin, X. Liu, X. Li, et al. BMN: Boundary-Matching Network for Temporal Action Proposal Generation. arXiv preprint arXiv:1907.09702, 2019.

[2] T. Lin, X. Zhao, and S. Haisheng. Bsn: Boundary sensitive network for temporal action proposal generation. In Euro- pean Conference on Computer Vision, 2018.

[3] T. Lin, X. Zhao, and Z. Shou. Single shot temporal action detection. In Proceedings of the 2017 ACM on Multimedia Conference, pages 988–996. ACM, 2017.


视频内容理解交流群

关注最新最前沿的视频内容理解、动作检测识别技术,欢迎加入专业交流群,扫码添加CV君拉你入群,

(请务必注明:视频理解)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

ICCV 2019 | ActivityNet 挑战赛冠军方案—时序动作提名,边界匹配网络详解相关推荐

  1. ICCV 2019 VisDrone挑战赛冠军方案解读

    点击我爱计算机视觉标星,更快获取CVML新技术 机器之心发布 作者:罗志鹏 近日,在 ICCV 2019 Workshop 举办的 Vision Meets Drone: A Challenge(简称 ...

  2. CVPR 2020 夜间目标检测挑战赛冠军方案解读

    ↑ 点击蓝字 关注视学算法 来源丨DeepBlue深兰科技 编辑丨极市平台 在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团 ...

  3. CVPR2020 夜间目标检测挑战赛冠军方案解读

    本文转载自DeepBlue深兰科技. 在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团队深兰科技的 DeepBlueAI 团 ...

  4. AAAI 2021 | 商汤提出BSN++: 时序动作提名生成网络

    摘要 · 看点 在 AAAI 2021 上,商汤科技城市计算研发团队提出了基于互补边界回归和尺度平衡交互建模的时序动作提名生成网络(BSN++),针对现有方法存在大量边界噪声.缺乏提名之间的关系建模以 ...

  5. CVPR 2021 | 商汤提出最强时序动作提名修正网络:TCANet

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:商汤学术 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 摘 ...

  6. 用于时序动作提名生成任务,爱奇艺提出BC-GNN图神经网络 | ECCV 2020

    时序动作提名生成任务可以从未处理的长视频中定位出包含动作内容的片段,对视频理解以及时序行为检测任务等有着重要的作用.随着视频数量的激增以及视频内容的丰富,对时序动作提名算法的关注和需求也得到巨大提升. ...

  7. 绝地求生服务器维护啥意思,2019绝地求生7月10日正式服维护内容详解介绍

    2019绝地求生7月10日正式服维护内容详解介绍 2019-07-10 09:13:52来源:pubg官方微博编辑:君辞-v-评论(0) 2019绝地求生7月10日正式服维护更新了什么内容?游戏在今天 ...

  8. ICCV 2021 口罩人物身份鉴别全球挑战赛冠军方案分享

    作者丨阿里云多媒体 AI 团队 编辑丨极市平台 导读 今年阿里云多媒体 AI 团队参加了 MFR 口罩人物身份鉴别全球挑战赛,并在总共5个赛道中,一举拿下1个冠军.1个亚军和2个季军.本文为该团队的冠 ...

  9. CVPR 2019 CLIC 图像压缩挑战赛冠军方案解读

    点击我爱计算机视觉标星,更快获取CVML新技术 导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术.深度学习在该领域的成功运用,已经引起了不少IT巨头的关注.图鸭科技是 ...

最新文章

  1. phpadmin试用
  2. AJAX培训第二讲:使用AJAX框架(上)
  3. django Cookie,Session和自定义分页
  4. python一切皆对象的理解_在 Python 中万物皆对象
  5. 躺平设计家“造风” 阿里家装数字化加速“入海”
  6. BP反向传播矩阵推导图示详解​
  7. 图片怎么等比缩放_mac图像缩放工具Teorex iResizer
  8. 重新想象 Windows 8 Store Apps (4) - 控件之提示控件: ProgressRing; 范围控件: ProgressBar, Slider...
  9. sybase修改密码
  10. python的requests模块功能_requests模块的入门使用
  11. java利用数组随机抽取幸运观众_java利用数组随机抽取幸运观众
  12. JavaScript浏览器对象模型概述(1)
  13. 游戏开发要掌握的数学物理知识
  14. java堆栈方法区_java堆栈方法区详解
  15. 0到100之间的阶乘linux算法,零基础学算法-阶乘
  16. win10恢复经典开始菜单_Win10 10月更新发布!全新开始菜单来了,这次你敢更新吗...
  17. 串之Ukkonen、Rabin_karp算法
  18. Preference的用法
  19. 快速Linux重装XP系统
  20. 游戏开发新手入门之Windows编程

热门文章

  1. 【小程序】【Tips】image 组件中 null 和 undefined 的区别和对策
  2. python列表元素下标是什么_python列表中元素插入位置总结
  3. 用计算机解决问题听课笔记,《计算机解决问题的过程》的教学设计
  4. linux usb不识别,求助:USB无法识别
  5. 帝国cms如何安装php模板,2020帝国cms模板安装教程详细介绍
  6. go 语言ase ecb加密_Go技术日报(20201112)
  7. iPhone清理喇叭灰尘_厉害了,iPhone 专用的网购商品历史最低价查询工具
  8. thinkcell插件_PPT大神私藏的5款插件,用好它们,小白也能快速做出精美的PPT
  9. redis搭建集群(非主从)版本5.0
  10. sqlserver连接oracle(通过ODBC)