Background Suppression Network for Weakly-supervised Temporal Action Localization

提出问题:

弱监督视频动作定位中,先前的方法聚合帧级别的类分数,以产生视频级别的预测并从视频级别的动作中学习。此方法无法完全模拟问题,因为背景帧被迫错误地分类为行动类别,无法准确预测视频级标签。

做了什么:

设计了背景抑制网络(BaSNet),该网络引入了背景的辅助类,并具有带有非对称度量训练策略的两分支权重共享体系结构。这使BaSNet可以抑制来自背景帧的激活,从而提高定位性能。广泛的实验证明了BaSNet的效率及其在最流行的基准THUMOS14和ActivityNet上优于最新方法的优越性

BaSNet:有两条分支Base branch and Suppression branch

怎么做的:

  1. Suppression分支包含一个过滤模块,该模块学习过滤出背景帧以最终抑制CAS中来自它们的激活
  2. 他们的培训目标是不同的。 Base分支的目的是将插入视频分类为其原始动作类和背景类的样本。另一方面,训练带有过滤模块的Suppression分支以最小化背景类得分,而背景类得分与原始动作类的目标相同。权重共享策略可以防止分支在给出相同输入时同时满足其两个目标。因此,过滤模块是解决背景的唯一关键,并且经过培训可以抑制来自背景框架的激活,从而同时实现两个目标。这减少了背景帧的干扰并提高了动作定位性能

特征提取:

由于存储器限制,我们首先将每个输入视频vnv_nvn​分成16帧不重叠的LnL_nLn​段,即vn={Sn,l}l=1Lnv_n = \{S_{n,l} \}^{Ln}_{l = 1}vn​={Sn,l​}l=1Ln​。为了应对视频长度的较大变化,我们从每个视频中采样了固定数量的T段。然后,我们将采样的RGB和flow分段输入到预训练的特征提取器中,以分别生成FFF维的特征向量xn,tRGBx_{n,t}^{RGB}xn,tRGB​和xn,tflowx_{n,t}^{flow}xn,tflow​。然后,将RGB和flow特征连接起来以构建完整的特征xn,tx_{n,t}xn,t​,然后将它们沿着时间维度堆叠以形成长度为T的特征图,即Xn=[xn,1,...,xn,T]X_n=[x_{n,1},...,x_{n,T}]Xn​=[xn,1​,...,xn,T​]

**小结:**这一步就是普通的特征提取,提取RGB和flow光流特征,然后将它们连接一下比较简单。

Base branch

为了预测线段级别的类别得分,我们通过将特征图馈送到时间一维卷积层中来生成CAS (类激活序列),其中每个线段都有其类别得分,反应了对应类别的概率。对于视频vnv_nvn​,可以将其形式化如下:
An=fconv(Xn,ϕ)A_n=f_{conv}(X_n,\phi) An​=fconv​(Xn​,ϕ)
其中ϕ\phiϕ表示卷积层中的可训练参数,An∈R(C+1)×TA_n\in R^{(C+1)\times T}An​∈R(C+1)×T。一个C+1C+1C+1尺寸是因为我们使用C动作类和一个辅助类作为背景。

接着使用top-k均值技术,可以如下得出视频vn的c类的视频级类评分:

然后,通过沿类别维度应用softmax函数,将视频级别的类别得分用于预测每个类别的样本的概率:

为了训练网络,我们为每个类别定义一个具有二进制交叉熵损失的损失函数LbaseL_{base}Lbase​

其中ynbase=[yn;1,...,yn;C,1]T∈RC+1y^{base}_n=[y_{n;1},...,y_{n;C},1]^T\in \mathbb R^{C+1}ynbase​=[yn;1​,...,yn;C​,1]T∈RC+1,其中最后一个1是背景类,因为基础分支没有去除背景所以设置为1这和后面的抑制分支想对应。

**小结:**可以知道Base branch只是简单的进行训练,默认是有背景类的。

Suppression branch

与Base分支不同,Suppression分支在其前面包含一个过滤模块,该模块被针对背景类的相反的训练目标训练为抑制背景帧。过滤模块由两个时间一维卷积层和随后的S型函数组成。过滤模块的输出是前景权重Wn∈RTW_n∈R^TWn​∈RT,范围从0到1。来自过滤模块的前景权重在时间维度上与特征图相乘以过滤出背景帧。此步骤可以表示如下:

接着的话和前面Base 分支的训练类似,只是将Xˊn\acute{X}_nXˊn​ 代替XnX_nXn​

其中ynsupp=[yn;1,...,yn;C,0]T∈RC+1y^{supp}_n=[y_{n;1},...,y_{n;C},0]^T\in \mathbb R^{C+1}ynsupp​=[yn;1​,...,yn;C​,0]T∈RC+1,其中最后一个1是背景类,因为基础分支没有去除背景所以设置为0,因为抑制分支经过了前面的过滤模块,默认是过滤掉背景。

**小结:**抑制分支设置背景类为0,目的就是训练过滤模块,他们俩共享了前面的一维权重,但是最终一个有背景一个没有背景,两个分支的区别就在于过滤模块,这也是所谓的非对称共享权重训练。

Joint training

我们联合训练base分支和Suppression 分支。我们需要优化的总体损失函数如下:

前两个在上面已经介绍了,而LnormL_{norm}Lnorm​:
Lnorm=1N∑n=1N∣wn∣L_{norm}=\frac{1}{N}\sum_{n=1}^N|w_n| Lnorm​=N1​n=1∑N​∣wn​∣

这个其实对训练的过滤模块权重进行L1L_1L1​正则,目的是使得权重更加偏向0或者1,简单理解就是背景帧就是0进行抑制,动作帧就是1不受影响。术语就是更好的识别关键帧

**小结:**这个LnormL_{norm}Lnorm​的设计还是比较巧妙,可能也是我接触比较少

Classification and Localization

在描述了我们的模型是如何配置和训练的之后,我们转向讨论它在测试时如何工作。由于我们使用过滤模块阻止来自背景框架的激活,因此使用Suppression分支的输出进行推理是合理的。对于分类,我们丢弃在概率低于阈值θclass\theta_{class}θclass​的类。然后,对于其余类别,我们使用阈值θact\theta_{act}θact​对CAS进行阈值选择候选片段。然后,每组连续的候选段将成为一个建议。我们根据最近的工作,使用内部和外部区域之间的对比来计算每个建议的置信度得分。

小结:这个分类和定位比较平常 ,不多介绍

结束语

这篇Background Suppression Network for Weakly-supervised Temporal Action Localization还真的在设计上就十分巧妙,两个分支一个训练有背景,一个训练却没有背景,两个分支的不同之处就只有过滤模块,所以说明了过滤模块的作用。最终的话使用过滤分支输出的概率和CAS来进行定位也是比较合理。

Background Suppression Network for Weakly-supervised Temporal Action Localization相关推荐

  1. Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记

    目录 1.介绍 2.方法 2.1 特征提取 2.2 动作单元记忆网络 构建Memory Bank Memory Bank用于分类 Memory Bank的更新 3.消融实验 1.介绍 这篇文章是提出了 ...

  2. Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记

    文章标题:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 文章链接:Shou_Temporal_Action ...

  3. P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

    论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要 大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...

  4. 时序动作定位|使用 ‘注意力机制’ 的弱监督时序动作定位顶会论文理解笔记(Weakly-Supervised Temporal Action Localization)

    目录 Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018) W-TALC: Weakl ...

  5. 时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)

    这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...

  6. Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记

    论文地址:https://arxiv.org/pdf/2107.12960.pdf Abstract 有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别 ...

  7. Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现

    论文地址:Lin_Learning_Salient_Boundary_Feature_for_Anchor-free_Temporal_Action_Localization_CVPR_2021_pa ...

  8. 【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

    Phuc Nguyen(University of California Irvine, CA, USA) Ting Liu,Gautam Prasad(Google Venice, CA, USA) ...

  9. PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection (AAAI 2020)

    PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection AAAI 2020 中国科学技术大学 欢迎感兴 ...

最新文章

  1. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖 | 青源 Talk 第 8 期
  2. Java中比较对象的两个接口Comparable接口和Comparator接口
  3. spring boot实战(第七篇)内嵌容器tomcat配置
  4. java url 传值乱码问题_java页面url传值中文乱码怎么办
  5. Aptana Studio 3 如何汉化,实现简体中文版
  6. 折线图_Pyecharts数据可视化分析—折线图
  7. 1.Android学习之Android项目结构
  8. xp系统如何更改计算机用户名,windows xp电脑如何设置、修改开机密码
  9. 网络应用的基本原理(基础 !非常重要!)
  10. 【Uipath杂谈】用Datatable处理数据(二)
  11. matplotlib中添加水平线和垂直线
  12. win10搭FTP与单片机通信:配置+编程实现的完整流程
  13. java计算机毕业设计喜枫日料店自助点餐系统源代码+数据库+系统+lw文档
  14. 【SSM项目】电商平台项目第5天——商品录入【1】
  15. 为什么图片和PDF合并后的PDF页面大小不一
  16. Linux能ping通IP,ping不通域名
  17. 成本估算和成本预算6个方面的对比
  18. aspose替换书签并用金格插件打开
  19. java硬币翻转问题_java – 硬币翻转程序
  20. python石头剪刀布循环_python基础教程之实现石头剪刀布游戏示例

热门文章

  1. 未来在哪里?我是这样看阿里大数据的
  2. 注册一个微信公众号的测试平台
  3. 以Mesos和Docker为核心的云操作系统
  4. 好玩又赚钱的链游有哪些?
  5. linux乌班图做服务器,使用 Ubuntu 16.04 搭建全能服务器
  6. Electron-Vue中操作本地数据库NeDB
  7. 0基础如何用几分钟学会视频剪辑
  8. 同步和异步Socket多线程编程基本模型介绍
  9. 仿照vue实现双向数据绑定兼容IE6
  10. 读取XML-致冷冽同学