CVPR 2021 | 商汤提出最强时序动作提名修正网络：TCANet

点上方计算机视觉联盟获取更多干货

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：商汤学术

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

摘要 · 看点

本文主要介绍商汤科技城市计算研发团队发表在 CVPR 2021 上的工作，提出了一种基于时序上下文聚合的动作提名修正网络（TCANet）。现有方法普遍缺乏一种精细且高效的时序依赖建模方式，并且没有对提名的边界信息进行充分的利用，导致生成的边界概率序列具有局部/全局的噪声，从而使得提名的边界质量不佳。实验结果表明，TCANet 在 HACS, ActivityNet-1.3 和 THUMOS14 等三个主流公开数据集上都获得了非常显著的性能提升。基于该方法，我们在 CVPR 2020-HACS 挑战赛中的时序动作检测任务榜单上排名第一。

Part 1 任务背景

时序动作提名生成旨在从一段未修剪的长视频当中生成包含可能存在人类动作的视频片段，其结合具体的动作类别标签即构成时序动作检测任务。目前的方法大多致力于生成灵活准确的时序边界与可靠的提名置信度，但是仍然受限于匮乏的视频时序依赖和动作边界建模，导致了充满噪声的候选提名边界和质量欠佳的置信度分数。

目前主流的时序动作提名生成方法主要分为两步，首先对输入的视频特征序列进行简单的时序信息融合，然后使用基于边界预测的方法或者是基于预定义锚点框回归的方法生成可能包含人体动作的大量候选时序提名。

Part 2 方法介绍

本文提出了一个用于时序动作提名修正的端到端框架。该方法主要针对现有主流时序动作提名生成方法中的两步骤分别进行改进：

1. 在第一步中，现有方法大多使用堆叠的1D时序卷积进行简单的时序信息融合，然而，1D卷积在计算不同时序点之间的位置关系时，受限于卷积核的形状和尺寸，虽然可以较好地建模短期的时序依赖，但是对于灵活多变的上下文关系则望尘莫及。部分办法选择了全局融合的方式实现了对全局特征的捕获，但是直接使用全局池化之后的特征拼接到整个视频特征序列上的每一个时刻位置，导致每一个时刻获得的全局信息都是相同的，由此捕获的时序依赖关系相对固定，缺乏多样性和区分度，无法充分建模多样的长时序依赖关系。

2. 在第二步中，基于预定义锚点框回归的方法可以提供基于提名全局特征的可靠置信度分数，然而直接使用提名的全局特征对于其局部边界的准确位置不够敏感，况且预定义尺度和比例的提名时序长度往往非常受限，不够灵活，无法生成任意长度的候选提名。基于边界预测的方法利用边界的局部特征判断一个时间点是否属于动作边界，对动作的起止边缘比较敏感，并且使用边界匹配机制来生成大量灵活的动作提名，获得较高的召回率。由于缺乏客观的提名特征，其置信度不够可靠，导致其准确率较低。

该方法主要针对现有技术的缺陷进行了相应的改进：

1. 针对时序建模不够充分的问题，对各个时序点的特征采用通道分组策略进行高效建模，以多头自注意力的方式同时对时序上的每一个点分别求取局部和全局的多样化时序依赖关系。

2. 为了提高边界特征的利用效率，利用基于边界预测的方法和基于预定义锚点框回归的方法二者之间的互补特性，提出使用提名的起始和结束边界上下文特征来预测待优化提名的起始点和结束点偏移，同时使用提名的全局特征来预测待优化提名的中心位置和时序长度偏移。对这两种方式得到的回归后的提名进行平均融合，得到更加准确的提名边界。

3. 为了端到端的进行两种回归方式的联合优化从而逐步地提高提名的边界质量，采用级联的方式对输入的候选提名进行多阶段的修正，通过由粗到细的正负样本划分方式，将输入的待优化提名依次通过三个级联的提名优化模块，实验表明每一个提名优化模块都可以逐步地提高提名的边界质量。

本技术方案的目的在于设计一个能够同时捕获局部和全局上下文信息的时序动作提名优化模型。整个框架主要解决了两个主要的子任务：基于局部全局的鲁棒且多样化的时序依赖建模和对候选提名由粗到细的多阶段修正。整体框架流程如下图所示。

本方案主要包含以下2个模块：

1、局部-全局时序特征编码器 (LGTE)

该模块主要用于对输入的时序特征同时进行局部和全局的时序依赖关系捕获。该模块的核心思想是，首先对输入的时序特征对通道维度分别进行三次不同的线性变换之后，沿通道方向分成 8 个组，其中4组特征用来对每一时刻位置进行全局的时序自注意力建模（GTE），相当于是对全局时序特征分别进行一次动态的关系编码，然后剩下的四组特征则用来对每一时刻位置进行局部的时序自注意力编码（LTE），目的是建模每个时刻的周围特征关系，捕获局部细微的时序变化。

通过上述方法，局部-全局特征编码器实现了对局部和全局特征依赖关系的并行计算，经过训练优化之后可以生成鲁棒而多样化的时序特征表达用于后续的提名生成和优化网络。

2、互补时序边界回归器(TBR)

该模块的主要目的是为了结合基于预定义框回归和基于局部信息的起止边界点预测等两种提名生成方案的优缺点，得到既能准确定位边界，又能生成可靠置信度得分的提名边界回归器。

具体来说，如模块图所示，在将提名从经过局部-全局时序编码后的原长特征序列上进行采样之后，进一步将一个提名的时序特征分成三个部分，分别为起始点的局部特征，提名的中心特征以及结束点的局部特征。和被用来回归待优化提名的起始点和结束点的偏移量，,和则用于联合回归提名的中心点和提名长度的偏移量。使用上述两种方案都可以得到一个新的提名边界，最后将新的提名边界进行融合，即可得到最终的提名结果和置信度分数。

由于 TCANet 不需要大量时序提名即可实现高效的训练，因此在训练过程中对特征的采样可以直接在输入的原始视频特征上进行，这种采样方式相比于在统一的尺度上进行采样，可以带来更少的量化特征损失，从而有效提高特征的质量。

Part 3 模型训练

1、用于训练的待优化提名选择

在本方法的训练阶段，不使用其他方法（例如 BMN 等）输出的全部候选提名用于训练，为了提高训练效率，首先使用 Soft-NMS 去除大量冗余的时序提名，最后选择置信度分数在 Top-100 的提名用于优化器训练。

2、训练标签分配

在训练 TBR 的过程中，只有和真值的 IoU 大于一定阈值的提名被定义为正样本，与真值的 IoU 小于一定阈值的提名则被定义为负样本，而位于两个阈值之间的提名被定义为不完全样本。在训练的过程中，通过在线的随机采样保证这三种样本之间的数量比例为 1:1:1，实现训练过程中正负样本的平衡。由于在多阶段训练过程中，为了实现由粗到细的边界优化，提升模型收敛的效率，采用了不同的正负样本划分阈值。

3、损失函数

本方案需要对提名的置信度预测和边界回归的偏移量同时进行监督，将这两部分的损失函数分别定义为和，分别为：

其中：

最后，总的损失函数为：

Part 6 实验结果

在 HACS 数据集上，我们以复现的 BMN 方法作为基准，实验结果表明，TCANet 可以比 BMN 提高至少 4 个点的平均 mAP，仅靠单模型就可以超越 CVPR 2020-HACS 榜单的第二名方案。

在 ActivityNet-v1.3 和 THUMOS14 数据集上也都有明显的效果提升，取得了现阶段最佳的时序动作检测效果：

根据观察发现，在时序行为检测任务中，贡献最终检测性能 mAP 主要取决于打分靠前的若干提名，因此不仅注重提名的多样性，更注重提名的准确性。TCANet 在对候选提名的进行优化后，主要提高了 AR@1 和 AR@10 的效果，因此对于时序行为检测性能的提升非常明显，排名靠前的提名质量也更高，对于该任务的业务应用落地有非常重要的意义。

局部-全局时序编码模块在边界概率预测的结果可视化如下所示，可见在仅是有全局时序编码时，容易产生较多的全局噪声，且对于动作边界的响应较低。P.S. 在我们之前的工作（BSN++）中曾指出，仅使用堆叠的 1D 卷积进行边界预测时也会产生较多的边界噪声，导致精度较低。

我们接着对 TCANet 的各个模块进行了效率分析，如下表所示：

关于多阶段时序边界回归模块的优化效果如下图所示：

此外，TCANet不仅可以用来提升已有方法生成提名的总体质量，也可以在随机输入（例如，一系列的滑动窗口）时生成高质量的提名，且实验表明在这种情况下也可取得SOTA的效果。关于TCANet方法的模块消融实验和不同方法提名输入时的鲁棒性测试以及效率测试，欢迎关注后续论文链接！

Part 7 结语

本文首先提出了用于同时聚合局部-全局信息的时序特征编码模块，在主流大型视频数据集上均取得了显著的效果提升，证实了长时序建模对于视频理解任务的重要性。同时，基于边界特征和提名特征的互补边界回归进一步提高了定位的准确性。在方法的实现细节部分涉及了较多的 insight，为该任务的后续发展提供了参考的方向。

论文地址

https://arxiv.org/abs/2103.13141

end

我是王博Kings，一名985AI博士，华为云专家/CSDN博客专家，单个AI项目在Github上获得了2000标星，为了方便大家交流，附上了联系方式。

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博Kings 的公众号，欢迎关注，干货多多

王博Kings的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（上）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（下）

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章特征选择与稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论（上）

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论（下）

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点个在看支持一下吧

CVPR 2021 | 商汤提出最强时序动作提名修正网络：TCANet相关推荐

AAAI 2021 | 商汤提出BSN++: 时序动作提名生成网络
摘要 · 看点在 AAAI 2021 上,商汤科技城市计算研发团队提出了基于互补边界回归和尺度平衡交互建模的时序动作提名生成网络(BSN++),针对现有方法存在大量边界噪声.缺乏提名之间的关系建模以 ...
CVPR 2020 |商汤提出应对尺度变化的目标检测新算法
在CVPR 2020上,为了更好的解决物体检测中的尺度问题,商汤EIG算法中台团队重新设计了经典的单阶段检测器的FPN[1]以及HEAD结构,通过构造更具等变性的特征金子塔,以提高检测器应对尺度变化的 ...
【AI周报】AI与冷冻电镜揭示「原子级」NPC结构；清华、商汤提出「SIM」方法兼顾语义对齐与空间分辨能力
01 # 行业大事件施一公等团队登Science封面:AI与冷冻电镜揭示「原子级」NPC结构,生命科学突破今日,<Science>杂志以封面专题的形式发表了 5 篇论文,共同展现了通过 ...
用于时序动作提名生成任务，爱奇艺提出BC-GNN图神经网络 | ECCV 2020
时序动作提名生成任务可以从未处理的长视频中定位出包含动作内容的片段,对视频理解以及时序行为检测任务等有着重要的作用.随着视频数量的激增以及视频内容的丰富,对时序动作提名算法的关注和需求也得到巨大提升. ...
ICCV 2019 | ActivityNet 挑战赛冠军方案—时序动作提名，边界匹配网络详解
点击我爱计算机视觉标星,更快获取CVML新技术本文作者为百度视觉技术部林天威,转载自知乎Video Analysis 论文笔记专栏: https://zhuanlan.zhihu.com/p/754 ...
CVPR 2022 | 商汤/上交/港中文提出U2PL：使用不可靠伪标签的半监督语义分割
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:Pascal | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhih ...
Open Images冠军，商汤提出解偶检测分支新方法TSD并入选CVPR 2020
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 编者按:此前,在文章<商汤科技57篇论文入选ICCV 2019,13项竞赛夺 ...
CVPR 2020丨8比特数值也能训练模型？商汤提出训练加速新算法
本文转自AI科技评论. 本文介绍的是CVPR2020入选论文<Towards Unified INT8 Training for Convolutional Neural Network> ...
三维网格精简算法java版_ISMAR 2020 | 商汤提出手机端实时单目三维重建系统
导读:商汤研究院和浙江大学CAD&CG国家重点实验室合作研发了一个手机端实时单目三维重建系统Mobile3DRecon.与现有的基于RGBD的在线三维重建或离线生成表面网格的系统不同,该系统结 ...

CVPR 2021 | 商汤提出最强时序动作提名修正网络：TCANet

CVPR 2021 | 商汤提出最强时序动作提名修正网络：TCANet相关推荐

最新文章

热门文章