R-C3D 视频活动检测

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文为52CV群友RoseVam投稿，介绍了视频活动检测经典模型 R-C3D: Region Convolutional 3D Network for Temporal Activity Detect，该文出自ICCV 2017，谷歌学术显示已有127次引用，是该领域近两年较有影响力的工作，代码已开源。

论文作者信息：

算法基本思想：

受目标检测方法Faster R-CNN的启发，论文中提出了一种区域卷积3D网络（Region Convolutional 3D Network,R-C3D）如上图,该方法先进行3D全卷积网络对视频帧进行编码处理，之后提取活动时序片段（action proposal segments）,最后在分类子网络（action classification subnet）并对结果进行分类和细化。

相关介绍

连续视频中的活动检测是一个具有挑战性的问题，不仅需要识别，还需要及时准确地定位活动。当前存在的方法在处理连续视频流的活动检测时，存在以下问题：

1）这些现成的表示可能不适合在不同视频域中进行定位活动，从而导致性能的地下。

2）现有方法依赖外部建议或全面的滑动窗口，导致计算效率低下。

3）滑动窗口无法轻松的预测灵活的活动边界。

主要贡献

1）论文提出了活动检测模型，即R-C3D,这是一种端到端活动检测模型，结合活动建议和分类阶段，可以检测任意长度的活动。

2）通过在建议生成（proposal generation）和网络分类部分之间共享全卷积的C3D特性，实现快速检测速度（比当前方法快5倍）；

3)对三个不同的活动检测数据集进行了大量的评估，证实了该文提出的模型具有普遍适用性。

关键原理

该网络可以用于连续视频流中进行活动检测。其网络结构图如下，由3部分组成，共享的3D ConvNet特征提取器，时间建议阶段（temporal proposal stage）以及活动分类和细化阶段。

为了实现高效的计算和端到端训练，建议和分类子网共享C3D特征映射。这里的一个关键创新是将Faster R-CNN中的2D RoI pooling扩展到3D RoI pooling,这样做的好处就是，该文的模型能够提取各种分辨率的可变长度建议框的特征。

论文中通过共同优化两个子网的分类和回归任务来训练网络，Softmax损失函数用于分类，平滑L1损失函数用于回归，所以本文的目标函数结合两部分损失函数为：

上式中Ncls和Nreg分别代表批量大小和anchor/proposal段的数量，为损失权衡参数，设置为1,为预测概率，表示anchor或proposals的预测相对偏移量，表示anchor或proposals的ground truth的坐标变换。

其变换如下：

实验结果

Experiments on THUMOS’14

Table1是在THUMOS’14上的活动检测结果。在表1中作者在IoU阈值0.1~0.5（表示为a）上对当前存在的方法和R-C3D进行活动检测性能的评估比较。在单向缓冲设置（one-way buffer）的R-C3D,其mAP@0.5为27.0%比当前最先进方法高3.7%。双向缓冲设置（two-way buffer）的R-C3D的mAP在所有IoU阈值下都有了提高，其中mAP@0.5达到28.9%。

Table2展示了R-C3D与其他方法在数据集THUMOS’14上的每一类的AP(Average Precision)。表中可以看出R-C3D在大多数类别中的AP优于其他方法，在一些活动中甚至超过了20%，比如Basketball Dunk, Cliff Diving等。图(a)显示了在数据集THUMOS’14上的两个视频的定性结果。

Experiments on ActivityNet

表3是在数据集ActivityNet上的检测结果。表3.活动网上的检测结果，以mAP@0.5（百分比）表示。从表中可以看出，R-C3D方法在验证集和测试集上分别优于UPC4.3%和4.5%（在mAP@0.5下）。当训练集和验证集都用来训练时，R-C3D方法的检测结果要比只用训练集训练时高1.6%。

图(b)展示了R-C3D在数据集ActivityNet中具有代表性的结果。

Experiments on Charades

表4是关于在数据集Charades上的活动检测结果。如表4所示，该文的模型优于文献[25]中提出的异步时域模型以及在该文章中报告的不同基准线。

按照标准做法，论文中按照mAP@0.5评估了模型，结果为9.3%，性能与在其他数据集中测试的性能结果不同。这个原因可能是数据集Charades固有的问题，比如室内场景光照强度低，或者数据的标签过多等。

图(c)展示了R-C3D在数据集Charades中具有代表性的结果。

结论

1）引入了R-C3D模型，用来活动检测的第一个端对端时间建议分类网络；

2）在3个大规模的数据集中对该文提出的方法进行了评估，结果展示该文的方法比当前基于3D卷积的模型更快且更准确；

3）R-C3D还可以加入其他一些特性，以进一步提高活动检测结果。

最后我们一起来看看作者给出的视频Demo：

活动检测还是蛮有意思的，在智能视频分析领域应该大有用武之地！

论文地址：

https://arxiv.org/pdf/1703.07814.pdf

代码：

http://ai.bu.edu/r-c3d/

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~