点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文为52CV群友RoseVam投稿,介绍了视频活动检测经典模型 R-C3D: Region Convolutional 3D Network for Temporal Activity Detect,该文出自ICCV 2017,谷歌学术显示已有127次引用,是该领域近两年较有影响力的工作,代码已开源。

论文作者信息:

算法基本思想:

受目标检测方法Faster R-CNN的启发,论文中提出了一种区域卷积3D网络(Region Convolutional 3D Network,R-C3D)如上图,该方法先进行3D全卷积网络对视频帧进行编码处理,之后提取活动时序片段(action proposal segments),最后在分类子网络(action classification subnet)并对结果进行分类和细化。

相关介绍

连续视频中的活动检测是一个具有挑战性的问题,不仅需要识别,还需要及时准确地定位活动。当前存在的方法在处理连续视频流的活动检测时,存在以下问题:

1)这些现成的表示可能不适合在不同视频域中进行定位活动,从而导致性能的地下。

2)现有方法依赖外部建议或全面的滑动窗口,导致计算效率低下。

3)滑动窗口无法轻松的预测灵活的活动边界。

主要贡献

1)论文提出了活动检测模型,即R-C3D,这是一种端到端活动检测模型,结合活动建议和分类阶段,可以检测任意长度的活动。

2)通过在建议生成(proposal generation)和网络分类部分之间共享全卷积的C3D特性,实现快速检测速度(比当前方法快5倍);

3)对三个不同的活动检测数据集进行了大量的评估,证实了该文提出的模型具有普遍适用性。

关键原理

该网络可以用于连续视频流中进行活动检测。其网络结构图如下,由3部分组成,共享的3D ConvNet特征提取器,时间建议阶段(temporal proposal stage)以及活动分类和细化阶段。

为了实现高效的计算和端到端训练,建议和分类子网共享C3D特征映射。这里的一个关键创新是将Faster R-CNN中的2D RoI pooling扩展到3D RoI pooling,这样做的好处就是,该文的模型能够提取各种分辨率的可变长度建议框的特征。

论文中通过共同优化两个子网的分类和回归任务来训练网络,Softmax损失函数用于分类,平滑L1损失函数用于回归,所以本文的目标函数结合两部分损失函数为:

上式中Ncls和Nreg分别代表批量大小和anchor/proposal段的数量,为损失权衡参数,设置为1,为预测概率,表示anchor或proposals的预测相对偏移量,表示anchor或proposals的ground truth的坐标变换。

其变换如下:

实验结果

Experiments on THUMOS’14

Table1是在THUMOS’14上的活动检测结果。在表1中作者在IoU阈值0.1~0.5(表示为a)上对当前存在的方法和R-C3D进行活动检测性能的评估比较。在单向缓冲设置(one-way buffer)的R-C3D,其mAP@0.5为27.0%比当前最先进方法高3.7%。双向缓冲设置(two-way buffer)的R-C3D的mAP在所有IoU阈值下都有了提高,其中mAP@0.5达到28.9%。

Table2展示了R-C3D与其他方法在数据集THUMOS’14上的每一类的AP(Average Precision)。表中可以看出R-C3D在大多数类别中的AP优于其他方法,在一些活动中甚至超过了20%,比如Basketball Dunk, Cliff Diving等。图(a)显示了在数据集THUMOS’14上的两个视频的定性结果。

Experiments on ActivityNet

表3是在数据集ActivityNet上的检测结果。表3.活动网上的检测结果,以mAP@0.5(百分比)表示。从表中可以看出,R-C3D方法在验证集和测试集上分别优于UPC4.3%和4.5%(在mAP@0.5下)。当训练集和验证集都用来训练时,R-C3D方法的检测结果要比只用训练集训练时高1.6%。

图(b)展示了R-C3D在数据集ActivityNet中具有代表性的结果。

Experiments on Charades

表4是关于在数据集Charades上的活动检测结果。如表4所示,该文的模型优于文献[25]中提出的异步时域模型以及在该文章中报告的不同基准线。

按照标准做法,论文中按照mAP@0.5评估了模型,结果为9.3%,性能与在其他数据集中测试的性能结果不同。这个原因可能是数据集Charades固有的问题,比如室内场景光照强度低,或者数据的标签过多等。

图(c)展示了R-C3D在数据集Charades中具有代表性的结果。

结论

1)引入了R-C3D模型,用来活动检测的第一个端对端时间建议分类网络;

2)在3个大规模的数据集中对该文提出的方法进行了评估,结果展示该文的方法比当前基于3D卷积的模型更快且更准确;

3)R-C3D还可以加入其他一些特性,以进一步提高活动检测结果。

最后我们一起来看看作者给出的视频Demo:

活动检测还是蛮有意思的,在智能视频分析领域应该大有用武之地!

论文地址:

https://arxiv.org/pdf/1703.07814.pdf

代码:

http://ai.bu.edu/r-c3d/


下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

R-C3D 视频活动检测相关推荐

  1. R-C3D 视频活动检测的经典算法

    R-C3D 视频活动检测的经典算法 目录 论文信息 主要贡献 存在问题 基本思想 关键原理 实验结果 Experimentson THUMOS'14 Experimentson ActivityNet ...

  2. 用于活动检测的上下文多尺度区域卷积三维网络

    摘要 活动检测是计算机视觉中的一个基本问题.检测不同时间尺度的活动尤其具有挑战性.本文提出了一种用于活动检测的上下文多尺度区域卷积三维网络(Cmsrc3d).为了处理活动实例固有的时间尺度变异性,采用 ...

  3. vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...

    本文解读的是 ICASSP 2020 论文<MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION>,作者来自好未来. 作者 | 李 航 ...

  4. 视频动作检测最新发展调研(Action Detection)

    1 视频动作检测概述 动作检测也是目前视频理解方向的研究热点,因为该任务更加贴近生活,在监控安防中有潜在的巨大价值.但是相比于动作分类,动作检测难度更高,不仅需要定位视频中可能存在行为动作的视频段,还 ...

  5. python视频人脸检测_OpenCV + python 实现人脸检测(基于照片和视频进行检测)

    OpenCV + python 实现人脸检测(基于照片和视频进行检测) Haar-like 通俗的来讲,就是作为人脸特征即可. Haar特征值反映了图像的灰度变化情况.例如:脸部的一些特征能由矩形特征 ...

  6. 视频异常检测 综述(一)

    视频异常检测 综述(一) 文章目录 视频异常检测 综述(一) 一.视频异常检测(Video anomaly detection)的定义 二.单场景&多场景 三.视频异常类型 1.Appeara ...

  7. 【弱监督视频异常检测】2019-BMVC-用于改进视频异常检测的运动感知功能

    2019-BMVC-Motion-Aware Feature for Improved Video Anomaly Detection 用于改进视频异常检测的运动感知功能 摘要 1. 引言 2. 相关 ...

  8. U-LanD:基于不确定性的视频地标检测

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家 ...

  9. OpenCV + python 实现人脸检测(基于照片和视频进行检测)

    OpenCV + python 实现人脸检测(基于照片和视频进行检测) Haar-like 通俗的来讲,就是作为人脸特征即可. Haar特征值反映了图像的灰度变化情况.例如:脸部的一些特征能由矩形特征 ...

最新文章

  1. 【转】Itween 贝塞尔曲线(一)
  2. Appium移动自动化测试之获取appPackage和appActivity
  3. CentOS6最小化安装默认启动的服务说明
  4. 全球最大编程问答社区 Stack Overflow 宣布裁员 15%!
  5. mysql frm 没有myd_MySQL表只对应一个.frm文件,没有.MYD 和.MYI文件
  6. Xml读取和写入以及新建
  7. MYSQL BENCHMARK()函数
  8. 材料表征技术书籍-7本
  9. office批量打印助手(excel批量打印word批量打印)
  10. 上海联影医疗公司软件开发工程师面试经历
  11. 七牛base64上传图片带格式
  12. 免费教程《图解SQL面试题》
  13. 陈松松:新人做短视频项目,四步找准自己的定位
  14. python3邮件_Python3_发送邮件
  15. 智能外呼系统助力全行业销售自动化
  16. 高级操作系统选择判断总结
  17. 使用python 采集某网站全站美女图片 ,这么好看得图还不学起来(含完整源码)
  18. 【腾讯快直播】android 拉流demo
  19. 视频教程制作软件与制作方法
  20. js+css实现花瓣飘落效果

热门文章

  1. 活动推荐:语音和语言技术在自然交互中的实践沙龙
  2. 给算法工程师和研究员的「霸王餐」| 附招聘信息
  3. 深度CTR预估模型的演化之路2019最新进展
  4. 「2019中国大数据技术大会」超值学生票来啦!
  5. 你是个成熟的C位检测器了,应该可以自动找C位了
  6. 国内少儿眼中的编程:“Coding即是代码”?
  7. 公开课报名 | 那些年,我们在文本分类中遇到的坑
  8. 一周焦点 | 陆奇“入驻” YC;TensorFlow 2.0 即将发布
  9. 为什么汉字不能当密码,假如用汉字做密码,又会怎样?
  10. 一个复杂系统的拆分改造,压力真大!