Towards High Performance Video Object Detection Xizhou Zhu∗ Jifeng Dai Lu Yuan Yichen Wei CVPR2018

在DFF和FGFA基础上进行了三点改进,在速度和精度上进行了权衡。DFF专注于提高速度,FGFA专注于精度,本文将两者优势结合起来。

(1)
特征的稀疏递归聚合

FGFA是在每一帧上进行特征聚合,而在这里只在稀疏的关键帧上进行聚合。上一个关键帧增强当前关键帧,增强后的关键帧又去增强下一个关键帧。

第一个公式是对两个连续的关键帧k k‘进行递归特征聚合,用上一帧warp过来的特征和当前帧的真实特征进行加权求和,得到聚合的增强特征,聚合后的关键帧包含了之前所有关键帧的特征信息。

2)
空间自适应局部特征更新

与关键帧相邻的非关键帧有部分区域变化较大,如果用光流传播的特征就容易出错,所以在这里引入一个叫特征信息时间一致性的判别矩阵Q,由光流网络生成,大小和特征光流场一样大,每一个位置的值表示这个位置的光流的质量,若在某位置p的值小于阈值,则说明该位置的光流不行,质量不好,需要重新计算p位置的特征

(3)
自适应的关键帧选取

之前的关键帧都是固定间隔选取的,本文采用矩阵Q和is_key()函数计算出那些光流质量不好的点占的比例,如果大于设置的阈值,就说明当前帧与上一关键帧的变化就很大,就设置成新的关键帧

比如这里橙色的点大于阈值则为关键帧,蓝色的小于关键帧表示与之前的关键帧变化不大,则不设为关键帧。
网络结构:

光流网络:使用最简单的版本FlowNet,在Flying chairs数据集上进行预训练,应用于半分辨率图像,输出步长为4,因为下面的特征网络的输出步长为16,光流场需要降低一半规模去匹配特征映射的分辨率,再额外添加一个随意初始化的3*3的卷积层预测feature propagability indicator。

特征网络:采用最先进的ResNet101,在ImageNet分类上进行预训练。去掉最后的平均池化层和fc层,保留卷积层,最后一个块的有效步长由32变成16,最后一个块的开始步长由2变为1,最后一个块中卷积层(内核大小为> 1)的膨胀量设为2。最后再应用一个3*3的卷积层降维。

检测网络:使用的是R-FCN

Ii是第几帧,
第二行设置k=0为初试帧第0帧,
第三行对F0进行Nfeat操作其中Nfeat是用ResNet提取feature map。
第四行是对F0作检测工作,即确定类别及位置等等。初试帧不用采取聚合操作,如果要采取聚合操作的话那第0帧的聚合结果就是F0,
然后第8行开始对随后视频中的所有帧进行操作
第9行是得到当前帧i和上一个关键帧之间的flow结果。
第10行是如果Qk-i达到了某一个值,即确定i为关键帧,(Q的定义应该是根据变化程度设置的一个具体的值,比如0.2,看论文里)
第12行在确定关键帧后Qk-i为负无穷,然后备注的解释是需要从头开始计算特征,这里应该是指的需要重新设置关键帧,并且feature map应该用ResNet重新提取。
第13行14行指的是需要部分更新特征,就是用的论文里提到的第二个技巧,partially updating
第16行指的是,Qk-i时,Nflow的方法达到了很好的效果,就这样就行,不用改动。
17行代表对当前帧的处理结束了
18行Fi最后用第二个技巧,部分更新,所有的帧都要部分更新吗?
第19行看是否采用聚合操作,如果有聚合模块,那么就聚合,而且采用的是第一个技巧:递归连续聚合。然后在检测结果,就是最终结果
第22行,如果没有聚合模块就直接检测结果
第25行判断及更新关键帧
输出结果。

相关工作:

视频目标检测:现存的在视频上结合时间信息进行目标检测的方法可以分为box-level方法和feature-level 方法(都是基于流的)。Box-level主要集中于如何提高准确性。T-CNN首先根据预先计算的光流将预测的边界框传播到相邻帧,然后利用跟踪算法生成tubelets。Tubelet中的boxes都将根据tubelet分类结果重新打分。Seq-NMS沿着连续帧附近高置信度的边界框构建序列,序列的框被重新评分为平均信度,抑制其他接近该序列的框。MCMOT将后续的处理表示为多目标跟踪问题,并且最终跟踪置信度用于重新评分检测置信度。TPN首先在多帧(<=20)上生成tubelet proposals而不是在一个单独帧上生成边界框proposals,然后基于LSTM分类器将每个tubelet proposal分类到不同的类别。D&T用一个卷积神经网络同时输出检测框和基于跟踪框的回归,检测框根据跟踪框连接和重评分。

数据集:ImageNet VID 分别从训练集中选取3862个片段和从验证集中选取555个片段进行训练和评估,片段都是被完全标记的,帧速率在25-30之间,有30个类别,是ImageNet DET数据集中的类别一个子集。

训练细节:SGD训练。每个mini-batch的样本都是来自ImageNet VID或ImageNet DET,比例为1:1.进行12万次迭代,4个GPU,每个GPU持有一个minni-batch。在前8万次迭代和后4万次迭代的学习速率为10-3和10-4,在训练和推理过程中,图像大小被调整为在图像识别网络中600像素,flow网络中300像素。

Ablation 学习:

C1方法:评估了在稀疏关键帧上递归特征聚合和非递归特征聚合。在非递归聚合方法上,当运行速度慢的时候聚合更多的关键帧会更好,当聚合超过2个关键帧时,准确率会迅速下降,原因是关键帧之间的持续时间l大导致传播的特征不一致。但是在递归聚合方法中每次聚合只考虑两个关键帧,而且被聚合的特征包含了之前的关键帧的所有信息。

C2方法:评估了部分更新系数λ和关键帧持续时间l,他们控制了速度和精度的权衡。实验表明l=10的时候权衡效果最好,小的l会导致两个连续帧之间的冗余,会造成小的精度损失,大的l会导致两个连续关键帧之间高度不同的特征响应。λ=2.0是最好的,大的λ表明更小的重计算区域,就不能完全利用部分更新的长处了,小的λ表明要重计算的区域太多,造成运行速度慢。

C3方法:比较不同的γ下的时间自适应关键帧调度,当运行速度慢时不同的γ性能差不多,当运行速度快时γ=0.2结果最好。
https://blog.csdn.net/qq_41298141/article/details/91996831
https://blog.csdn.net/qq_43378685/article/details/88756135

【视频目标检测】|Towards High Performance Video Object Detection相关推荐

  1. CVPR,2018,THP-Towards High Performance Video Object Detection面向高性能的视频目标检测

    CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,IEEE国际计算机视觉与模式识别会议.该会议是由IEEE举办的计算 ...

  2. 目标检测-Oriented RepPoints for Aerial Object Detection(CVPR 2022)

    目标检测-Oriented RepPoints for Aerial Object Detection(CVPR 2022) 论文地址:Oriented RepPoints for Aerial Ob ...

  3. 【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解

    出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从 ...

  4. 点云 3D 目标检测 - CenterPoint:Center-based 3D Object Detection and Tracking(CVPR 2021)

    点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...

  5. 深度学习之目标检测(Swin Transformer for Object Detection)

    目录 1.MMdetection系列版本​编辑 2. MMDetection和MMCV兼容版本 3.Installation(Linux系统环境安装) 3.1 搭建基本环境 3.2 安装mmcv-fu ...

  6. 多尺度目标检测--Scale-Aware Trident Networks for Object Detection

    Scale-Aware Trident Networks for Object Detection https://github.com/TuSimple/simpledet/tree/master/ ...

  7. 目标检测--Focal Loss for Dense Object Detection

    Focal Loss for Dense Object Detection ICCV2017 https://arxiv.org/abs/1708.02002 本文算是用简单的方法解决复杂的问题了,好 ...

  8. 目标检测--Feature Pyramid Networks for Object Detection

    CVPR2017 Feature Pyramid Networks for Object Detection https://arxiv.org/abs/1612.03144 Code will be ...

  9. 人工智能 | 增强小目标检测(Augmentation for small object detection)

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 Augmentation for ...

  10. 【目标检测】ICCV21_TOOD: Task-aligned One-stage Object Detection

    文章目录 一.背景 二.动机 三.方法 3.1 Task-aligned Head 3.2 Task Alignment Learning 3.2.1 Task-aligned sample assi ...

最新文章

  1. groupby多个字段性能_MySQL今天我们说下分组(group by)
  2. AspectJ——AOP框架快速入门
  3. c语言全段字符的类别,言语理解规律整理d0c.doc
  4. 剑指offer(刷题51-60)--c++,Python版本
  5. java 多个方法_java中的多个main()方法
  6. php版本kms,通过 AWS KMS API 和 AWS SDK for PHP 版本 3 使用密钥 - 适用于 PHP 的 AWS 开发工具包...
  7. Calico 的默认连通性 - 每天5分钟玩转 Docker 容器技术(69)
  8. 【软件】一个简单好用的取色器TakeColor(百度云免费下载链接)
  9. 基于物联网的智能门锁应用系统设计方案
  10. 微信浏览器自动关闭页面
  11. siebel基础配置
  12. “互联网协作如何改变商业未来”文字实录
  13. 【Scala】9、Trait、Match、CaseClass和偏函数
  14. USB组合设备——带鼠标功能的键盘
  15. 2022最新二开微交易系统股票配资理财系统源码+附教程
  16. The page has expired due to inactivity. Please refresh and try again.
  17. vector<int> v 与 vector<int> v(n) 的区别
  18. 英语流利说l4u1p2_L4-U1-P2-3 Vocabulary : Science 英语流利说 懂你英语
  19. 自己在学习的基本java开发电子书(附百度网盘链接)
  20. 这才知道我的全部努力,不过完成了普通的生活。

热门文章

  1. sam格式的结构和意义_sam概述
  2. cacti监控H3C交换机
  3. 金仓数据库字段_金仓数据库认证工程师(KCE)考试试题_含答案_
  4. boost::object_pool使用
  5. Mac 安装 Icarus-Verilog 报错解决方案参考
  6. memcached源码分析-----item锁级别与item引用计数
  7. 2022游戏出海实用发行策略
  8. 程序员真的需要一台 Mac 吗?
  9. 使用python脚本抢购天猫和淘宝商品,0秒下单
  10. 如何利用html+css动画 实现水墨动画?