【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice
1.1 论文信息
标题 | Optimizing Video Object Detection via a Scale-Time Lattice |
---|---|
会议 | CVPR 2018 |
原文链接 | Optimizing Video Object Detection via a Scale-Time Lattice (thecvf.com) |
领域 | 视频目标检测(提升速度) |
性能 | 79.6 mAP(20fps)以及 79.0 mAP(62 fps) |
1.2 创新点
本篇论文的基本思路是:
由于检测的计算开销比较大,因此只在一段视频选取比较少的关键帧去执行检测,并通过视频帧之间丰富的上下文联系,以比较轻量的网络在规模和时间上去传播关键帧的检测结果。 |
---|
- 该论文提出了一个统一的框架叫 Scale-Time Lattice,此框架整合了基于图像的检测、时间上下文信息传播和跨尺度精细化**。如下图所示:
具体的创新点是:
创新点1:
本论文虽然没有提出新的模型,但是创新性地把目标检测各个步骤中的技术有机结合,构成了一个尺度/规模可调控的统一框架。从不同尺度,时间维度辅助非关键帧的检测,进行位置修正。可以轻松看到每一个步骤的贡献度和计算量的分布。
创新点2:
基于此框架,可以根据需求,自由设计不同尺度/规模的模型、重新分配计算资源,拥有极大的设计空间和灵活性。
创新点3:
与以往追求精度/速度的平衡不同,如空间金字塔或特征流,Scale-Time Lattice框架在时间上和空间上都是由粗到细的精细化操作。
1.3 实现步骤
1.3.1 框架整体流程
框架运行流程:
–> 视频
–> 基于稀疏自适应关键帧的目标检测 (红点)
–> 获得质量好的边界框 (红框) 传播给后面的非关键帧 (第1行蓝框)
–> 跨尺度精细化 (绿框)
–> 更高尺度上,传播给非关键帧 (第2行蓝框)
–> 重新调节尺度精细化 (虚线箭头后的绿框)
–> 更高尺度上,传播给非关键帧 (第3行蓝框)
1.3.2 提升检测速度的原因
原因1:
只在稀疏的关键帧调用计算开销大的目标检测器,而不是逐帧检测。极大地降低了计算量。并且通过计算量小的传播网络保持了不错的检测精度。
原因2:
提出了2个新组件:更高效的时间上下文信息传播网络、自适应关键帧选择方案。
1.3.3 Scale-Time Lattice
Scale-Time Lattice框架流程图:每一行与上一幅图的一行对应。
从横向来看,从左到右是时间轴。从纵向来看,从上到下是尺度规模逐渐增大。这个过程主要包括两个主要操作:时间上下文信息传播和空间精细化。上图的水平箭头代表时间上下文信息传播;而竖直箭头代表空间精细化。检测结果在最底部的一行获得,最底部的一行的检查结果是最精细的,并覆盖了每一个非关键帧。
1.4 实验结果
1.4.1 实验条件
目标检测模型 | Faster R-CNN |
---|---|
主干网络 | ResNet-101 |
迭代次数 | 200,000 |
显卡数量(张) | 8 |
数据集 | ImageNet VID 和 ImageNet DET |
1.4.2 精度-帧率图
该方法达到了 79.6 79.6 79.6 mAP( 20 20 20 fps)以及 79.0 79.0 79.0 mAP( 62 62 62 fps)。检测速度提高3倍的情况下,精度只下降了 0.6 0.6 0.6,可以说是非常具有竞争力了。
1.4.3 实际检测Demo
可以把下图实际检测与框架流程图对比着看:每行视频帧都对应框架流程图中的一行。
虽然第一行只有2帧调用了目标检测器,但从纵向来看,经过多次的 传播
--> 精细化
循环,就可以把关键帧的检测结果传送到两个关键帧中间的每一个非关键帧。这样即提升了检测速度,又维持了较好的检测精度。
1.4.4 计算量分布
可见目标检测消耗的计算量比传播高2个数量级、比精细化高1个数量级。因此,应该尽可能选择检测的关键帧稀疏一点。
【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice相关推荐
- 视频目标检测--Flow-Guided Feature Aggregation for Video Object Detection
Flow-Guided Feature Aggregation for Video Object Detection https://arxiv.org/abs/1703.10025 Our fram ...
- 2019 sample-free(样本不平衡)目标检测论文阅读笔记
点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...
- 【目标检测论文阅读笔记】Feature-Enhanced CenterNet for Small Object Detection in Remote Sensing Images
Abstract: 与 anchor-based基于锚点的检测器相比,anchor-free无锚点检测器 具有灵活性和较低计算复杂度的优点.然而,在复杂的遥感场景中,受限的几何尺寸.目标的弱特征 以及 ...
- 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar
毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...
- 【目标检测论文阅读笔记】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection
Abstract 虽然深度学习的通用目标检测在过去几年取得了巨大成功,但检测小目标的性能和效率却远不尽如人意.促进小目标检测的最常见和有效的方法是使用高分辨率图像或特征图.然而,这两种方法都会导致昂贵 ...
- 显著目标检测论文(三)——Minimum Barrier Salient Object Detection at 80 FPS (2015)
这篇文章最大的亮点就是其实时性, 80 fps. 个人感觉论文的效果还是很惊艳的. 可以先看看论文的效果. 如 Figure 1 所示. 作者使用的机器配置如下: 3.2GHz x 2 CPU 12G ...
- 3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
- 3D目标检测论文阅读摘要
3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...
- 目标检测论文阅读:GHM(anchor based)
目标检测论文阅读:GHM(anchor based) 论文链接:https://arxiv.org/abs/1811.05181 代码链接:https://github.com/libuyu/GHM_ ...
最新文章
- mysql 5.6 mysqldump 简单_mysqldump的简单用法及其原理
- 高通软件发布版本简称
- pix4d怎么查看点云数据_python里怎么查看数据类型
- C/Cpp / 设计模式 / 简单工厂模式
- Java虚拟机和Dalvik(android)虚拟机的区别
- 在使用 ADO.NET 导出 Excel 文件时,设置 IMEX=1 仍不能导出所有数据的解决办法
- Java 自动装箱与拆箱
- MMdetection安装使用(1)
- vscode markdown实时预览
- Asp.net core WebApi 使用Swagger生成帮助页实例
- Android VideoView播放 项目中的 视频文件 自动横屏 全屏播放
- 模块一:深度学习入门算法
- java计算机毕业设计vue健康餐饮管理系统设计与实现MyBatis+系统+LW文档+源码+调试部署
- 各大银行网上转账手续一览表
- bugku-细心(想办法变成admin)
- 【黑金ZYNQ7000系列原创视频教程】06.ZYNQ来自FPGA的中断mdash;mdash;按键中断实验...
- stata数据处理教学
- ORACLE 技术学习笔记
- CF K. City
- Xmind8Update7安装与Xmind8Update7破解