作者:平凡的外卖小哥
全文5747字,预计阅读时间15分钟

1 简介

目前针对于图片的目标检测的方法大致分为两类:

faster R-CNN/R-FCN一类:
此类方法在进行bbox回归和分类之前,必须通过region proposal network(RPN)得到RoI,因此被称作是two-stage的方法。YOLO/SSD一类:
此类方法不需要RPN,直接在输入图片上进行bbox回归和分类,因此是一种one-stage的方法。

总的来说,第一种方法的准确率要比第二种方法要高,但是第二种方法的速度要快。在实际应用中,摄像头的数据以视频的方式产生。为了处理这些视频数据,目前普遍的做法是对每一帧进行目标检测和语意分割。然而,如图1所示,这样的处理方式有两种问题:1)帧与帧之间有大量的冗余计算,导致满足不了实时需求(fps>=15);2)由于移动目标存在失焦,遮挡等情况,导致目标在单帧上不能被检测到。为了解决这两个问题,在处理视频的时候需要利用帧与帧之间的上下文信息。因此,如何利用视频的时序信息来提高检测精度/速度,如何平衡accuracy speed tradeoff,是一个比较热门的研究方向。本文主要调研了使用光流来利用视频中时序信息的方法。

图1:视频中的相邻两帧。图(a)中,相邻两帧的语义分割在大部分都是相同的,单帧分割会导致大量的冗余计算。图(b)中,由于目标的运动模糊,很可能会导致单帧目标检测的失败。

2 数据集

2.1 视频目标检测

从2015年起,ImageNet新增了视频目标检测的任务,object detection from video (VID)。其数据集标注了30类目标,是检测(DET)数据集200类的一个子集。训练集共有3862个视频片段,总帧数超过112万。性能衡量的metric是mean average precision(mAP)。

2.2 视频语义分割

目前比较流行的是Cityscape的数据集。每个视频片段包含30帧,但只有其中的第20帧有ground truth标注。标注包含了30个语义分类。使用的metric是mean intersection-over-union(mIOU)。

3 Optical flow(光流)

3.1 光流简介

光流常用于计算图像中各个位置的瞬时移位,是依据视频帧与帧之间的各像素相关性而计算得到的。输入时序相邻的两帧

,光流计算帧上每个像素点的移位,使得移位过后,各像素点的位置在下一时刻和
一致。下图给出了在驾驶环境中的一个例子,光流由不同颜色的移位向量表示,且移位向量所代表的速度快慢由长短和颜色表示。可以看到,图片左侧的大货车和其他位置的移位向量不一样,因为大货车比其他静止物体(如路面)以更快的速度迎面而来。
图2: 光流的可视化。可以看到,图片左侧的大货车和其他位置的移位不一样,因为大货车比其他静止物体(如路面)以更快的速度迎面而来。

3.2 FlowNet

传统计算光流的方法不在此赘述,可以参考其wikipedia页面。传统方法计算光流通常是在CPU上实现的,速度较慢。并且如果想在计算机视觉中应用光流的话,用传统方法不能够end-to-end训练网络。因此,FlowNet [1] 提出了用neural network来计算光流的方法。如下图所示,其输入是视频片段中的两帧,由于时间间隔较短,图片之间具有强相关性。输出是各个像素点的移位,通过移位,可以得知上一帧各目标在下一帧的位置。

图3: FlowNet示意图。输入是视频片段的两帧,输出为光流。输出的光流是color-coded。

FlowNet的网络结构和用于semantic segmentation的网络结构类似,由两部分构成。FlowNet将之称为contracting部分和refinement部分,分别用于downsampling提取特征和upsampling恢复分辨率,由conv和deconv操作实现。和semantic segmentation的输入是一张图片不同,此网络输入是两张图片。作者提出了两种方式来处理,不过在后续工作中用的比较多的方法是直接将两张图片堆在一起作为一个有3+3=6个channel的图片输入给网络。

4 基于光流的视频识别

通过光流,我们能够得知上一时刻的物体在下一时刻的位置,能否应用光流来更好地解决视频识别中的accuracy speed tradeoff呢?答案是肯定的。当前计算机视觉使用到的神经网络从功能上可以分为两部分:

也就是说,一个网络由多层的,提取特征的

和浅的,负责具体任务输出的

构成。当前state-of-the-art的图片语义分割和目标检测的网络通常使用ResNet-101作为
,相比较而言,
却只有几层甚至一层。根据以上分析可知,网络的绝大部分的计算量在
上。

在上一节中,我们得知能够通过光流得到上一时刻的物体在当前时刻的位置,即光流表达了在pixel space上的对应关系。那么光流在feature space上,是否也保持同样的对应关系呢?如果是的话,就可以不用重复计算每一帧的特征,而是将上一帧的特征传播到当前帧,从而大大减少计算量。如下图所示,当前帧通过ResNet-101得到的两个特征图(第二行),和通过光流将关键帧特征传播而得到的特征图(第三行)是非常相似的,因此可以假设是成立的,即可以通过光流来传播feature。

图4: 通过光流传播feature。可以看到,current frame通过ResNet-101得到的两个feature maps(第二行),和通过optical flow将key frame传播而得到的feature maps(第三行)是非常相似的。

4.1 更快

为了提高处理视频的速度,首先将视频中的各帧分为关键帧和非关键帧,且关键帧的数量远远小于非关键帧。在目标检测时候,只需要对关键帧通过

来提取特征,然后通过光流将关键帧的特征传播到非关键帧,从而达到减少计算量而提高速度的目的。Deep feature flow(DFF) [2] 就是基于这样的思想。假设当前帧的index为i,前一关键帧的index为k,则当前帧的feature可以通过下式得到:

其中,

是通过FlowNet得到的optical flow,
是point-wise scale coefficients,通过在原始FlowNet的最后一层增加层数得到。W 表示特征传播函数,实际上通过bilinear interpolation和point-wise multiplication实现,所以它是可微分的。DFF的工作流程如下图所示:
图5: DFF的工作示意图。选定关键帧过后,当前帧的特征由关键帧的特征通过光流传播得到。

DFF的计算量和传统对每帧进行特征提取的方法的计算量比值为:

上式中两个网络的复杂度可以根据它们的FLOPs来测量,下表列出了不同

的1/r值:

假设每隔 l 帧选择一次关键帧,则DFF的整体加速为:

DFF和传统基于每帧的方法在CityScape和ImageNet VID的表现如下表。可以看到,DFF在精度损失小于1%的情况下,能够对语意分割和目标检测分别达到3.7和5倍的加速。

4.2 更准
如本文开头所述,由于视频中可能存在运动模糊,镜头失焦,遮挡等问题,导致在单帧上的目标检测失败。Flow-Guided Feature Aggregation (FGFA) [3] 提出了聚合相邻帧的特征来提升当前帧的检测效果的方法。其主要思想是,对当前帧进行目标检测的时候,

不仅考虑当前帧通过
得到的feature,也考虑相邻帧传播到此帧所得到的传播特征。假设考虑到的相邻帧的范围为K,当前帧的index为i,则输入到
的feature为:

其中

是一个衡量传播特征和此帧特征相似度的系数。下图展示了FGFA的工作流程:

图6: FGFA的工作流程。当前帧输入给检测网络的特征是它自己的特征和相邻帧通过光流得到的传播特征的加权平均。

基于ResNet-101的FGFA在ImageNet VID上的表现如下表:

可以看到,FGFA虽然提高了精度,但是相对于per-frame的方法速度降低了接近3倍。

4.3 更快+更准
以上两小节分别讨论了如何利用光流提高视频目标检测的速度和精度,但是都不能在速度和精度上两全其美。实际上,同时提高速度和精度也是可能的。首先,Impression Network(ImpNet) [4] 提供了一种思路。其主要思路是:

FGFA在任意帧都聚合了其邻近的2K+1帧的传播特征,导致计算量增大。同时,因为相邻帧的差异往往很小,这样密集的计算的信息冗余度也很高。因此ImpNet只对关键帧进行特征聚合,而对非关键帧只计算由关键帧传播得到的特征。
FGFA需要考虑当前帧之前的K帧和之后的K帧的特征,而在实际应用场景中是没有当前帧之后的K帧的信息的。因此,ImpNet并不直接应用Eq. 1,而是使用它的递归形式来聚合关键帧之间的特征。

ImpNet通过对关键帧维持一个叫

的特征来实现上述两点。对于相邻的关键帧k和k’,对非关键帧,输入到task网络的特征为关键帧通过光流得到的传播特征:

通过以上方式,ImpNet不仅通过光流传播特征提高速度,也用多帧特征聚合提高了精度。其在ImageNet VID上的表现总结如下:

另一篇文章 [5] 提出了思路和ImpNet类似的方法,其主要特点是:

和ImpNet一样,在关键帧上以递归的方式进行特征聚合。
对非关键帧,使用空间适应(spatially-adaptive)的特征传播,保证了传播特征的质量,减少因为光流不准确带来的误差。具体实现是在FlowNet上增加了预测传播质量的输出,

如果某位置上的传播质量高于一定的界限,则使用传播特征,否则使用自身的特征。

目前讨论的方法在选择关键帧的时候,都是单纯地每隔一定数量(通常为10)的帧就选择当前帧为关键帧。此方法提出了使用时间适应(temporally-adaptive)的关键帧选择策略。此策略也依赖于FlowNet的传播质量输出。如果关键帧到当前帧的传播质量小于一定界限的位置占比达到全部位置的一定比例的时候,则把当前帧设为关键帧:

此方法的示意如下图所示:

图7: 方法示意图。(a)对应于DFF,(b)对应于FGFA,(c1-c3)分别对应上一段的1,2,3。

此方法在ImageNet VID数据集上的表现如下:

可以看到,此模型在保证速度的情况下,精度也达到最高,是后期工作的重点模型。

5 其他方法

目前在对视频的识别任务中,除了使用光流以外,还有一些其他有意思的方法。下面例举一二:

patially variant convolution [6].
此方法和本文所讲用光流进行特征传播不一样的是,它通过被称为Spatially variant convolution的操作来进行特征的传播。非关键帧上某一位置的特征是由关键帧上其邻近位置的特征的加权平均Tubelet proposal network [7].得到,且这些加权值由一个小型网络得到。同时,其关键帧选择也是通过一个小型网络动态确定,其网络输入为两帧的低层特征,输出为两帧的偏离值。如果偏离值高于一定界限,则将当前帧设为关键帧。此方法在Cityscape上语意分割的表现在精度和速度上均比DFF要好。Tubelet proposal network [7].
此方法首先生成某帧上的检测结果,然后用视觉跟踪得到bbox的tubelet proposals。对这些proposals进行重新打分后得到目标的bbox轨迹。此方法步骤太多,不能end-to-end training,不是特别看好。Spatio-temporal CNN (stf-CNN) [8].
此方法在传统FCN的基础上,在特征提取网络之后对特征图上的每一个位置增加了一个LSTM模块,从而让空间特征融合了时序信息变成空间-时序特征(故称spatio-temporal CNN)。此方法对精度有提升,但是因为对每一个位置都用LSTM,计算上开销很大。

总结光流对视频识别任务的帮助很大,特别是自从FlowNet提出后,将光流纳入整个神经网络的设计之中来进行end-to-end的训练,对视频识别任务的精度和速度都有显著提升。而且基于光流的方法对具体的识别任务不敏感,它在视频目标检测和视频语意分割上都能使用。因此,可以考虑将光流应用于目前使用的深度模型当中,来提高模型的性能。

参考文献

  1. FlowNet: Learning Optical Flow With Convolutional Networks
  2. Deep Feature Flow for Video Recognition
  3. Flow-Guided Feature Aggregation for Video Object Detection
  4. Impression Network for Video Object Detection
  5. Towards High Performance Video Object Detection
  6. Low-Latency Video Semantic Segmentation
  7. Object Detection from Video Tubelets with Convolutional Neural Networks
  8. STFCN: Spatio-Temporal FCN for Semantic Video Segmentation

感谢阅读

本文首发于微信公众号【美团无人配送】,欢迎大家搜索关注,微信后台回复"书单",给你一份美团技术团队书单合集

作者的其他文章:

美团无人配送:PointNet系列论文解读​zhuanlan.zhihu.com

觉得好看,点个赞吧~~

3d max用不同目标做关键帧_基于光流的视频目标检测系列文章解读相关推荐

  1. tensorflow2 目标检测_基于光流的视频目标检测系列文章解读

    作者:平凡的外卖小哥 全文5747字,预计阅读时间15分钟 1 简介 目前针对于图片的目标检测的方法大致分为两类: faster R-CNN/R-FCN一类: 此类方法在进行bbox回归和分类之前,必 ...

  2. pytorch 三维点分类_基于深度学习的三维重建——MVSNet系列论文解读

    欢迎关注微信公众号"3D视觉学习笔记",分享博士期间3D视觉学习收获 MVSNet:香港科技大学的权龙教授团队的MVSNet(2018年ECCV)开启了用深度做多视图三维重建的先河 ...

  3. java光流法运动目标检测_基于光流法运动目标检测和跟踪算法.PDF

    第,+ 卷第' 期 东 北 大 学 学 报 ( 自 然 科 学 版 ) 5# (! ,+ ,*#! ' ! " #' 年 ' 月 "#$%&'( #) *#%+,-'.+- ...

  4. 病虫害模型算法_基于深度学习的目标检测算法综述

    sigai 基于深度学习的目标检测算法综述 导言 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一.由于各类物体有不同的外观,形状,姿态,加上成像 ...

  5. python成绩统计及格学平成_基于深度学习的目标检测算法综述

    导言目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一.由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视 ...

  6. yolov3为什么对大目标检测不好_基于改进Yolov3的目标检测的研究

    晏世武 罗金良 严庆 摘要:目标检测在视频监控.无人驾驶系统.机械自动化等领域起着重要作用.在如今大数据的背景下,为进一步提高Yolov3在不同数据集下的性能,本文以KITTI数据集为基础,利用重新調 ...

  7. 目标转化出价多少_京东快车搜索新增目标转化出价功能

    在使用京东快车进行广告投放的时候,卖家都想要在控制成本的前提下有一个好的推广效果,为此京东上线了目标转化出价的新功能,那么具体怎么使用呢?想知道的话,就跟随开淘小编一起去学习一下具体的操作流程吧! 操 ...

  8. 论文阅读_基于深度学习的异常检测综述

    英文题目:Deep Learning for Anomaly Detection: A Review 中文题目:基于深度学习的异常检测综述 论文地址:https://arxiv.org/pdf/200 ...

  9. python知网查重_用Python写了个检测抄袭/文章去重算法(nshash)

    中国人有句话叫"天下文章一大抄",但是在正规场合下"抄"是要付出代价的,比如考试.写论文是不能抄的,一旦被发现后果相当严重.在互联网出现之前,"抄&q ...

最新文章

  1. 使用变量对象引出作用域链
  2. python 时间模块备忘
  3. eku php,WPSeku安装与使用:WordPress 安装漏洞扫描器
  4. C++中虚函数、虚指针和虚表详解
  5. 利用pickle保存模型
  6. solidity modifier函数修改器 智能合约开发知识浅学(三)
  7. 查询学生选修课程管理系统java_JAVA数据库课程设计学生选课管理系统的
  8. 【HDU - 2066】:一个人的旅行(Dijkstra算法)
  9. Redis通讯协议RESP详解
  10. 解决WordPress设置错误的url网站不能访问的问题
  11. 医疗行业源代码数据防泄露安全解决方案
  12. eclipse开发桌面应用软件程序教程
  13. mysql sp print_mysql 存储过程 print
  14. 软件开发岗位职责描述
  15. OpenCV基础应用20例
  16. 【笔记】ARM指令系统
  17. 【NDN基础】Information-Centric Networking: A Natural Design for Social Network Applications 全文翻译
  18. 计算机中线性结构定义,数据结构基本概念
  19. 威猛的 90 后,不等领导下班就先走,《2021 年轻人下班报告》公布
  20. 如何设计全面的客户端功能测试用例

热门文章

  1. 条款9:不要在构造和析构过程中调用virtual函数
  2. .net常見面試題(三)
  3. Hibernate 集合映射
  4. easyUI 添加排序到datagrid
  5. 变与不变——一汽-大众的数字化人才战略“突围”
  6. 同一台服务器,mysql登录不了指定端口的问题
  7. 科大讯飞cordova语音插件填坑及api介绍
  8. JDK之ConcurrentHashMap
  9. 字符串中包含汉字和\u,显示出汉字来
  10. [hadoop新实战2]hadoop伪分布式安装序列(支持ubuntu和redhat)