编者按:在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的计算开销的前提下,整合大量的全局信息和局部信息来辅助关键帧的检测,从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中,此方法达到了截至目前的最好结果。

视频物体检测(video object detection),即在一段视频中检测出每一帧上的所有物体。相对于在静止的图像中寻找物体而言,在一段视频中找到物体会面临更多的困难:物体可能会遭遇相机失焦,物体遮挡等问题(图1),因此如果只是简单地将一个图像检测器用于视频检测,效果通常是不尽如人意的。

图1:视频中一些常见的问题

但反过来,在视频中检测物体意味着我们可以利用时序上的相关性来辅助我们进行检测:人们可以根据一些历史信息(比如说位置信息、语义信息),来判断这个被遮挡的物体是什么。因此在视频物体检测中,如何利用好时序信息来辅助质量比较差的帧上的检测是一个重要的研究方向。

一般来说,人类主要会通过两类信息来辅助对质量较差的帧进行物体检测,即局部定位信息与全局语义信息。

如果物体在当前帧中难以定位,我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位,我们称之为局部定位信息。

如果我们难以判断这一帧的物体的类别,我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性(比如说颜色、形状很像)的物体来辅助定位,此类信息被定义为全局语义信息。具体如下图2所示。

图2:人类可以利用的信息规模

从这个角度出发,我们发现目前的视频物体检测方法都仅单独考虑了其中一种信息进行辅助目标检测,虽然它们各自都取得了不错的效果,但是如果能够设计一种更加高效的信息融合方式来同时利用好两类信息,那么模型的表现应该能够更加出色。

除此之外,另一个在现存方法中存在的问题就是整合规模(aggregation scale),也就是关键帧能够使用信息的范围。因为计算资源的限制,不管是局部类还是全局类的方法,他们使用的帧的数量通常都只有20-30帧,换算成秒也就是1-2秒,整合规模的不足也局限了这些方法的有效性。

解决方案

图3:模型结构示意图

我们分两步来解决上文提到的两个问题。

第一步:解决全局信息和局部信息单独考虑的问题。我们设计了简洁的基础模型(图3a)来完成这项任务。

首先,我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域。

第二是使用关联模块(relation module)将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中。

之后,局部帧内部会再过若干层关联模块得到增强后的关键帧特征。由此,我们的关键帧特征就同时得到了全局和局部两方面的信息。

第二步:解决整合规模太小的问题。如果只有基础模型,我们关键帧能够得到的全局和局部信息仍然很少,以图3a为例,全局和局部信息都只有4帧。

为了解决这个问题,我们设计了一个简洁高效的长时记忆模块(Long Range Memory,LRM),在做完对某一帧的检测后将其特征保存下来,并在下一帧的检测中使用该特征来辅助检测,由于关系模块的多层结构,可以极大地增加了关键帧能够看到的范围,以图3b为例,我们保留了长度为3帧的记忆,而由于其具有两层的关系模块,使得其整合规模从之前的8帧增长到20帧。

不仅如此,这两部分结构还互相受益:长时记忆模块使得关键帧能够获得更多的全局和局部信息,反过来,这些帧又能够提供更加强大的记忆。

实验结果

我们在广泛使用的视频物体检测数据集 ImageNet VID 上对我们的方法进行了实验,表1总结了我们的方法与其他方法相比的表现。在本文新提出的模块的辅助下,我们训练出来的视频物体检测器取得了在该数据集上的至今最佳结果。

表1:总体实验结果

为了验证我们方法的有效性,我们做了充足的消融实验。表2展示了我们的模型中各个模块的作用,表3展示了全局信息和局部信息两个缺一不可,表4则说明了超参数对模型整体表现的影响。

表2:各个模块的作用

表3:全局信息与局部信息的作用

表4:超参数的设置

图4是模型的一些可视化结果。可以看到我们的方法能够克服许多困难的情形,得出不错的检测结果。

图4:可视化结果

结语

在本文中,我们提出了基于记忆增强的全局-局部整合网络(MEGA),它从全局和局部两方面出发,共同解决视频物体检测的问题。

首先,   我们将全局特征整合到局部特征中,以解决无效的问题。

之后,我们引入了新的长时记忆模块(Long Range Memory, LRM)来解决整合规模太小的问题。在视频物体检测数据集 ImageNet VID 上进行的实验表明,我们的方法取得了在该数据集上的至今最佳结果。

更多细节请参考原文:

https://arxiv.org/abs/2003.12063

代码请参考:

https://github.com/Scalsol/mega.pytorch

END

备注:目标检测

目标检测交流群

2D、3D目标检测等最新资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

CVPR 2020丨更精准的视频目标检测:基于记忆增强的全局-局部整合网络的方法相关推荐

  1. 判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...

    编者按:在视频物体检测任务中,由于相机失焦.物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果.针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enha ...

  2. 【北大微软】用于视频目标检测的记忆增强的全局-局部聚合

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 北大&MSRA,入选 CVPR 2020,ImageNet VID SOT ...

  3. CVPR 2020丨微软亚洲研究院精选论文一览

    编者按:本文汇总了部分微软亚洲研究院CVPR2020精选论文,涵盖姿态估计.动作检测与识别.分割与检测.底层视觉等领域. 01 HigherHRNet: 自下而上姿态估计中的多尺度表征学习 Highe ...

  4. CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片

    编者按:也许你曾从橱柜里翻出家人们压箱底的老照片,而它们已经泛黄发脆,甚至有些褪色:也许你在拍照时不慎手抖,只好把糊成一片的照片都丢进"最近删除".而微软亚洲研究院在计算机视觉顶会 ...

  5. ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

    ©PaperWeekly 原创 · 作者|罗志鹏 单位|深兰北京AI研发中心 研究方向|物体检测 ACM MM(ACM International Conference on Multimedia, ...

  6. ECCV 2020 论文大盘点-视频目标检测篇

    本文盘点ECCV 2020 中所有视频目标价检测(Video Object Detection)相关的论文,总计 4 篇,其中 2 篇论文代码将开源. 对视频中的目标进行检测,当然可以转化为对每帧图像 ...

  7. Google又放大招:高效实时实现视频目标检测 | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 作者 | 陈泰红,算法工程师,研究方向为机器学习.图像处理 来源 | 极市平台(ID:extrememart) ...

  8. 融合视频目标检测与单目标、多目标跟踪,港中文开源一体化视频感知平台 MMTracking...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 编辑丨机器之心 魔王 香港中文大学多媒体实验室(MMLab)OpenMMLab 开源一体化视频目标感知 ...

  9. Google又发大招:高效实时实现视频目标检测

    首发于极市平台微信号:Google又发大招:高效实时实现视频目标检测 作者:陈泰红 如有兴趣可以**点击加入极市CV专业微信群**,获取更多高质量干货 图像目标检测是图像处理领域的基础.自从2012年 ...

最新文章

  1. 企业信息化中常见决策点应对
  2. IOS、java支持DES加密
  3. layer 弹不出来_红米k20pro摄像头弹不出来怎么办?昆明小米手机维修教你解决
  4. Servlet服务器搭建过程中一些经验 Tomcat+Mysql数据库+http传输
  5. python画完图 程序暂停运行_[Python实战]你也能写的计时器程序
  6. hive按照某个字段分组,然后获取每个分组中最新的n条数据
  7. Django内置的用户认证
  8. 查询sql语句是否使用索引
  9. 重大技术突破首次发布!十问解密云栖大会!
  10. mysql连接不上怎么重置密码错误_MySQL数据库连接不上、密码修改问题
  11. dbgrid 获取前台页面参数
  12. 编程基础 之 位运算专题
  13. 你是你产品的头号用户
  14. GPU GPGPU
  15. Linux下ioctl函数理解
  16. 手机摄像头改笔记本外接摄像头
  17. 阿里面试官最新分享的Java面试宝典,含8大核心内容讲解
  18. Linux中查看文件夹大小的命令
  19. windows7计算机用户账户,浅析win7旗舰版系统中三种系统用户账户的特点
  20. 云计算机怎么打游戏,云电脑玩游戏性能怎么样?会不会卡顿

热门文章

  1. Opencv--从CalibrateCamera到SolvePnp(一)
  2. OpenCV--矩阵操作总结
  3. JavaMail基本使用
  4. toj 4596 一行盒子
  5. springboot自动装配原理_【springboot】基于springboot运行原理实现springboot的自动配置...
  6. linux usb mic延时大如何解决,Linux 中 SSH 客户端登录缓慢的解决办法
  7. mysql远程访问显示警告信息_开启mysql远程访问过程中所遇常见问题的解决办法...
  8. vue输入框输入触发事件_.vue文件中监听input输入事件oninput详解
  9. 2 引入失败_Curse选择WE,RNG天价引援失败,上单几乎只剩一个选项
  10. python合并多个txt文件_python如何合并多个txt文件删除所有重复行并生成新文件