作者:李灏峰

显著物体检测常作为计算机视觉与图形学应用的预处理步骤。但目前只有面向图像的显著物体检测方法研究比较成熟,而面向视频的方法还有很大的研究空间。

为此,香港大学联合中山大学和深睿医疗人工智能实验室发布论文《Motion Guided Attention for Video Salient Object Detection》,提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在 DAVIS 和 FBMS 上分别提升了 4 个和 8 个百分点,该论文已被 ICCV2019 接收。

论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Motion_Guided_Attention_for_Video_Salient_Object_Detection_ICCV_2019_paper.pdf

研究背景

显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。该问题常作为计算机视觉与图形学应用的预处理步骤。随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测,该论文作者有以下观察:

  • 其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;
  • 其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;
  • 其三,利用运动信息的空间连贯性,有助于分离物体和背景。背景外观可包含纹理不同的多个区域,而物体可包含内部边缘及不同外观的部件,这造成了分割的困难。而表征运动的光流图片相对「干净」(如图 1b),可更好地捕捉部分物体边界,成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征,或者利用光流和变形来对齐不同帧的特征,而没有通过端到端学习来捕捉和利用光流中的显著运动。作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。

图 1。

运动引导的注意力机制

为了建模显著运动如何结合外观信息来影响物体显著性的,作者将外观信息抽象为三维的外观特征张量(可为某个 ReLU 隐层的输出),将显著运动抽象为二维的运动显著图(如某个 sigmoid 隐层的输出)或者三维的运动特征张量。首先考虑最简单的情况,如何用一张二维的运动显著图来「关注」三维外观特征的重要位置。一个直观的朴素模型是将运动显著图与外观特征逐位相乘,来加强外观特征中运动显著的区域的响应。但这个朴素模型的缺点在于,运动显著图中的零元素会「抑制」外观特征中运动不显著或者静止的区域,从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点,作者提出模型一:采用残差结构,将被加权后的外观特征与最初的外观特征逐位相加,补充回错误抑制的外观信息,使后续的神经网络层有机会勾勒出完整物体。下面考虑如何利用三维运动特征来关注外观特征。一个简单方案是模仿模型一,与外观特征逐位相乘相加,区别在于要先采用一个 1x1 卷积来对齐运动特征和外观特征的形状,这样得到模型二。

模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。但由于运动特征来源于信息量较「稀疏」的光流图片,缺乏纹理信息和复杂语义,基于这样的特征对外观特征进行通道注意力,可能引入额外噪声或导致过拟合。一个备选方案是运动特征仅用于空间注意力,即先用一个 1x1 卷积和 sigmoid 从运动特征预测出运动显著图,在进行类似模型一的操作,这样得到模型三。

图 2。

最后,基于模型二和三,考虑如何实现合理的通道注意力,作者提出了模型四。模型四先用运动特征对外观特征进行空间注意力,「空间注意」后的外观特征经由全局平均池化得到一个一维向量,该向量可表征显著运动区域的外观特征。由于物体的运动和静止部分有较一致的外观属性(如色彩、纹理、语义),那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重,可有效提高物体静止部分相应属性或通道的响应,从而有助于分割出完整物体。模型四的末端保留残差结构,以避免零元素「抑制」的问题。

运动引导注意力网络(MGAnet)

图 3。

接下来,作者提出一个运动引导注意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动显著图,另一方面用来结合前面提出的一系列运动注意力模块,从而形成完整的视频显著物体检测方法。MGAnet 是一个基于 DeepLab-V3+的双分支网络。目前不少视频分割方法也采取双分支结构,但主要在各分支末端进行融合,而 MGAnet 采用多层次的、密集的方式连接两个分支。MGAnet 包含一个以 RGB 图像为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及连接两分支的 6 个注意力模块 MGA-{0-5}。外观分支的编码器可为 ResNet-101 或 ResNet-50,运动分支的编码器可为 ResNet-34 或 ResNet-18,不同组合均可达到 SOTA 的性能。MGA-{0-5} 可看作部署注意力模块的「槽」,其中 MGA-5 仅可采用模型一(运动信息是二维显著图),MGA-0 至 MGA-4 可采取模型二三四中的某一种,一般采用同一种。

实验结果

下文报告几个主要的实验。第一个实验将 MGA 与现有的视频及图片的显著物体检测方法在三个数据集 DAVIS、FBMS 和 ViSal 上比较。其中,ViSal 中并没有划分出训练集供模型训练,能较好地反映模型的泛化能力。与 6 个视频模型和 11 个图片模型相比,MGA 在三个数据集上均表现最优,分别获得 4 个、8 个、1 个百分点的 MaxF 的领先。

表 1。

第二个实验验证网络结构的有效性。作者尝试单独地训练、测试单个分支,其中独立的外观分支等价于语义分割中的 SOTA 模型 DeepLab-V3+;作者还尝试仅保留编码器部分(MGA-E)或者解码器部分(MGA-D)的注意力模块。实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。注意力模块部署在编码器端或解码器端,均能起到效果,同时部署在编码器和解码器端可获得最佳性能。

第三个实验验证四个运动注意力模块的有效性。三种朴素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线方法。表 3 中,「E-」表示部署在编码器端,「D-」表示部署在解码器端。实验结果显示,四种注意力模块均优于基线方法。其中,较复杂的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。

表 2。

表 3。

总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。与基于循环神经网络的方法不同,该方法利用一个极小时间窗内的时序上下文(即与相邻帧的光流),取得了 SOTA 的性能。本文是对原文主要方法和实验的解读,更多细节请参见原文。

ICCV2019 | 锁定视频中的目标:港大提出运动注意力检测方法相关推荐

  1. ICCV 2019 | 港大提出视频显著物体检测算法MGA,大幅提升分割精度

    点击我爱计算机视觉标星,更快获取CVML新技术 本文解读了香港大学联合中山大学和深睿医疗人工智能实验室 ICCV2019 论文<Motion Guided Attention for Video ...

  2. 开源库 | 监控视频中的目标检测与跟踪

    介绍一份来自卡内基梅隆大学开源的主要用于监控视频中目标检测与跟踪的开源库:Object_Detection_Tracking . 其赢得了 2019 Activities in Extended Vi ...

  3. 【视频互动跟踪】通过matlab提取跟踪视频中的目标,并提示备注信息。通过FLash播放器可互动点击查看信息

    1.软件版本 MATLAB2010b 2.本算法理论知识 算法流程如下所示: 读取avi视频  :get_AVI.m 获取灰度视频:vedio_op.m 运动员跟踪  :func_man_catch. ...

  4. Transformer霸榜全景分割任务,南大、港大提出一种通用框架!

    来源:机器之心 本文中,来自南大.港大.英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架,不仅为语义分割与实例分割提供了统一的 mask 预测工作流程,而且使得 ...

  5. 屠榜多目标跟踪!华科amp;港大提出ByteTrack:基于数据关联方法BYTE的跟踪器

    作者丨孙培泽@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/421264325 编辑丨极市平台 导读 基于BYTE本文提出了一个跟踪方法ByteTrack,首次以30 ...

  6. linux服务器清除cdn,Linux服务器中查找并删除大文件的五种方法,Linux系统清除文件内容的命令分享...

    很多时候,在处理Linux终端中的文件时,您可能希望清除文件的内容,而无需使用任何Linux命令行编辑器打开它.怎么能实现这一目标?在本文中,我们将借助一些有用的命令,通过几种不同的方式清空文件内容. ...

  7. 如何去除视频中的水印?分享几个简单的方法给大家!

    当我们频繁观看视频时,经常会注意到一些视频上有水印的存在.这些水印通常是品牌标志或文字,嵌入在视频中.然而,这些水印可能会影响视频的观感,因此去除水印可以让我们更有效地利用视频资源进行学习和研究.此外 ...

  8. 计算成本缩减100倍!港中文提出语义分割新方法:张量低秩重建|ECCV2020

    原文链接:https://bbs.cvmart.net/articles/3099 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ --- ...

  9. CVPR 2021 | 中科大联合快手,提出人脸伪造检测新方法

    视学算法发布 机器之心编辑部 来自中科大.快手的研究者针对人脸伪造,提出了基于单中心损失监督的频率感知鉴别特征学习框架,将度量学习和自适应频率特征学习应用于人脸伪造检测,实现SOTA性能. 一:背景和 ...

  10. 视频中的目标检测与跟踪综述

    理解出错之处望不吝指正. 这是选题阶段整理出的一个综述形式的PPT,其中有些内容都是在别的地方摘抄的,在最后一页PPT中列出了所有的参考文献. 看到评论区好多人要这个PPT,故附上下载链接:https ...

最新文章

  1. 3D惯导Lidar仿真
  2. 微软应用架构指南(第2版)出版
  3. Jquery DataTable服务端分页的最佳实现
  4. mysql 服务器性能,mysql服务器性能配置
  5. python 队列与栈的实现
  6. 为未来元素添加点击事件的两种写法
  7. Shiro第四篇【Shiro与Spring整合、快速入门、Shiro过滤器、登陆认证】
  8. COACH与得物App达成官方合作 未来计划提供专供款商品
  9. [旧文新读] 深度学习在Airbnb搜索的应用实践
  10. b站用户画像2020_2020年抖音用户画像专栏报告(上)
  11. python特性 property_Python中property属性实例解析
  12. TCP/IP基础知识--华为数通部门讲解
  13. 爬虫:爬取网页表格内容,写入scv文件并绘图
  14. 欧拉函数计算公式的推导
  15. 二进制转八进制公式计算机,2进制转8进制(二进制转8进制公式)
  16. 在任意文件夹下以管理员的身份运行powershell
  17. 移动平台端到端低成本解决方案
  18. 程序员如何快速上位当领导?
  19. CMD控制台提示“telnet不是内部或外部命令,也不是可运行的程序或批处理文件”
  20. oracle中的open,oracle最常见的三个参数:open_cursors、sessions、processes

热门文章

  1. python找色_利用python检测色情图片简易实例
  2. 涉密计算机终端安全防护,终端安全登录与文件保护系统保密认证设备
  3. mp4播放器带后台开源源码
  4. iOS shareExtension总结分享
  5. iOS小技能:导航控制器(控制器、view的多种创建方式、控制器的生命周期)
  6. 光模块调式总结(SFP)
  7. 谈判如何在谈判中_谈判工作的十大规则
  8. RF- BuiltIn_Run Keyword关键字系列
  9. css立体翻页,[原创]纯CSS3打造的3D翻页翻转特效
  10. 方差分解分析 (VPA):定量不同环境因子对群落变化的解释比例