来源:机器之心

实例分割(Instance Segmentation)任务有着广阔的应用和发展前景。来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到端实例分割任务中与实例存在一一对应的特性,提出基于Query的实例分割新方法,在速度和精度上均超过现有算法。

在今年的计算机视觉顶级会议 ICCV 2021 上,腾讯 PCG 应用研究中心(ARC)与华中科技大学电信学院人工智能研究所联合提出业内领先的端到端实例分割算法 QueryInst。实例分割是视觉感知的基础问题,QueryInst 算法充分利用了 Query 与实例之间的一一对应关系,搭建了简洁且高效的实例分割模型。该算法在实例分割基线数据集 COCO、Cityscapes 以及视频实例分割基线数据集 YouTube-VIS 上进行了验证,在精度和速度方面都全面超越之前的 SOTA 方法,充分展示了 Query 机制在物体分割方向的超强实力。

  • 论文地址:https://arxiv.org/abs/2105.01928

  • 项目地址:https://github.com/hustvl/QueryInst

任务简介

实例分割(Instance Segmentation)任务是计算机视觉的经典任务之一。与目标检测、语义分割不同,实例分割任务聚焦于细粒度的图像理解,旨在对图片中感兴趣类别的实例进行像素级别的前景掩码预测。通过实例分割算法,可以获得图像的离散语义标签,从而进一步辅助下游的图像感知和图像生成。

在计算机视觉的发展长河中涌现了许多经典的实例分割算法。Mask R-CNN 基于 Faster R-CNN 网络,通过 RoIAlign 操作以及新引入的 Mask Head 完成掩码的预测。Cascade Mask R-CNN 通过结合 Cascade R-CNN 以及 Mask R-CNN,以一种级联的形式来产生更加准确、精细的掩码预测。HTC (Hybrid Task Cascade)在对 Cascade Mask R-CNN 的结构进行仔细分析后,通过调整网络的级联方式,并引入 Mask Information Flow 以及语义辅助分支来进一步增强实例分割的效果,在相当长的一段时间内,HTC 占据着实例分割领域的领先地位。

DETR 提出基于 Query(Query based)的端到端物体检测算法,该方法摆脱了之前物体预测总是基于固定空间位置的锚框 / 锚点(anchor based/keypoint based),转而依赖于可学习的向量进行预测。训练过程中,预测的结果与实际的真实值之间进行一一匹配,匹配的结果确定了预测损失的计算。这种一一匹配的方式有效地避免了网络产生重复冗余的预测,从而在推理阶段中可以不依赖于非极大值抑制等后处理算法,实现了端到端的目标检测。后续的 Deformable DETR、Sparse R-CNN 等工作进一步提高了基于 Query 的端到端物体检测算法的收敛速度以及精度。与之前基于锚框 / 锚点(anchor based/keypoint based)的方法相比,基于 Query 的方法已经取得了可媲美的结果。

在基于 Query 的目标检测算法快速发展的同时,如何拓展这种目标检测算法,使之有效的拓展到实例分割领域即为该论文探讨的问题。该论文通过大量的分析和实验论证说明:构建有效的基于 Query 的端到端实例分割算法不能简单地参考之前实例分割算法的思路,充分利用 Query 预测值与真实值之间一一对应的关系是提高算法模型精度和效率的关键。

端到端实例分割

参照 Mask R-CNN 与 Cascade Mask R-CNN 的设计思路,该论文首先提出了采用上述与之类似的简单掩码分割头(Vanilla Mask Head)的网络设计。在这种设计下,模型的掩码预测完全依赖于边界框(bounding box)和骨干网络提取的特征,通过 RoIAlign 操作进行局部特征提取之后,一个由若干卷积层组成的掩码预测头负责预测该区域的前景掩码。

在实验过程中,研究者发现直接使用上述简单的实例分割框架并不能得到很好的效果。原因之一在于上述框架并没有很好地利用 Query 所包含的实例特征。于是研究者们在上述结构的基础上通过引入多头注意力机制(Multi Head Self Attention)以及动态卷积(Dynamic Convolution)来解决该问题。

上图展示了该论文所提出的算法 QueryInst 的结构图。可以看出,Query 在检测和分割中依次与特征进行交互,使得 Query 在多任务(检测、分割、分类)中可以提取到不同层级的特征。其次,在不断的级联中,Query 在不同层级中也构建了有效的信息流动。这种跨任务、跨层级的信息流动有效地提高了检测、分类以及分割任务的表现。

端到端视频实例分割

视频实例分割将实例分割任务从图像域拓展到视频域。为了验证所提算法在不同任务场景下的鲁棒性,研究者们进一步在 QueryInst 的基础上,通过增加动态的跟踪任务头以及跟踪策略,提出了面向视频实例分割场景的 QueryTrack。

如上图所示,QueryTrack 遵循着被广泛采用的「先检测后跟踪」的范式,通过在 QueryInst 框架上添加动态的跟踪任务头来预测实例在连续视频帧中的身份信息,以此来完成时间域上的视频实例关联。

实验结果

为了验证所提出的 QueryInst 在实例分割任务上的有效性,该论文选取了 COCO 实例分割数据集、Cityscapes 实例分割数据集以及 YouTube-VIS 视频实例分割数据集进行验证。COCO 实例分割数据集是实例分割领域使用最广泛的基线数据集之一,Cityscapes 数据集是面向自动驾驶场景下的实例分割数据集。YouTube-VIS 是视频实例分割领域中广泛采用的大规模基线数据集。

上表展示了 QueryInst 在 COCO 测试集上的实例分割表现。从上述结果中可以看出,QueryInst 在大量不同数据增强的实验中均表现出了最佳的性能,超过了当前实例分割领域中广泛使用的 Mask R-CNN、Cascade Mask R-CNN 以及 HTC 等算法。在 Swin Transformer 的加持下,QueryInst 可以达到验证集 48.9,测试集 49.1 的 Mask AP。

上表为 QueryInst 在 Cityscapes 测试集上的实例分割结果,在相同的骨干网络下,QueryInst 在 Cityscapes 数据集上也超越了 Mask R-CNN、UPSNet、CondInst 等一众模型,取得了较好的实例分割效果。

为了进一步探究 Query 在实例分割过程中所扮演的角色,研究者对掩码动态卷积前后的特征进行了可视化。如下图所示,可以观察到,在与 Query 进行动态卷积交互之后,实例的前景特征得到了相当程度的强化,与背景特征之间产生了很好的区分度,这充分地说明了 Query 在算法中的作用。

在 2021 年 YouTube-VIS 视频实例分割比赛中,基于 QueryInst 的视频实例分割模型 QueryTrack 在 YouTube-VIS 数据集上取得了验证集 54.3 AP,测试集 52.3 AP 的成绩,斩获比赛亚军。相较于冠军方法采用了额外数据集辅助训练、多模型联合预测等一系列训练、推理技巧取得测试集 54.1 AP的成绩,该研究的方法仅采用了单模型、单尺度且无额外数据集的训练、推理策略。该比赛吸引了包括 Facebook AI,百度,UIUC 和 CUHK 等著名公司及高校。

研究者认为,QueryInst 充分利用了 Query 与实例一对一的特性,其高精度、高速度的特性将会保证其在计算机视觉的多种下游任务中获得广泛的应用。

研究团队

该方法是由腾讯 PCG 应用研究中心(ARC)和华中科技大学电信学院人工智能研究所的研究者提出的。应用研究中心被称为腾讯 PCG 的「侦察兵」、「特种兵」,站在腾讯探索挑战智能媒体相关前沿技术的第一线。华中科技大学电信学院人工智能研究所长期致力于目标检测、分割等计算机视觉核心问题的研究,并服务于国家和企业的重大需求。

说个正事哈由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:(1)点击页面最上方“深度学习技术前沿”,进入公众号主页。(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 北京大学智能计算与感知实验室招收博士、硕士、本科实习生

  • 博士申请 | 香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

重磅!DLer-计算机视觉&Transformer群已成立!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

???? 长按识别,邀请您进群!

开启基于Query的实例分割新思路!腾讯华科提出QueryInst相关推荐

  1. 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路

    视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

  2. ICCV 2021 | 腾讯、华中科大提出QueryInst,开启基于Query的实例分割新思路

    ©作者 | 机器之心编辑部 来源 | 机器之心 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC) 和华中科技大学的研究者们 ...

  3. Query Generation Module-NTU用多样性的query生成,涨点基于文本的实例分割(已开源)...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者解决的任务是基于文本的实例分割(referring segmentation,RES).在这个任务中,作为query的文本通常描述了实例之间的 ...

  4. CVPR2020 Oral|实例分割新思路: Deep Snake

    点击上方"AI算法修炼营",选择加星标或"置顶" 标题以下,全是干货 本文授权转自知乎作者彭思达,整理:极市平台 地址:https://zhuanlan.zhi ...

  5. 基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

    作者 | Yang Yang.Xiaojie Guo.Jiayi Ma.Lin Ma.Haibin Ling 译者 | 刘畅 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) ...

  6. 高效新思路!实例分割算法!腾讯、华科出品!入选ICCV 2021!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:知乎Sophia https://zhuanlan.zhihu.com/p/408866265 985人工智能 ...

  7. 聊一聊今年实例分割领域的进展和未来展望

    点击上方"视学算法",选择"星标" 干货第一时间送达 作者:林大佬 | 来源:知乎 https://zhuanlan.zhihu.com/p/150321886 ...

  8. 聊一聊2020年实例分割领域的进展和未来展望

    作者|林大佬@知乎 This article was original written by 林大佬, welcome re-post, first come with https://zhuanla ...

  9. 基于轮廓调整的SOTA实例分割方法,速度达32.3fps | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 介绍 实例分割是许多计算机视觉任务中的重要手段,目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法.受snake算 ...

最新文章

  1. 【建模必备】遗传算法的基本原理与步骤(交叉)
  2. Rails源码笔记-ActiveSupport-core_ext-date
  3. WCF之服务实例管理
  4. python程序实例教程基础-Python程序设计实例教程
  5. C# 读取指定目录中的所有文件,并按规则生成SQL语句!
  6. nsis 修改exe执行权限
  7. 提供《疯狂的程序员》下载地址
  8. Total capture: A 3D Deformation Model for tracking faces, hands and bodies
  9. POJ--3278 Catch That Cow
  10. volatile解析(转)
  11. poj 1363 Rails 栈应用基础题
  12. Linux根目录的建立
  13. 用markdownpad2导出的pdf字体太小的解决办法
  14. oracle密码锁屏时间,OPPO用户怎么让手机变流畅?花1分钟关闭这4个设置,瞬间变流畅...
  15. 2021年腾讯云618活动最新优惠攻略
  16. 安静:内向性格的竞争力 苏珊·凯恩
  17. BJFU_数据结构习题_241双栈的基本操作
  18. 使用铝、金、铜做电极的CCD摄像机
  19. 周志华机器学习:决策树
  20. 新买的笔记本如何安装计算机,新电脑买回来要怎么做【经验分享】

热门文章

  1. css改变背景透明度
  2. 社区企业云操作系统 (不错的开源虚拟化系统,期待中)
  3. Linux下的QQ截图
  4. du -sh 目录名称查看文件夹大小
  5. windows解压tar.gz文件 7z
  6. os.path.dirname(path) 返回文件的绝对路径
  7. 中科院刘焕勇老师知识图谱关于schema博客
  8. 梯度下降法的个人理解随笔
  9. 数学等于号是=那三个横杠是什么符
  10. JavaHelp软件的一个定制实用程序类