作者 | 派派星 编辑 | CVHub

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【实例分割】技术交流群

后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!

Title: PatchDCT: Patch Refinement for High Quality Instance Segmentation

Paper: https://arxiv.org/pdf/2302.02693

Code: https://github.com/olivia-w12/PatchDCT

作者知乎: https://www.zhihu.com/people/flyyoung-68 【欢迎关注】

导读

图像分割是指在复杂的视觉环境中分离对象的任务,是计算机视觉研究的一个重要领域。而实例分割是图像分割任务的一种特殊形式,它可以在分割的基础上有效的区分对象的实例。这在自动驾驶汽车、医学成像、空中作物监测等实际生活场景中具有大规模的适用性。

简单理解的话,我们可以任务实例分割是语义分割和目标检测的联动体,它能够在两者基础之上表达更丰富的内容。从专业角度来看的话,实例分割可以为多个类别的每个实例生成边界框以及相应的对象分割掩码。它将同一类的多个对象视为不同的实例。

或许很多人都听说过这项任务,但相对来说很少有人投入到该方向,毕竟检测图像中存在的不同对象的多个实例及其逐像素分割掩码确实是一个极具挑战性的任务,尤其是涉及到精细化的输出要求。今天为大家带来的便是由作者本人对 PatchDCT[1] 工作的解读,本文由浙大、阿里、交大等院校和公司联合发表在 ICLR 2023 上的高分文章。

动机

精细实例分割是计算机视觉里面比较重要的研究课题。Mask R-CNN[2] 应该可以算是该领域的一个代表性工作,随后更令人印象深刻的便是同样由何凯明提出的 PointRend,通过将计算机视觉中的图像分割问题类比为计算机图形学中的图像渲染问题,并利用一种不断迭代的算法来自适应的挑选出不够“完美”的区域,同时对该区域的像素点进行精细化的调整预测,最终呈现出完美的分割效果:

尤其记得当时第一次看到这张图时感觉非常的 Amazing!特别是五根手指关节的细节部分,着实佩服。而今天为大家介绍的 PatchDCT 这个工作便是这个方向上的一点贡献。

首先,让我们先总结下实现精细化实例分割的两种常见做法:

  • 多阶段级联来精修分割结果,代表作有 HTC[3]、PointRend[4]、Mask Transfiner[5]、RefineMask[6]等;

  • 向量压缩保留高分辨率的特征,代表作有 MEInst[7]、DCT-Mask[8]、SOLQ[9] 等。

那么一种自然的想法便呼之即出:是否可以结合两种方式更好地实现精细分割结果。 答案是可以的,但不是简单的结合就可以成功。

首先,让我们先观察使用 DCT 编码实现高分辨率掩码的编解码过程:

DCT mask representation

接下来,再让我们一起回顾下 DCT 的编码公式:

不难发现高度压缩的特征向量的每一个元素和原始高分辨率特征图中所有区域的特征都有关系,反之亦然。如果结合多阶段级联的想法不断地精修这个压缩向量,一定会经常出现下图(a)中的现象。即当300维的 DCT 向量中有一个元素发生了剧烈的改变,会导致 DCT 反变换后整个掩码发生巨大变化,而且这个变化往往是不可控的。根据实验发现,简单地使用“级联精修+压缩向量”的方式只带来了0.1%的性能提升。相比所牺牲的速度,这点提升显然是不可接受的。

因此,为降低由于压缩向量对整个掩码的产生的影响,本文提出了一种基于切片化的策略,即将整个掩码切割成多个相互独立的“块”(patch),然后对这些 patch 进行向量压缩以及级联精修。如上图(b)所示,某个 patch 的压缩向量元素的变化不会影响其它 patch 的掩码预测。我们将基于这种做法的实例分割方法叫做 PatchDCT

方法

网络架构图

上图展示了 PatchDCT 的整体结构,其主要包含一个三分类的分类器和一个回归器,下面分别介绍下。

分类器

掩码的 patch 在本文被分类三类:

  • 前景 patch(只包含前景)

  • 背景 patch(只包含背景)

  • 混合 patch(同时包括前后景)

其中,前景、背景和混合 patch 经过 DCT 变换后,其压缩向量分布如下图所示:

可以看到前景和背景 patch 的压缩向量特点鲜明,因此分类器对于区分这三种 patch 会比较容易。当然还是会存在前后景识别错误的情况,那样的话往往会出现前景分割结果中间存在一个方形空洞,或者背景区域中有一个前景块的情况,这个会在最后给一些可视化的例子。

回归器

分类器的主要作用其实是筛选出混合 patch,因为待分割目标的边界往往存在在这些patch中。能否实现精细实例分割的关键往往取决于边界处的分割效果。回归器输出  维()包含足够 mask 信息的 DCT 向量。

多阶段级联

通过DCT-Mask得到预测的掩码之后,就可以使用多个PatchDCT模块进行级联精修,如下图右边所示,其中  表示 PatchDCT 模块, 表示 mask, 表示 FPN-P2 输出的特征。

整体的掩码损失计算如下:

式中第一项  是第一阶段 DCT-Mask 预测的  维掩码压缩向量的损失:

式中  和  分别是 GT 和预测的 DCT 向量的第  个元素, 是 DCT 向量的维度,默认 300。

此外,第  个级联阶段中的分类损失  是三分类的交叉熵损失,而第  个级联阶段的回归损失可表示为:

式中  和  分别表示混合 patch 的数量和所有 patch 的数量。 则表示每个 patch 所对应的 DCT 向量的维度,文中最终使用 。 是一个符号函数,如果当前是混合 patch 则等于1,否则为0。

实验

Ablation Study

此外,本文还做了充足的消融实验来将整个模块的各个参数调至最优状态,包括级联阶段数、patch 所对应的 DCT 向量维度等等。

Quantitative Comparison

结论:PatchDCT 模块可以有效地同时发挥级联精修和压缩向量两种方式的优势。表2和表3显示,PatchDCT 相比 Mask RCNN 在 COCO、LVIS 和 Cityscapes 数据集上分别提高了2.0%、3.2%和4.5%的AP,以及3.4%、 5.3%, 7.0% 的 Boundary AP。

另外,相比于 DCT-Mask,PatchDCT 分别在这三个数据集上提高了0.7%、1.1%和1.3%的 AP,以及 0.9%、1.7%和4.2% 的Boundary AP。由于本文主要目标就是提高分割的精细程度,因此 Boundary AP 指标更具有代表性。除此之外,PatchDCT 相比其他精细实例分割方法在速度和精度上同时展现出了有竞争力的表现,如表4所示。

Qualitative Comparison

Limitations

前面提到过分类器可能存在分类错误的现象,导致出现一些空洞(hole)现象,如上图所示。

总结

本文提出了一种基于压缩向量的高质量实例分割方法——PatchDCT。同先前的方法相比,PatchDCT 分别细化了每个掩码块,并利用 PatchDCT 向量来压缩充满细节的边界。此外,通过使用分类器细化前景和背景块,并为每个混合块预测信息丰富的低维 DCT 向量,PatchDCT 得以生成具有精细边界的高分辨率掩码。总的来说,PatchDCT 所提出的 Patch 化思路通俗易懂,整个方法的结构设计也简洁明了。同时,与 Mask-RCNN 和 DCT-Mask 相比,该方法能够以极低的速度成本获得高质量的分割效果。

References

[1]

PatchDCT: https://arxiv.org/pdf/2302.02693.pdf

[2]

Mask R-CNN: https://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-CNN_ICCV_2017_paper.pdf

[3]

HTC: https://arxiv.org/abs/1901.07518

[4]

PointRend: https://arxiv.org/abs/1912.08193

[5]

Mask Transfiner: https://arxiv.org/abs/2111.13673

[6]

RefineMask等: https://arxiv.org/abs/2104.08569

[7]

MEInst: https://arxiv.org/abs/2003.11712

[8]

DCT-Mask: https://openaccess.thecvf.com/content/CVPR2021/papers/Shen_DCT-Mask_Discrete_Cosine_Transform_Mask_Representation_for_Instance_Segmentation_CVPR_2021_paper.pdf

[9]

SOLQ: https://arxiv.org/abs/2106.02351

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

ICLR 2023 | PatchDCT: 开启精细化实例分割新篇章!相关推荐

  1. ICLR 2023:基于 diffusion adversarial representation learning 的血管分割

    ICLR 2023:基于 diffusion adversarial representation learning 的血管分割 目录 前言 概述 DDPM switchable SPADE laye ...

  2. 赛事推荐| 建筑物实例分割和高度估计的多任务学习——2023 IEEE GRSS 数据融合赛道2

    1. 赛题名称 联合建筑物提取和高度估计的多任务学习 2. 赛题背景 该轨道定义了建筑物提取和高度估计的联合任务.两者都是建筑改造的两个非常基础和必不可少的任务.与轨道 1 相同,输入数据是多模态光学 ...

  3. 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路

    视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

  4. 开启基于Query的实例分割新思路!腾讯华科提出QueryInst

    来源:机器之心 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到 ...

  5. ICCV 2021 | 腾讯、华中科大提出QueryInst,开启基于Query的实例分割新思路

    ©作者 | 机器之心编辑部 来源 | 机器之心 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC) 和华中科技大学的研究者们 ...

  6. 综述 | 实例分割研究

    作者丨youtober@知乎 来源丨https://zhuanlan.zhihu.com/p/412675982 编辑丨极市平台 摘要 在计算机视觉领域,实例分割是一个很重要的研究主题,在地理信息系统 ...

  7. 实例分割研究综述总结

    作者丨youtober@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/412675982 编辑丨极市平台 导读 本文综述基于实例分割的最新进展和发展历程,首先介绍了实 ...

  8. 实例分割最新最全面综述:从Mask R-CNN到BlendMask

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|AI算法与图像处理 前面的话 实例分割(Instance ...

  9. 实例分割综述(单阶段/两阶段/实时分割算法汇总)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 目标检测或定位是数字图像从粗到细的一个渐进过程.它不仅提供了图像对象的类,还提供了已分类图像中对 ...

最新文章

  1. 寒武纪开盘暴涨350%,市值突破1000亿,85后创始人身家超300亿!千亿盛宴背后隐忧不可忽视!...
  2. 最先进的AI还不如动物聪明?首届AI-动物奥运会英国开赛!
  3. 解决Win7旗舰版开机后无线网络识别非常慢的问题
  4. JavaScript判断是否是手机mobile登录
  5. iOS架构-自动打包并上传到App Store(python)(21)
  6. 解决Cannot convert a symbolic Tensor (lstm/strided_slice:0) to a numpy array.
  7. Maven依赖Scope标签用法
  8. sata修改为ahci后系统无法启动_固态重装系统
  9. 重温Elasticsearch
  10. 公司用的非标普通自动化用单片机还是plc_PLC的介绍
  11. WordPress 极简约风格smalls-one主题
  12. aiohttp/flask python后端单元测试,单元测试覆盖率测试
  13. 打造真正理想中的会呼吸的智慧城市
  14. Redis 过期策略和内存淘汰机制
  15. Loadrunner Error code : 9013.
  16. java网络封包_java封包
  17. 腾讯实时股票数据接口怎么获取行情?
  18. 如何高效读懂一本书(附10种读书方法)
  19. 【LeetCode】1337. 矩阵中战斗力最弱的 K 行(C++)
  20. 千锋和蓝欧html5,蓝鸥零基础学习HTML5第六讲 CSS的常见样式

热门文章

  1. 工控机IP地址规划 妙用保留地址 169.254.x.x
  2. 如何用计算机得出十三分之一,单片机原理及应用期末考试题试卷大全
  3. [opencv完整项目详解] 传统图像算法解决路标的检测和识别
  4. 项目管理软件Microsoft Project 2019和 Visio 2019下载
  5. c语言抢票软件,12306网站探访记:一秒出票二百张抢票软件有用--财经--人民网...
  6. 通过Bypass UAC进行权限提升
  7. 第三步,下载刷机软件和刷机包。 1.miflash 小米官方刷机软件 http://bigota.d.miui.com/tools/MiPhone20151028.exe 2.下载刷机包。
  8. revit二次开发 点投影到面_revit二次开发笔记
  9. 卷积滤波 英文_图形学之卷积滤波器
  10. IDEA下载及用校园邮箱激活