©PaperWeekly 原创 · 作者|武广

学校|合肥工业大学硕士生

研究方向|图像生成

图像分割在深度学习的加持下精度性得到不断的提高,主要的分割任务集中在全自动分割的方法下进行,然而一些特定的任务往往是自动分割方法无法实现的。例如仅对感兴趣的目标进行分割,在自动分割结果不够好的情况下通过用户介入矫正,特定医疗图像的目标分割等。

此时,交互式分割则发挥着重要的作用,它可以在自动分割不充分的情况下通过用户提供前景和背景的标记实现更加精细和特定位置的目标分割。本文将对交互式分割近年的发展进行梳理和介绍。

交互式分割简介

交互式分割是用户通过提供目标物体前景和背景信息实现交互式的监督分割。交互式分割往往是建立在自动分割的基础上,对已有的监督信息中增加人为(模拟人为)的标记,实现更加精细的分割。图 1 展示了通过指定前景和背景点实现的交互式分割。其中绿色点为前景标记点,红色点为背景标记点。

▲图1.前景背景点下的交互式分割

交互式分割作为图像分割的一个重要分支也经历了一定的发展。早期的分割和交互式分割是基于高斯混合模型和马尔科夫随机场实现。

通过基于马尔科夫随机场模型的图像分割算法假设待分割图像的像素只与其邻域内的像素相关,与邻域外的像素无关;基于该假设我们能定量计算图像局部的先验结构信息,并根据最大后验概率准则(MAP),有效的利用像素间结构信息分割图像。

依靠能量最小化的分割是定义一个能量函数E,其最小值对应理想的分割。由于前景和背景灰度水平直方图和不透明度是连贯的,并能反映物体实体化的倾向。这样获得一个“吉布斯(Gibbs)”能量的形式。

随着深度学习的发展,以GrabCut算法 [1] 为主,利用图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互(提供前景标记框)操作即可得到比较好的分割结果。

我们知道,近年来的神经网络朝着更大更深的方向发展,图像分割的精度和细节愈发的逼近真实分割结果,本文将通过近年典型的几篇交互式分割文章对该方法进行一定梳理和分析。

交互式分割近年典型方法

2.1 F-BRS

f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation [2] 是 CVPR 2020 的文章,文章提出了一种新颖的反向传播优化方案(f-BRS),该方案可在网络的中间特征上运行,并且只需要对网络的一小部分进行正向和反向传递。实验结果在准确性和速度方面设定了最高的结果。

f-BRS 的优化过程可以通过以下 demo 进行演示。

可以看到,f-BRS 可以在得到交互式前景和背景的点击下,在进行传播的过程中,不仅可以从输入进行反向传递也可以从相应的特征提取的模块节点下进行反向传播优化网络,这将在推理上可以实现大幅度的速度提升,值得说的是后端优化的节点并没有带来多大分割精度上的损失。

我们看一下模型的实现细节,整个模型结构如图 2 所示。

▲图2.f-BRS模型结构

模型的输入为原图 image 和已经处理好的前景背景的点。如何处理好这些前景和背景的点呢,这就需要通过一个 Distance Maps 去实现,也就是图上画出来的。

说的通俗一点,这个 Distance 就是怎样确定前景点和对应的 mask 上的区域,源码下采用 num_max 作为前景点的最多个数,默认是 10 个。也就是最多在一个区域标记 10 个前景点和 10 个背景点,通过将这些点进行距离映射处理后得到与图像尺寸相当的 channel 为 2 的距离图。

得到 Distance Maps 后,我们的输入就是对应的 Image 的,有人可能又要质疑了,你是怎么确定前景点和背景点的呢?处理前景点和背景点的任务其实是要人通过交互的输入进行的。怎么去程序化呢?也就是让电脑模拟人的输入进行交互呢?

这其实很简单的,就是通过已有的真实图像的 Mask 去确定,Mask 在目标物体位置区域内是 1,否则全为 0。随机选择 1 的位置作为前景点,0 的位置作为背景点,允许重复的情况下选择 10 个前景点和 10 个背景点(坐标(-1,-1) 的情况下表示放弃标点)。

文章在对数据进行增强的时候,利用了 Python 下的 albumentations 包,这是个专门实现数据增强的模块,其中包括 Compose, ShiftScaleRotate, PadIfNeeded, RandomCrop, RGBShift, RandomBrightnessContrast, RandomRotate90, Flip。

对于后续的网络架构,我们以 ResNet34 为例,对网络进行了详细展开,得到的结果如图 3 所示,对模型中的 BatchSize 进行省略,输入的图像尺寸为 。

▲图3.f-BRS基于ResNet34实现细节

中间的特征节点 f-BRS-Af-BRS-B 和 f-BRS-C 在图 3 中进行了标注,在进行部分反向传播的时候,也是以这几个节点为基础进行操作。模型采用了较为成熟的 Skip project 和 ASPP 方法,这里还要再强调一下文章提出的 zoom in 方式,使用的 zoom in 分为 5 个阶段。

  1. 阶段一是确定目标下的边界框

  1. 适度小的扩展找到的边界框

  1. 通过得到的边界框对图像进行剪裁

  1. 上采样得到的中心区域

  1. 再次预测边界

Zoom in 方式的采用可以在不添加任何互动点击的情况下得到更好的结果。同时 zoom in 的使用将之前已有的交互式分割方法也可以得到较好的提升,这种方式还是很值得借鉴的。

f-BRS 在 GrabCut、Berkeley、SBD 和 DAVIS 数据集上均取得了优异的结果。

▲图4.f-BRS各数据集下实验结果

2.2 Uncertainty-Guided

Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices [3] 是 MICCAI 2020(医学图像领域的顶会)一项工作,这是一篇典型的在自动分割的基础上施加交互式分割的文章,我们先从整体的逻辑实施切入分析。

▲图5.Uncertainty-Guided交互式分割流程

输入的一张图像通过自动分割得到初始的分割结果和一张不确定分割结果,所谓的不确定分割图,就是网络对某些部位是前景还是背景的怀疑程度,文章得到 N 个不确定分割图,这 N 个不确定分割图通过怀疑概率从高到低进行排列,由人为进行交互修正。

当用户连续对 3 张不确定图作出不需要修正的决定后便提前终止交互,输出细化后的分割结果。在模型的网络结构上采用基于分组卷积的 MG-Net。

▲图6.Uncertainty-Guided模型结构

该模型实现了同时获得多个分段预测和实时不确定性估计,在进行不确定分割结果的交互上通过从高到低的检测方式,避免了对分割良好的结果进行不必要的手动检查。可以这样说,只要自动分割得到的初始化分割结果够好,根本不用后续的不确定分割的参与,直接输出。

正是不确定分割的引入,对网络和细分割上进行了要求上的调整,只有满足一定的人为修正次数或者人为认定不需要进行修正时,才能作为最后的结果输出。这种设计正是交互式分割在处理细化分割上最应该实现的方式。

将 Uncertainty-Guided 应用在不同模型下的定量结果如下。

2.3 Refinement Network

Interactive Deep Refinement Network for Medical Image Segmentation [4] 提出了 RefineNet,这是一种用于医学图像分割的交互式深度优化网络。主要目的是完善自动分割网络产生的分割结果。

网络由两部分组成,第一部分是产生初始分割的分割主干;第二部分是优化网络,该网络结合了多尺度初始细分的功能和用户的种子点。网络可以在训练阶段自行生成种子点,并且仅在测试阶段需要用户的种子点。

这种方式不同于 Uncertainty-Guided 的不确定性分割,而是通过多尺度细分去实现交互式分割,模型结构框架如图 7 所示。

▲图7.Refinement Network模型结构

左半部分就是典型的 U-Net 网络,文章的创新之处都在右半部分,由 U-Net 在不同尺度下得到各尺度下分割图像。在不同尺度下反馈到交互指导图(种子图像),种子图就是我们说的用户的输入的指示图,也就是上图中的右下角的图像。

这个种子图的获取上,在训练和测试阶段是分开的,在训练阶段种子图的获取的方式是通过 GT(Ground Truth)和初始的分割图进行相减,用图 8 进行解释。

▲图8.前景点和背景点的确定

将两个图像相减会生成相减掩码,由于都是二值图像,指示每个像素为 -1、0 或 +1,得到的结果为 +1 遮罩称为过分分割遮罩(此时判定为过分分割),而 -1 遮罩被视为分割不足遮罩(此时判定为分割不足)。

这反映在种子图上就是用红色标记背景,用蓝色标记前景,回归到结构框架上,种子图通过 resize 指导不同尺度下的图像进行修正。

在测试阶段,一般交互式分割方法的主要缺点是用户不知道困难区域,该区域主要是分割不足或分割过度,直到获得初始分割结果为止。

初始分割是从第一个网络生成的;通过初始分段,用户可以观察初始分割结果,对过度分割和分割不足的区域,并将它们用作输入准则。与训练阶段的种子点不同,自动生成的种子点需要真实分割图像,而人工种子点是从用户输入的。

Refinement Network 在分割实验上取得了不错的结果。

总结

本文就近年交互式分割下典型的三种模型进行介绍,以单纯交互式分割 F-BRS、通过对自动分割后的不确定性的 Uncertainty-Guided 进行细致分割,以多尺度交互式细分分割的 Refinement Network。

F-BRS 反向传播优化方案将大幅度提升分割速度,只需要对网络的一小部分进行正向和反向传递。Uncertainty-Guided 设计的不确定分割图是交互式分割的发展方向,也是一条很值得学习的方式,这种分组卷积的成功为以后设计的交互式分割提供了参考。

Refinement Network 通过 GT 与预测之间的相减确定是否过度分割或者分割不足的情况可以适用于很多的分割上,这种自动化的方式可以适用在背景和前景的交互指导上,可以对分割结果进行进一步的结果修正。

同时在各个尺度下的指导修正也是一个很值得利用的点,当获得种子图,可以通过 resize(此时的 resize 操作只是在标记点的映射,不影响种子点)进行不同尺度的调整。

大尺度可以 resize 到小尺度,小尺度的种子图完全可以 resize 到大尺度,这个种子图不受尺寸影响,得到的种子图指导大尺度的话,可以得到更加合理的分割图像。小尺度的连续,可以指导大尺度下的不连续,这种方式可以做一定程度的适用和改进。

参考文献

[1] Rother C, Kolmogorov V, Blake A. " GrabCut" interactive foreground extraction using iterated graph cuts[J]. ACM transactions on graphics (TOG), 2004, 23(3): 309-314.

[2] Sofiiuk K, Petrov I, Barinova O, et al. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8623-8632.

[3] Wang G, Aertsen M, Deprest J, et al. Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices[J]. arXiv preprint arXiv:2007.00833, 2020.

[4] Kitrungrotsakul T, Yutaro I, Lin L, et al. Interactive Deep Refinement Network for Medical Image Segmentation[J]. arXiv preprint arXiv:2006.15320, 2020.

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

指哪分哪:交互式分割近期发展相关推荐

  1. 5分钟速通 AI 计算机视觉发展应用

    作者 | 李秋键 出品 | AI科技大本营(ID:rgznai100) 计算机视觉是进步最大.发展最快的领域之一.根据 Global VIEW 的研究,全球计算机视觉市场规模在 2020 的价值为 1 ...

  2. ICCV2021: 淘系素材制备平台中的自研交互式分割技术(含试用demo)

    还在为耗时耗力的抠图苦恼吗?只要轻松几次点击,即可分割出图像中你想要的任意目标.淘系技术"图像和美"团队联合iTag推出FAI-素材制备平台(如图1),致力于用最简单的交互获取精准 ...

  3. 交互式分割: Interactive Object Segmentation with Inside-Outside Guidance

    论文:https://ieeexplore.ieee.org/document/9157733 代码: https://github.com/shiyinzhang/Inside-Outside-Gu ...

  4. Mysql 分表 垂直分割_图文解释 读写分离、垂直拆分、水平拆分、分库分表

    1. 前言 相信你经常被 读写分离.垂直拆分.水平拆分.分库分表 这几个名词搞得很懵逼.我有时候也很懵逼,那么今天就来把这几个数据库常用术语搞清楚,同时也记录一下. 2. 读写分离 这个相对比较好理解 ...

  5. 地标建筑物识别——Task3 语义分割模型发展

    前言:该部分我们学习语义分割网络模型的发展:FCN .SegNet.Unet.DeepLab.RefineNet.PSPNet.GAN 语义分割.语义分割(全像素语义分割)作为经典的计算机视觉任务(图 ...

  6. 语义分割未来发展如何?

    本文源自知乎作者立夏之光,已获作者授权转载,请勿二次转载 链接:https://www.zhihu.com/question/390783647/answer/1223902660 语义分割目前遇到了 ...

  7. Backbone发展与语义分割网络发展

    整理如下(按照arxiv上面时间线的预印版本来整理): Backbone(基础网络,也可以理解为分类网络): Backbone可以塞入UNET作为使用. 年代 网络名称与代码 论文名称 1989 Le ...

  8. CVPR2020交互式分割算法IOG的配置(Interactive Object Segmentation with Inside-Outside Guidance)

    目标跟踪.目标检测.前景分割不分家,如SiamMask.SiamR-CNN 这篇文章针对目标框可起到很好地分割效果. 注:原代码的运行环境为Ubuntu,本文在Windows10系统下完成配置. 1. ...

  9. 指静脉当前遇到的问题/展望,发展方向

    一.<基于改进残差网络的指静脉识别算法>_易芮 2020.5.20 ①采集到的指静脉图像质量不高"边缘曝光"及手指的自由度导致图像存在的偏移问题 (传统的指静脉识别技术 ...

最新文章

  1. Firebug Console 与命令行全集
  2. 他们拿走腾讯广告百万奖金,我算是知道票圈广告为啥那么多赞了
  3. 【Python基础】Python开发环境设置和小技巧
  4. QuartusII和NiosII,FPGA板之间的关系
  5. Unity Editor开发
  6. swift button一些简单设置
  7. Autofac在.NET Core 中的使用
  8. 搭建ssh框架的步骤
  9. 用LVM管理Linux系统服务器存储空间
  10. Python-pillow库显示MNIST图片的方法
  11. 字符串在JVM中如何存放 及常量池技术
  12. android 使用shell模拟触屏_Android按键精灵 触摸精灵 触动精灵等软件模拟屏幕点击的基本原理...
  13. 李宏毅机器学习笔记——回归
  14. X509 PKCS7 PKCS12
  15. C++学习笔记:实现向量类的加减赋值运算,重载运算符
  16. java中类成员,java中类成员的限定词
  17. mac 下安装Microsoft Remote Desktop远程桌面客户端
  18. ubuntu下安装nccl具体教程
  19. 重新装mysql出现乱码,数据库出现乱码的原因和解决办法
  20. No.8 CA证书和SSH服务

热门文章

  1. oracle set parseonly on,Set noexec on 与 Set parseonly on的区别及SQL语法检查
  2. python中readlines函数例子_Python的函数readlines(n)行为
  3. 易经读书笔记11地天泰
  4. K8S 部署 ingress-nginx (三) 启用 https
  5. APP的CPU,内存,耗电,流量测试工具
  6. Tomcat 运行项目出现 server tomcat v8.0 server at localhost failed to start处理方式
  7. web 表单,脚本验证
  8. 在WPF的DATAGRID中快速点击出现在ADDNEW或EDITITEM事务过程不允许DEFERREFRESH
  9. Spring中使用JDBC
  10. linux清理swap内容,Linux如何清理swap.buffer及cache等缓存