论文地址:https://arxiv.org/abs/1810.09726
发表于:BMVC’18

Abstract

最先进的语义分割方法在有监督的情况下使用大量的标注训练图像语料库进行训练。然而,与收集未标注的数据相比,收集这样的语料库是很昂贵的,因为需要人为的标注工作。我们提出了一个基于主动学习的策略,称为CEREALS,在这个策略中,人类只需要在未标记的图像语料库中手工标注一些自动选择的区域。这最大限度地减少了人类的标注工作,同时使语义图像分割方法的性能最大化。自动选择程序是通过以下方式实现的:a)使用一个合适的信息度量,结合从学习成本模型中推断出的对人类标注工作的估算,以及b)探索图像的空间一致性。CEREALS的性能在Cityscapes上得到了证明,我们能够将标注工作减少到17%,同时保持了用Cityscapes的完全标注训练集所训练的模型的95%的mIoU。

I. Overview

本文是一篇比较经典的基于区域(相对基于图像而言)的主动学习语义分割研究,一大特点是充分考虑了实际应用的需求。一般来说,主动学习的人工标注成本是通过需要标注的图片数量(image based)或需要标注的像素数(pixel based)来衡量的,不过本文认为用像素数并不合适,因为实际标注的时候不可能去一个一个的标,为此本文是用鼠标点击数去衡量的。而为了去估算鼠标点击数,甚至用了个单独的模型去学。

II. Architecture


接下来将逐步分析该AL框架所涉及到的各个步骤。

III. Training

训练部分有两个模型,一个就是正常的语义分割模型(图中的Sem. Seg. Model),用的是FCN8s,以生成语义分割预测结果。这里比较有意思的是,语义分割模型后面跟了个开销模型(图中的Cost Model),其输入为语义分割预测结果与未标注的数据。

IV. Information Extraction

Information Extraction这步做的是计算每张图像的标注价值。那么类似于其他的AL方法,这里的价值估算是基于Entropy的。形式化地讲,对于像素(u,v)(u,v)(u,v),给定语义分割模型fθf_{\theta}fθ​以及输入图像xxx,由于语义分割是一个多分类问题,因此可以记预测结果PPP在(u,v)(u,v)(u,v)处的预测结果P(u,v)P^{(u, v)}P(u,v)分布为:P(u,v)=^P(u,v)(fθ(x))P^{(u, v)} \widehat{=} P^{(u, v)}\left(f_{\theta}(x)\right) P(u,v)=P(u,v)(fθ​(x)) P(u,v)P^{(u, v)}P(u,v)可以认为就是种随机事件。接下来,计算该预测结果的熵:H(u,v):=−∑cPc(u,v)⋅log⁡(Pc(u,v))H^{(u, v)}:=-\sum_{c} P_{c}^{(u, v)} \cdot \log \left(P_{c}^{(u, v)}\right) H(u,v):=−c∑​Pc(u,v)​⋅log(Pc(u,v)​) Pc(u,v)P_{c}^{(u, v)}Pc(u,v)​其实意思就是(u,v)(u,v)(u,v)处属于类别ccc的概率。不过,本文并没有直接拿熵作为信息量度量,而是又去搞了个投票熵。当然这个投票熵也是传统主动学习领域的概念了,有:V(u,v):=−∑c∑eD(Pe(u,v),c)NE⋅log⁡∑eD(Pe(u,v),c)NEwhere D(a,c)={1,if argmax⁡(a)=c0,otherwise V^{(u, v)}:=-\sum_{c} \frac{\sum_{e} D\left(P_{e}^{(u, v)}, c\right)}{N_{E}} \cdot \log \frac{\sum_{e} D\left(P_{e}^{(u, v)}, c\right)}{N_{E}} \quad \text { where } \quad D(a, c)= \begin{cases}1, & \text { if } \operatorname{argmax}(a)=c \\ 0, & \text { otherwise }\end{cases} V(u,v):=−c∑​NE​∑e​D(Pe(u,v)​,c)​⋅logNE​∑e​D(Pe(u,v)​,c)​ where D(a,c)={1,0,​ if argmax(a)=c otherwise ​ 不过,投票熵涉及到用多个模型去预测一个样本,但这里用多个模型显然来说开销很大,因此这里采取了一个近似的方法,即Monte-Carlo dropout。MC dropout在某种程度上都像是为AL定制的,简单来说,可以将其视为一个drop out层。不过在推理的时候,其并不会关闭,并且能够并行地实现多次推理,从而实现"模拟不同网络结构"的结果。

现在再来重新看下投票熵。投票熵其实就是把原始熵公式中的Pc(u,v)P_{c}^{(u, v)}Pc(u,v)​给替换成了∑eD(Pe(u,v),c)NE\frac{\sum_{e} D\left(P_{e}^{(u, v)}, c\right)}{N_{E}}NE​∑e​D(Pe(u,v)​,c)​。也就是说,给定NEN_{E}NE​个模型,对于某个模型eee给出的预测结果Pe(u,v)P_{e}^{(u, v)}Pe(u,v)​,如果预测对了,就得到1,否则为0。也就是说,如果这几个模型都预测对了,则投票熵会很小,否则会很大。

最终的信息度量基于投票熵,会得到一张信息图:

颜色越深的部分表示信息量越大。

V. Cost Extraction

本文有个开销模型(Cost Model)专门去算这个开销图:

如果某个位置被鼠标点击的次数越多,那么相应的位置颜色就会越深。这个东西其实也是拿ground truth cost map去监督训练的,网络结构用的是[1]里面的相应实现。

VI. Region Aggregation and Fusion & Acquisition

这部分算是本文的精髓。因为本文是一种基于区域的方法,也就是说,不是去标注一整张"有价值的图像",而是去标注某张有价值图像中"最有价值的部分"。因此这里就体现出了上面两张map的作用了:Information Map可以衡量一张图像中最有价值的区域,而Cost Map可以衡量某个区域的标注开销。

现在,我们要做的就是把这两张map给统一成一张图,以供选择决策。这里有一个细节,由于最终选择标注区域是一个"正方形",因此可以不用将整张图像直接去融合。本文用了个滑动窗口:

对于某一位置(u,v)(u, v)(u,v),将该窗口区域内所有的信息值/开销值给累加起来,得到处理后的区域信息图以及区域开销图。然后,将这两张图归一化,再融合起来:g1=I1+Cg_{1}=\frac{I}{1+C} g1​=1+CI​ g2=(1−C)⋅Ig_{2}=(1-C) \cdot I g2​=(1−C)⋅I g3=I⋅α+(1−C)⋅(1−α)g_{3}=I \cdot \alpha+(1-C) \cdot(1-\alpha) g3​=I⋅α+(1−C)⋅(1−α) 其中III是信息图,CCC是开销图。这三种融合方式都行,实际上本文将其视为了一种超参数并在实验中验证哪种更好。

最终得到的融合图长这样:

至于最终的查询过程,对于融合图,我们可以得到若干个信息量最高的区域,并对其进行标注:

Ref

[1] Kirillov, Alexander, et al. “Instancecut: from edges to instances with multicut.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[论文阅读] Cost-Effective REgion-based Active Learning for Semantic Segmentation相关推荐

  1. 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation

    一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...

  2. 论文阅读:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

    论文地址:https://arxiv.org/abs/2105.15203 发表年份:2021 我们提出了SegFormer,一个简单,高效但强大的语义分割框架,它将Transformers与轻量级多 ...

  3. [论文阅读] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

    论文地址:https://arxiv.org/abs/1706.04737 发表于:MICCAI'17 Abstract 图像分割是生物医学图像分析的一个基本问题.深度学习的最新进展在许多生物医学图像 ...

  4. 论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection

    论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...

  5. 阅读论文:Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

    阅读论文:Suggestive Annotation: A Deep Active Learning Framework forBiomedical Image Segmentation 本篇论文发表 ...

  6. 论文阅读 [TPAMI-2022] Grid Anchor Based Image Cropping: A New Benchmark and An Efficient Model

    论文阅读 [TPAMI-2022] Grid Anchor Based Image Cropping: A New Benchmark and An Efficient Model 论文搜索(stud ...

  7. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  8. 目标检测论文阅读:GHM(anchor based)

    目标检测论文阅读:GHM(anchor based) 论文链接:https://arxiv.org/abs/1811.05181 代码链接:https://github.com/libuyu/GHM_ ...

  9. 论文阅读:A Survey on Deep Learning for Named Entity Recognition

    这是一篇2020年发的命名实体识别的综述性论文,从NER的语料库,定义,评估指标,到深度学习中的NER的技术都有涉及到. A Survey on Deep Learning for Named Ent ...

最新文章

  1. TYAN_S8230做硬Raid
  2. Vim命令之查找和替换
  3. android HttpClient,DefaultHttpClient,AbstractHttpClient之间关系
  4. Linux系列:Ubuntu/fedora实用小技巧—禁止自动锁屏、设置免密码自动登录、免密码执行sudo操作...
  5. Python基本数据类型(列表)
  6. html文件一打开就未响应,我的电脑里的文件一右击就未响应是什么状况 求解决...
  7. 【李宏毅机器学习视频汇总】2016~2021李宏毅机器学习内容汇总及一些学习建议
  8. 【神器】这三款网络抓包工具在手,同事想甩锅都难!
  9. Inter Edsion添加USB有线网卡解决办法
  10. 入职阿里巴巴,阿里P7高级架构师需要哪些技术栈?
  11. discuz 论坛不同版块使用不同模板
  12. mysql 插入数据报错,a foreign key constraint fails
  13. 我是怎样把工资从400-4000
  14. vue实例中调用外部js_js文件中引用vue实例对象
  15. [Alpha阶段]第十次Scrum Meeting
  16. Redis缓存击穿解决方案之互斥锁
  17. 影响关键词排名的因素有哪些?
  18. 重构系列之重构的标志:《重构》代码的坏味道
  19. 网站锚点执行平滑滚动
  20. vivado ise 关联设置

热门文章

  1. python学习——matplotlib库——折线图
  2. linux php整合mysql_linux下Apache、php3、MySQL的整合
  3. cpython知乎_Numpy为什么可以用C语言写?
  4. 应届生去软通动力怎么样_超强干货:应届生如何找实习工作?
  5. 当联邦学习碰上老虎机
  6. java3d翻转纪念相册_HTML5 3D旋转相册的实现示例
  7. centos7时间同步_基于 Canal 和 Kafka 实现 MySQL 的 Binlog 近实时同步
  8. ROS入门 小乌龟跟随示例
  9. LeetCode 1115. 交替打印FooBar
  10. 通过使用阿里云+vuepress快速搭建静态个人博客网页页面