本文已经被NeurIPS 2019(2019 Conference and Workshop on Neural Information Processing Systems)接收,论文为弱监督图像语义分割方法提出了一种全新的损失函数——门控全连接条件随机场损失即Gated CRF Loss,通过与传统交叉熵损失函数结合,应用于重量级语义分割模型DeepLab-v3plus的训练过程,能够在Pascal VOC 2012数据集中将基于点击和描画的弱监督分割方法精度分别提升至67.39%和75.50%,为时下最佳。论文主要的贡献在于门控全连接条件随机场损失函数的提出与一系列证明该损失函数有效的消融实验的设计。

论文地址:Gated CRF Loss for Weakly Supervised Semantic Image Segmentation

1.背景

目前流行的图像语义分割模型通常在具有完整标注的大型数据集上进行训练,这样的数据集获取成本过高,基于此弱监督语义分割方法得到了更多的关注,并已经进行了多种不同的尝试,包括输入不同类型的弱标注(基于粗略描画的,基于边界框的,基于粗略点击绘制的以及基于图像级别标签的),这些方法能够降低标注数据的成本,但分割精度较差,尤其是分割边界。

论文提出使用新型的损失函数:对于有标注的像素点使用交叉熵损失,对于无标注的像素点使用门控CRF损失。门控CRF损失用于弱监督分割方法的训练,它能够:1) 消除无关像素点的对当前像素点分类的影响;2)更加关注语义边界而非区域之间的语义联系;3)简化了全连接条件随机场与卷积神经网络的结合方式;4)不依赖高维滤波器,能够进行端到端训练。

2.门控CRF损失

2.1 用于语义分割的传统交叉熵损失

2.2 弱监督标注:基于点击和基于描画

典型的弱监督方法的动机是通过更少的像素得到更多的采样点,弱标注的数据有多边形标注、描画标注和边界框标注等,其中基于点击和描画的标注具有以下优点:1) 标注区域更小,带有标注的像素点通常是精准可信的;2) 标注过程更加高效;3) 目标和其他区域的类别更好处理。因此论文关注基于点击和描画的弱标注数据。但是该论文提出的方法也能应用在图像级别的弱标注数据,只需把pCE损失换成一个其他合适的损失函数。[基于点击(click-based)和基于描画(scribble-based)的弱标注数据如下图所示]

2.3 门控CRF损失函数用于密集标注任务

论文希望在不引入任何先验知识的情况下减小弱监督分割方法和强监督分割方法的性能差距,而只使用pCE损失不能为边界处提供更多的帮助,由此引入全连接条件长。首先定义为类别为ij 的位置ab 的能量项:

3. 实验分析

3.1 实验设置

该论文提出的方法并不依赖特定的架构,实验选择当前语义分割效果最好的重量级语义分割模型DeepLab-v3plus作为baseline。另外本文使用了Pascal VOC2012和CityScapes两个数据集,由于缺少基于点击和基于描画的弱监督数据,论文利用已有方法进行生成,用于模型训练和实验结果比对,并且采用平均交并比(mIoU)作为评价指标。下列图表结果中,鼠标标志表示训练数据是基于点击的弱监督数据,线条标志表示训练数据是基于描画的弱监督数据,黑色实心方框表示训练数据是全监督数据

4.2 分割结果可视化

如下图所示,从左到右前两列为原始图像和真实标注,后三列分别为全监督方法的分割结果,以及采用新型损失时,基于描画标注数据和基于点击标注数据的分割结果。

3.2 定量分析

在VOC数据集上与SOTA弱监督方法的精度进行对比,结果如下表所示,可以看到。在弱监督方法中不论是基于点击的弱监标注数据还是基于描画的弱标注数据,损失函数结合门控CRF损失都会大幅提升实验精度。具体地,分别将弱监督下最好的平均交并比提升至67.39%和75.50%。

4.3 消融实验

可以看到,门控CRF损失和源掩码的激活能够有效提升弱监督数据的精度,但是激活目标掩码后,VOC数据集上的精度反而有所降低,这是因为VOC数据集中一幅图中的目标实例较少,相应的弱监督数据质量也较低,激活目标掩码弱化门控CRF损失必然会导致精度的下降;而在CityScapes数据集中每幅图通常包含多个目标实例,能够为pCE损失提供了有效支持,激活目标掩码会提升最终结果。由此论文指出,源掩码是必须加入的,而目标掩码需要视数据集情况决定是否激活。

4.2.2 有标注像素输入规模对最终结果的影响

该实验结果来自基于点击的弱监督数据,[1 times 1][1×1]和[3 times3][3×3]分别表示基于点击的数据中每次点击的像素点数为1和9,结果如下表所示:

可以看到只使用交叉熵损失时,VOC数据集中每次点击的像素点多比较有利,而结合门控CRF损失后,则消除了两者的精度差距,表明结合门控CRF损失后对弱监督的数据更加有利。而在CityScapes数据集中,实验结果均为明显变化,可能是由于该数据集中包含更多的小尺度目标,扩大每次点击绘制的像素点数可能会使当前目标覆盖其他目标从而影响精度。

4.2.3 不同邻域范围对实验精度的影响

如下表所示,精度与并不随邻域范围增加而一直增大,取6时效果最好。

4.2.4 不同损失权重的影响

下表为不同权重的门控CRF损失对实验结果的影响。可以看到对于弱监督数据,取0.1时得到最好精度效果,对于全监督,取0.15时得到最好精度效果。而且随着权重的变化,实验精度变化不大。

总结

该论文提出了一种简单却有效的损失函数用于弱监督图像语义分割模型的训练,使用标准交叉熵损失用于有标注像素点,使用新型的门控CRF损失用于无标注像素点。整个方法不需要额外的预处理或后处理,能够端到端的训练。方法在基于点击和基于描画的弱监督标注数据中都取得了SOTA效果。

综合来看,该方法是将全连接条件随机场用作损失函数的又一种尝试,并且在常用的弱标注数据上取得了较好的效果。通过大量的消融实验,为其他具体的弱监督任务的数据标注和损失函数选用指明了新的方向,期待代码尽快开源。

欢迎关注 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]

将特定像素点在图像上连接起来_(NeurIPS 2019) Gated CRF Loss-一种用于弱监督图像语义分割的新型损失函数...相关推荐

  1. NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数

    作者丨赵磊 学校丨北京林业大学硕士生 研究方向丨语义分割 本文已经被 NeurIPS 2019 (2019 Conference and Workshop on Neural Information ...

  2. 将特定像素点在图像上连接起来_图像分割【论文解读】快速图像分割的SuperBPD方法 CVPR-2020...

    提出的super-BPD 与 之前方法MCG相比,精度相当或者更优,而却可以达到 25fps,MCG仅 0.07fps.速度更快且有更好的迁移性,可应用于未见的场景. 作者 | Jianqiang W ...

  3. “用于无监督图像生成解耦的正交雅可比正则化”论文解读

    Tikhonov regularization terms https://blog.csdn.net/jiejinquanil/article/details/50411617 本文是对博客http ...

  4. python 视频抽帧_一种用于超高帧频图像流到标准模拟视频流转换的抽帧方法与流程...

    本发明属于图像处理技术领域,涉及一种用于超高帧频图像流到标准模拟视频流转换的抽帧方法. 背景技术: 在红外成像制导系统中,随着导弹与目标的距离接近,目标逐渐增大形成不稳定的斑状,最后以很快的速度充满整 ...

  5. 去毛边 叶片图像_一种用于植物叶片图像骨架提取的去毛刺方法.PDF

    一种用于植物叶片图像骨架提取的去毛刺方法 第 27 卷 第 1 期 电子测量与仪器学报 Vol. 27 No. 1 · 52 · JOURNAL OF ELECTRONIC MEASUREMENT A ...

  6. VALSE学习(十一):弱监督图像语义分割

    VALSE2019 程明明 南开大学 一.弱监督图像语义分割 基于深度卷积神经网络的传统语义分割模型严重依赖于大量人工标注数据,因而在学习新的类别信 息时需要庞大的人力成本来标注数据.弱监督语义分割技 ...

  7. 深度学习:在图像上找到手势_使用深度学习的人类情绪和手势检测器:第2部分

    深度学习:在图像上找到手势 情感手势检测 (Emotion Gesture Detection) Hello everyone! Welcome back to the part-2 of human ...

  8. 深度学习:在图像上找到手势_使用深度学习的人类情绪和手势检测器:第1部分

    深度学习:在图像上找到手势 情感手势检测 (Emotion Gesture Detection) Has anyone ever wondered looking at someone and tri ...

  9. globalmapper如何选取图像上的点_图像去雾的算法历史与综述

    图像去雾的算法历史与综述 1. 前言 其实之前对图像去雾也没有什么深入的理解,只是了解,实现过一些传统的图像去雾方法而已.个人感觉,在CNN模型大流行的今天,已经有很多人忽略了传统算法的发展,以至于你 ...

最新文章

  1. 鸿蒙os电视是安卓,适配鸿蒙OS系统的机型又增加了!和安卓系统相比鸿蒙有哪些特点?...
  2. WinAPI: CreateFontIndirect - 根据字体结构建立逻辑字体
  3. Content-Disposition
  4. python常用库 自动化办公类 —— PyPDF2(处理pdf文件)
  5. php获取两个输入框的值,PHP获取多个文本框中值的实例代码
  6. 创建示例HTTPS服务器以获取乐趣和收益
  7. spring生命周期七个过程_Spring杂文(三)Spring循环引用
  8. mysql 缓冲区_mysql 线程级别的缓冲区
  9. 借势炒作?巴菲特午宴中标者孙宇晨怼完王小川再怼王思聪:靠爹的骂靠自己的...
  10. siob执行多条sql写法及创建表添加字段
  11. win10cmd重置系统_win10怎么重置电脑 win10重置此电脑的方法【图文】
  12. 四款好用的免费直播编码推流软件
  13. 【Ubuntu】Linux系统安装谷歌浏览器简易教程
  14. sql 同义词使用_使用同义词简化SQL Server代码
  15. Entry name ‘classes.dex‘ collided
  16. 纽约州立石溪分校计算机科学排名,纽约州立大学石溪分校计算机科学专业排名第40(2020年USNEWS美国排名)...
  17. 管理ELK进程工具: Supervisor Cesi
  18. 多项式学习笔记[二](全网最详细!有图有代码有解释有例题有总结!)
  19. Android SDK官方下载地址及在线SDK网址
  20. 基于Java标准化考试系统

热门文章

  1. 生物信息3天速成班—成为团队中不可或缺的人
  2. 价值4500元的微生物组培训资料
  3. R语言stringr包str_detect函数检测字符串中模式存在与否实战
  4. python使用fpdf生成pdf文件:配置多种语言字体写入多种文字
  5. R语言attributes函数(获取属性、设置属性)、attr函数(改变一个属性)、structure函数(改变数据形状)实战
  6. R语言广义线性模型Logistic回归案例代码
  7. R语言KMeans聚类模型示例
  8. 影像组学视频学习笔记(32)-使用SimpleITK进行N4偏置场校正、Li‘s have a solution and plan.
  9. <笔记1>matplotlib绘图工具笔记
  10. go select 与 for 区别_Go 面试每天一篇(第 102 天)