Synthesize then Compare: Detecting Failures and Anomalies for Semantic Segmentation

文章目录

Synthesize then Compare: Detecting Failures and Anomalies for Semantic Segmentation
- 摘要
- 主要贡献
- Methodology
- Experiments
- 个人收获
- 原文下载

摘要

失败和异常监测能力是计算机视觉任务的基本要求，常规的作法是用模型生成的分割图和 ground truth作比较来判断模型的好坏。

作者这里并没有使用这个方法。

作者提出问题：既然合成图像可用来测试网络框架的好坏，那么由网络得到的分割图，分割效果越好的话，是否由分割结果生成的合成图像越接近输入图像?

该想法逻辑上是行得通的。

例如：如果人被误分割为杆，则根据分割结果生成的合成图像看起来不像人，并且合成图像和输入图像之间应该出现明显差异。

同样，当测试图像中出现异常(OOD)对象时，它将被分类为分割结果中的任何可能的分布内对象，然后再根据分割结果生成的合成图像中表现为分布内对象。

因此，可以通过找出输入图像和合成图像之间的差异来判断网络框架的好坏。

所以整个过程分为了两个阶段：

step1:分割结果用来重构输入图像

step2:计算合成图像和初始图像之间的差异。

图1用来举例：（i）失败检测和（ii）异常检测

（i）上面是一个 Image-level 的IoU 分数，下面是 Pixel-level 的错误映射图。

（ii）对于异常物体（直升机），得到它的分割图

主要贡献

第一个系统地研究用于语义分割的失败检测和异常检测
提出一个统一的框架，受益于 semantic-to-image 的 cGan 网络来解决这两个任务
该框架在三个数据集上获得当下最优的失败检测和异常检测结果

核心模块

因为需要做 semantic-to-image 的合成，所以该网络的核心模块是 cGAN。

主要流程

图2说明了该网络的主要流程

Methodology

Training

Eq.1 是GAN 网络的 min-max 公式，先 max D，固定生成器G，让判别器G最大限度的区分合成图和真实图；再 min G ，固定判别器D，让生成器G尽可能的缩小合成图和真实图之间的差异。

Eq.2 是 Eq.1 的具体表达式

Testing

训练完成后，固定生成器G，图像 x 输入到模型 M 中，得到对应的分割图 y^=M(x)\hat{y}=M(x)y^=M(x)，将分割图输入到生成器G中，得到对应的合成图 x^=G(y^)\hat{x}=G(\hat{y})x^=G(y^)

接下来将合成图输入到比较模块中，得到合成图和真实图之间的差异 c^=F(x,x^)\hat{c}=F(x,\hat{x})c^=F(x,x^)

siamese 风格：左右两边两个网络是完全相同的网络结构，它们共享相同的权值W

该方法的一个分析

xxx，image space；yyy，label space

LEFT（正确映射）:x得到预测结果y^\hat{y}y^，再由y^\hat{y}y^得到的重构图x^\hat{x}x^，x和x^\hat{x}x^之间应该是很相似的。

MID（失败检测）：若x得到了错误预测y^\hat{y}y^，那么再由y^\hat{y}y^得到的重构图x^\hat{x}x^，x和x^\hat{x}x^之间应该是相差很大的。

RIGHT（异常检测）：若输入x是不在iamge space分布内的，则由y^\hat{y}y^得到的重构图x^\hat{x}x^，x和x^\hat{x}x^之间也是相差很大的。

Experiments

对于图像故障检测，我们的方法在所有度量上都始终优于其他方法。

对于像素级故障检测，SOTA。特别是在AP-Err指标上，该方法的性能比其他方法有相当大的差距。

联合训练比分开训练结果好，两个任务可以相互提供互补的信息，这就是多任务学习的好处

表1和图5是一组实验结果

上图是Image-Lalel-预测图-重构图-错误映射-本文方法之间的效果对比。

下图是预测和真值之间的相关性。

表2和图6是一组实验结果

方法取得了与VAE报警系统相当的性能。当与VAE结合时，所有四个度量都有显著改善，说明我们的捕获标签到图像信息的方法是对基于形状的VAE方法的补充。

表3和图7是一组实验结果

为什么这个方法表现效果要好呢？

现有的方法主要集中在利用自估计统计改进故障检测。然而，深层网络倾向于产生高置信度的预测，因此自估计的统计数据是不可信的。利用额外数据或交替训练策略的方法可以缓解这个问题。而我们提出从另一个角度来解决这一问题——用生成模型分析深度判别模型的性能，这是对条件数据分布先验P（x | y）进行逆向建模的过程。

额外的计算成本

主流方法直接比较分割图和真值标签之间的差异，而现在先得生成分割图，再用分割图合成图像，比较合成图和真实图之间的差异，这种比较多了一个阶段。

cGAN网络的重构阶段与分割网络M的预测分割阶段是互为逆过程，所以分割网络的延迟是T的话，cGAN网络的延迟也是T。

除此外还有用于故障检测/异常分割的比较函数计算，与M或G相比，故障检测网络的推理时间和异常的距离计算都是微不足道的。因此，我们框架的总体额外计算成本是T。

个人收获

作者创造性逆向考虑评判标准，比较合成图像和真实图像之间的差异来评判模型的好坏，而且在数据集上获得不错的的表现结果。

最大的收获就是这种逆向思维，要多思考，把它运用到任务中。

原文下载

点击下载

论文阅读：Synthesize then Compare: Detecting Failures and Anomalies for Semantic Segmentation相关推荐

【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation
这篇论文是CLIP模型较早的在弱监督分割上应用的论文. 论文标题: Cross Language Image Matching for Weakly Supervised Semantic Segme ...
论文精读及分析：Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving
本文主要内容为论文<Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving:Data ...
论文解读 | Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation
论文地址:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation GitHub地址: http ...
【论文阅读】SyncPerf: Categorizing, Detecting, and Diagnosing Synchronization Performance Bugs
本次是初步写论文记录,以翻译为主,后续会更改为只讲述核心思想. 欢迎访问 Github :https://github.com/MercuryLc/paper_reading SyncPerf: Ca ...
[论文阅读] Cross-level Contrastive Learning and Consistency Constraint for Medical Image Segmentation
论文地址:https://arxiv.org/abs/2202.04074 代码:https://github.com/ShinkaiZ/CLCC-semi 发表于:ISBI 22 Abstract ...
异常检测论文阅读《PANDA: Adapting Pretrained Features for Anomaly Detection and Segmentation》
<PANDA: Adapting Pretrained Features for Anomaly Detection and Segmentation> CVPR2021 论文背景: 近年 ...
论文阅读：（一）Voxblox++：Volumetric Instance-Aware Semantic Mapping and 3D Object Discovery
语义SLAM定义: SLAM技术完成了机器人对环境的几何信息的理解,但是忽略了对环境语义信息的理解.单纯的SLAM技术是缺乏场景理解能力的,机器人实时的对3D环境感知理解能力是智能体的技术的关键部分. ...
论文阅读：CTSpine1K：A Large-Scale Dataset for Spinal Vertebrae Segmentation in Computed Tomography
CTSpine1K: A Large-Scale Dataset for Spinal Vertebrae Segmentation in Computed Tomography CTSPINE1K: ...
论文阅读CVPR2022 《Language As Queries for Referring Video Object Segmentation》
前言: 自从读完DETR之后,一直对set prediction相关的工作比较感兴趣.所以又找了一篇关于transformer的query机制的工作,不过这次升级到video处理的更复杂的任务了(其实 ...
论文笔记——Rich feature hierarchies for accurate object detection and semantic segmentation
最近在看一些目标检测的论文,本文是经典的R-CNN(Regions with CNN features),随之产生的一系列目标检测算法:RCNN,Fast RCNN, Faster RCNN代表当下目 ...

论文阅读：Synthesize then Compare: Detecting Failures and Anomalies for Semantic Segmentation