图像语义分割(20) 通过图像合成方法检测训练中未出现的类别未知的物体

论文地址： Detecting the Unexpected via Image Resynthesis

1. 简介

目前一般的语义分割方法都假定测试时遇到的物体类别在训练过程中出现过，但这并不符合复杂的实际情况。为此，该论文提出与图像生成的方式解决该问题的新思路，过程如下图所示：首先语义分割网络给类别未知物体的区域打上一个可信度较低的标签，这样根据语义分割结果重新生成原始输入时就会在该区域与真实的输入图像产生较大的差别，检测类别位置物体的任务变为检测合成图像与原始图像差别较大的区域。

为此，方法涉及一个生成网络用于根据语义分割结果生成原始输入图像，一个判别网络来(以生成的原始输入图像，真实的原始输入图像和语义分割网络的分割结果为输入)生成一个指明类别未知物体区域的分割结果图。为了对判别网络进行训练，我们将原始训练数据中的某一类物体实例全部随机改为其他类，这样整个方法仍然是强监督的。

除此之外，论文提出的方法还能够处理针对语义分割模型的对抗攻击(利用错误标签的数据重新生成的图像与原始图像差别较大，这样模型就能对这种类似对抗攻击的情况更具鲁棒性)。

2.方法和途径

该论文的目标是检测出测试时遇到的类别未知的物体，与其他多数语义分割方法为图像逐像素点打标签完全不同，下图总结了论文提出的方法：

首先使用经典的语义分割算法(例如FCN，DeepLab系列等)生成一个语义分割结果图(pix2pixHD生成方法)；然后将这个图输入给生成网络用于生成原始输入图像(若某一个物体的类别从未出现，则生成的原始输入图像对应的像素点会被打上错误的标签，生成结果与真实的原始输入图像差别会很大)；接着检测二者之间的显著差异，下面一节介绍用于达成该目的的判别网络。

2.1 判别网络

该部分网络架构如上图所示，使用预训练的VGG16处理真实的原始图像和生成的原始图像(二者权重共享，就是一个网络)，使用一个简单的CNN来生成分割结果图(包含未知类别的物体)。每一个特征层级都通过逐通道融合和11×11 \times 11×1卷积来减少通道数，真实的原始图像的特征和生成的原始图像的特征同时被计算和传递，最终使用反卷积返会判别的分数。训练过程前面已经提过，为了保证强监督，需要将训练数据中某一类别的全部实例随机标成其他类别，网络实现细节如下图所示。

2.3 该方法为何对检测对抗攻击有效

通过真实的原始图像(有可能包含对抗攻击)产生语义分割结果图，然后重新生成一个原始输入图像，若包含对抗攻击，则生成的原始输入图像与真实的原始图像整幅图都会差异巨大，这样就检测出了真实的原始图像是否包含对抗攻击(之后通过计算HOG特征之间的L2L^2L2距离，应用逻辑回归判别是否包含对抗攻击，值得一提的是基于HOG特征的判别方法要比基于深度学习的方法更好，因为其不易受到对抗攻击)。

3. 实验结果

3.1 与其他方法对比，对类别未知物体的检测结果：

3.2 使用不同的分割网络时的检测结果：

3.3 对抗攻击检测效果：

3.4 定量分析结果：

4. 结论

论文提出的方法虽然很有效，但是当语义分割网络将训练时已出现过的物体错误的划分为未知物体时，方法会受到很大的影响。(可能需要效果更好的分割网络吧)

欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读，算法和其他互联网技能的学习，概率论、线性代数等高等数学知识的回顾]