FEANet——基于 RGBT的实时语义分割特征增强注意力网络

Overview

Title：FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation（FEANet：基于 RGBT的实时语义分割特征增强注意力网络）

Time：2021.

Journal：IROS

Majors：Semantic Segmentation

Link：论文

Summary

大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度，从而导致性能不佳。
为了更好地提取细节空间信息，我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
- 引入了一个特征增强注意力模块（FEAM）来从通道和空间视图中挖掘和增强多层次的特征。
- 受益于所提出的 FEAM 模块，我们的 FEANet 可以保留空间信息，并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
在城市场景数据集上进行的大量实验表明，我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法（全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%）。
对于 480 × 640 RGB-T 测试图像，我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。

Motivation

现有 RGB-T 模型的性能在面对某些复杂场景（例如，杂乱的背景、变化的照明）时往往会急剧下降。
第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息，可用于对象定位，而低级特征提供丰富的微观细节，有助于减少故障噪声和细化分割边界。
- 高级特征包含丰富的语义信息，可用于对象定位，而低级特征提供丰富的微观细节，有助于减少故障噪声和细化分割边界。
- 而当前的 RGB-T 语义分割方法（例如，MFNet、RTFNet）使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而，由于直接的多层次特征提取和合并策略不考虑层次之间的差异，这些过程存在噪声低层次特征的不完全提取问题。
第二个挑战是从热模态中挖掘信息特征。热图像质量低下，导致数据融合过程中出现不可预测的噪声。
- 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入，无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息，忽略了 RGB 图像包含颜色和纹理的事实，而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示，RTFNet 无法检测和分割小的目标对象。

Method

• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能，并以互补的方式融合RGB 和热信息。

Model

A：overrall architecture
Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。
第一阶段，Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM （Feature-Enhanced Attention Module）加权。FEAM模块进行细化细节特征。
第二阶段，将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。

B：Encoder-Feature Extracting（编码器特征提取）

RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的，不适用于单通道图像，然后我们将第一个卷积层的数量修改为一层，以将其扩展到热图像。
FEAM 模块，使用注意力组件从融合数据中学习特征，在两个编码器流的每个卷积层之后添加 FEAM，可以增强特征的兼容性。
FEAM ：包含通道注意力操作（channel attention）和通道空间操作（channel attention）。空间通道操作注重全局区域。

C：Decoder-Resolution Restoring（解码器分辨率恢复）（改进于RTFNet）

主要被设计为有效地利用多层信息来进行细节像素的细化。
解码器架构是从RTFNet解码器中改进出来的，然后将特征映射恢复到原始图像中。与RTFNet不同的是，我们删除了原始块的两个连续的1×1卷积，从而避免了解码器中复杂的上采样过程。

Experiments

A：The RGB-T datasets：MFNet datasets
B：Loss function：
DiceLoss=1−2∑iNpigi∑iNpi2+∑iNg2DiceLoss=1- \frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2} DiceLoss=1−∑iNpi2+∑iNg22∑iNpigi

SoftCrossEntropyLoss=−1n∑i=1n∑j=1cy^ijlog(yijd)SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d})SoftCrossEntropyLoss=−n1i=1∑nj=1∑cy^ijlog(yijd)

C：Evaluation Metrics
- Accuracy (Acc)：准确性
  mAcc=1k+1∑i=0kpii∑j=0kpij\mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}} mAcc=k+11i=0∑k∑j=0kpijpii
- Intersection-over-Union (IoU)：交并比
  mIoU=1k+1∑i=0kpii∑j=0kpij+∑j=0kpji−pii\mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}}mIoU=k+11i=0∑k∑j=0kpij+∑j=0kpji−piipii
D：Results And Analysis

在Guardrail、Color Cone类别中提交较大，其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。

E. Ablation Study

分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。

Conclusions

提出了一种新颖的两阶段 FEANet，用于从 RGB 和热图像中挖掘信息热线索，用于城市场景的语义分割。具体来说，我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
实验结果表明，FEANet 在小目标对象分割上表现更好，并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行，使其成为自动驾驶应用的潜在解决方案。
未来，我们希望将更多不同形式的信息（例如深度、音频）融合到网络中以进行分割改进。

Notes

语义分割是计算机视觉中检测和定位目标对象的一大挑战。
FuseNet：CNN 网络，包含一个编码器-解码器结构，可以同时从 RGB 和深度图像中提取特征。
DenseNet
MFNet、RTFNet 和 FuseSeg-161，
编码器：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小，使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征，从而利用提取到的空间信息和全局信息精确分割。
解码器：它将固定形状的编码状态映射到长度可变的序列。解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度，融合编码过程中提取到的特征，在尽可能减少信息损失的前提下完成同尺寸输入输出。
S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19（启发了FEAM:使用注意力组件从融合数据总学习特征）

References

S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19