Overview

Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation(FEANet:基于 RGBT的实时语义分割特征增强注意力网络)

Time:2021.

Journal:IROS

Majors:Semantic Segmentation

Link:论文


Summary

  • 大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度,从而导致性能不佳。
  • 为了更好地提取细节空间信息,我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
    • 引入了一个特征增强注意力模块(FEAM)来从通道和空间视图中挖掘和增强多层次的特征。
    • 受益于所提出的 FEAM 模块,我们的 FEANet 可以保留空间信息,并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
  • 在城市场景数据集上进行的大量实验表明,我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法(全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%) 。
  • 对于 480 × 640 RGB-T 测试图像,我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。

Motivation

  • 现有 RGB-T 模型的性能在面对某些复杂场景(例如,杂乱的背景、变化的照明)时往往会急剧下降。
  • 第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 而当前的 RGB-T 语义分割方法(例如,MFNet、RTFNet)使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而,由于直接的多层次特征提取和合并策略不考虑层次之间的差异,这些过程存在噪声低层次特征的不完全提取问题。
  • 第二个挑战是从热模态中挖掘信息特征。热图像质量低下,导致数据融合过程中出现不可预测的噪声。
    - 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入,无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息,忽略了 RGB 图像包含颜色和纹理的事实,而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示,RTFNet 无法检测和分割小的目标对象。

Method

• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能,并以互补的方式融合RGB 和热信息。


Model

  • A:overrall architecture

  • Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。

  • 第一阶段,Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM (Feature-Enhanced Attention Module)加权。FEAM模块进行细化细节特征。

  • 第二 阶段,将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。

B:Encoder-Feature Extracting(编码器特征提取)

  • RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的,不适用于单通道图像,然后我们将第一个卷积层的数量修改为一层,以将其扩展到热图像。
  • FEAM 模块,使用注意力组件从融合数据中学习特征,在两个编码器流的每个卷积层之后添加 FEAM,可以增强特征的兼容性。
  • FEAM :包含通道注意力操作(channel attention)和通道空间操作(channel attention)。空间通道操作注重全局区域。

C:Decoder-Resolution Restoring(解码器分辨率恢复)(改进于RTFNet)

  • 主要被设计为有效地利用多层信息来进行细节像素的细化。
  • 解码器架构是从RTFNet解码器中改进出来的,然后将特征映射恢复到原始图像中。与RTFNet不同的是,我们删除了原始块的两个连续的1×1卷积,从而避免了解码器中复杂的上采样过程。

Experiments

  • A:The RGB-T datasets:MFNet datasets
  • B:Loss function:
    DiceLoss=1−2∑iNpigi∑iNpi2+∑iNg2DiceLoss=1- \frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2} DiceLoss=1−∑iN​pi2​+∑iN​g22∑iN​pi​gi​​

SoftCrossEntropyLoss=−1n∑i=1n∑j=1cy^ijlog(yijd)SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d})SoftCrossEntropyLoss=−n1​i=1∑n​j=1∑c​y^​ij​log(yijd​)

  • C:Evaluation Metrics

    • Accuracy (Acc):准确性
      mAcc=1k+1∑i=0kpii∑j=0kpij\mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}} mAcc=k+11​i=0∑k​∑j=0k​pij​pii​​
    • Intersection-over-Union (IoU):交并比
      mIoU=1k+1∑i=0kpii∑j=0kpij+∑j=0kpji−pii\mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}}mIoU=k+11​i=0∑k​∑j=0k​pij​+∑j=0k​pji​−pii​pii​​
  • D:Results And Analysis

在Guardrail、Color Cone类别中提交较大,其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。

  • E. Ablation Study

分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。


Conclusions

  • 提出了一种新颖的两阶段 FEANet,用于从 RGB 和热图像中挖掘信息热线索,用于城市场景的语义分割。具体来说,我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
  • 实验结果表明,FEANet 在小目标对象分割上表现更好,并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行,使其成为自动驾驶应用的潜在解决方案。
  • 未来,我们希望将更多不同形式的信息(例如深度、音频)融合到网络中以进行分割改进。

Notes

  • 语义分割是计算机视觉中检测和定位目标对象的一大挑战。
  • FuseNet:CNN 网络,包含一个编码器-解码器结构,可以同时从 RGB 和深度图像中提取特征。
  • DenseNet
  • MFNet、RTFNet 和 FuseSeg-161,
  • 编码器:它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小,使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。
  • 解码器:它将固定形状的编码状态映射到长度可变的序列。 解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸输入输出。
  • S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19(启发了FEAM:使用注意力组件从融合数据总学习特征)

References

S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19

FEANet——基于 RGBT的实时语义分割特征增强注意力网络相关推荐

  1. 特征图注意力_CCNet:用于语义分割的交叉注意力网络

    此篇文章内容源自 CCNet: Criss-Cross Attention for Semantic Segmentation,若侵犯版权,请告知本人删帖. 此篇文章是论文 CCNet: Criss- ...

  2. 语义分割源代码_综述 | 基于深度学习的实时语义分割方法:全面调研

    34页综述,共计119篇参考文献.本文对图像分割中的最新深度学习体系结构进行了全面分析,更重要的是,它提供了广泛的技术列表以实现快速推理和计算效率. A Survey on Deep Learning ...

  3. concat特征融合_MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)...

    作者:Tom Hardy Date:2020-02-01 来源:MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出) 原文链接:https://arxiv.org/abs/1911.0 ...

  4. CFPNet:用于实时语义分割的通道特征金字塔

    论文地址:CFPNet: Channel-wise Feature Pyramid for Real-Time Semantic Segmentation 代码地址: https://github.c ...

  5. LRNNet:轻量级FCB SVN实时语义分割

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 公众号后台回复「LRNNet」,即可获得论文下载链接. 简介: 语义分割可以看作是一种按像素分类的任务 ...

  6. 北航、旷视联合,打造最强实时语义分割网络

    来源:AI科技评论 编辑:Camel 导语:MSFNet在Cityscapes测试集上达到77.1%mIoU/41FPS(注意是1024*2048),在Camvid测试集上达到75.4 mIoU/97 ...

  7. 实时语义分割算法大盘点

    本文转载自计算机视觉工坊 语义分割论文 语义图像分割是计算机视觉中发展最快的领域之一,有着广泛的应用.在许多领域,如机器人和自动驾驶汽车,语义图像分割是至关重要的,因为它提供了必要的上下文,以采取行动 ...

  8. 旷视科技提出双向网络BiSeNet:实现实时语义分割

    转于:https://zhuanlan.zhihu.com/p/41475332 全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vi ...

  9. 【论文阅读--实时语义分割】BiSeNet V2: Bilateral Network with Guided Aggregation

    摘要 低层细节和高层语义对于语义分割任务都是必不可少的.然而,为了加快模型推理的速度,目前的方法几乎总是牺牲低级细节,这导致了相当大的精度下降.我们建议将这些空间细节和分类语义分开处理,以实现高精度和 ...

最新文章

  1. CRM成功实施如何化繁为简
  2. Vivado时钟分组约束的三类应用
  3. OpenStack在keystone部分同步数据库报错Errno 13解决办法
  4. tcl把文本产生html,TCL脚本数据文件格式(译文)
  5. java通过poi读取excel中的日期类型数据或自定义类型日期
  6. 分支和循环结构的应用(习题)
  7. IP,IP地址,mac地址
  8. php数组的奇数_PHP - 查找数组元素是奇数还是偶数
  9. 如何从Mac删除Bing重定向
  10. 《深度学习Python实践》第22章——文本分类实例
  11. 服务器上搭shinyApp:shiny-server配置及报错解决
  12. 远程控制——一句话木马
  13. CSS让DIV上下左右居中的方法
  14. javascript 幻灯片代码(含自动播放)
  15. “凸现”三围的健身运动法(图)
  16. TcaplusDB君 · 行业新闻汇编(一)
  17. 【Java基础】Java开发环境搭建并编写第一个入门程序HelloWorld
  18. Learning Skeletal Articulations with Neural Blend Shapes(使用神经混合形状学习骨骼关节)SIGGRAPH 2021顶刊解析
  19. win10系统磁盘分区
  20. 高校GIS房地产综合管理系统的功能

热门文章

  1. android QQ第三方登陆 错误 登陆授权失败(错误码:110406)
  2. 如何运行一个BSV创世全节点
  3. 家用云服务器配置,如何选择合适的云服务器配置?
  4. 目前最好用的软件下载网站
  5. 80老翁谈人生(222):谈信访工作法制化
  6. bzoj4244 loj2878. 「JOISC 2014 Day2」邮戳拉力赛 括号序列+背包
  7. 2021年熔化焊接与热切割找解析及熔化焊接与热切割模拟考试
  8. Allegro转AD
  9. Push to origin/master was rejected的解决办法
  10. Tkinter模块GUI界面化编程实战(五)——大鱼吃小鱼游戏(含超详解及完整源码、完整程序免费下载链接)