FEANet——基于 RGBT的实时语义分割特征增强注意力网络
Overview
Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation(FEANet:基于 RGBT的实时语义分割特征增强注意力网络)
Time:2021.
Journal:IROS
Majors:Semantic Segmentation
Link:论文
Summary
- 大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度,从而导致性能不佳。
- 为了更好地提取细节空间信息,我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
- 引入了一个特征增强注意力模块(FEAM)来从通道和空间视图中挖掘和增强多层次的特征。
- 受益于所提出的 FEAM 模块,我们的 FEANet 可以保留空间信息,并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
- 在城市场景数据集上进行的大量实验表明,我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法(全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%) 。
- 对于 480 × 640 RGB-T 测试图像,我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。
Motivation
- 现有 RGB-T 模型的性能在面对某些复杂场景(例如,杂乱的背景、变化的照明)时往往会急剧下降。
- 第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
- 高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
- 而当前的 RGB-T 语义分割方法(例如,MFNet、RTFNet)使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而,由于直接的多层次特征提取和合并策略不考虑层次之间的差异,这些过程存在噪声低层次特征的不完全提取问题。 - 第二个挑战是从热模态中挖掘信息特征。热图像质量低下,导致数据融合过程中出现不可预测的噪声。
- 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入,无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息,忽略了 RGB 图像包含颜色和纹理的事实,而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示,RTFNet 无法检测和分割小的目标对象。
Method
• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能,并以互补的方式融合RGB 和热信息。
Model
A:overrall architecture
Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。
第一阶段,Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM (Feature-Enhanced Attention Module)加权。FEAM模块进行细化细节特征。
第二 阶段,将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。
B:Encoder-Feature Extracting(编码器特征提取)
- RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的,不适用于单通道图像,然后我们将第一个卷积层的数量修改为一层,以将其扩展到热图像。
- FEAM 模块,使用注意力组件从融合数据中学习特征,在两个编码器流的每个卷积层之后添加 FEAM,可以增强特征的兼容性。
- FEAM :包含通道注意力操作(channel attention)和通道空间操作(channel attention)。空间通道操作注重全局区域。
C:Decoder-Resolution Restoring(解码器分辨率恢复)(改进于RTFNet)
- 主要被设计为有效地利用多层信息来进行细节像素的细化。
- 解码器架构是从RTFNet解码器中改进出来的,然后将特征映射恢复到原始图像中。与RTFNet不同的是,我们删除了原始块的两个连续的1×1卷积,从而避免了解码器中复杂的上采样过程。
Experiments
- A:The RGB-T datasets:MFNet datasets
- B:Loss function:
DiceLoss=1−2∑iNpigi∑iNpi2+∑iNg2DiceLoss=1- \frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2} DiceLoss=1−∑iNpi2+∑iNg22∑iNpigi
SoftCrossEntropyLoss=−1n∑i=1n∑j=1cy^ijlog(yijd)SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d})SoftCrossEntropyLoss=−n1i=1∑nj=1∑cy^ijlog(yijd)
C:Evaluation Metrics
- Accuracy (Acc):准确性
mAcc=1k+1∑i=0kpii∑j=0kpij\mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}} mAcc=k+11i=0∑k∑j=0kpijpii - Intersection-over-Union (IoU):交并比
mIoU=1k+1∑i=0kpii∑j=0kpij+∑j=0kpji−pii\mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}}mIoU=k+11i=0∑k∑j=0kpij+∑j=0kpji−piipii
- Accuracy (Acc):准确性
D:Results And Analysis
在Guardrail、Color Cone类别中提交较大,其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。
- E. Ablation Study
分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。
Conclusions
- 提出了一种新颖的两阶段 FEANet,用于从 RGB 和热图像中挖掘信息热线索,用于城市场景的语义分割。具体来说,我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
- 实验结果表明,FEANet 在小目标对象分割上表现更好,并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行,使其成为自动驾驶应用的潜在解决方案。
- 未来,我们希望将更多不同形式的信息(例如深度、音频)融合到网络中以进行分割改进。
Notes
- 语义分割是计算机视觉中检测和定位目标对象的一大挑战。
- FuseNet:CNN 网络,包含一个编码器-解码器结构,可以同时从 RGB 和深度图像中提取特征。
- DenseNet
- MFNet、RTFNet 和 FuseSeg-161,
- 编码器:它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小,使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。
- 解码器:它将固定形状的编码状态映射到长度可变的序列。 解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸输入输出。
- S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19(启发了FEAM:使用注意力组件从融合数据总学习特征)
References
S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19
FEANet——基于 RGBT的实时语义分割特征增强注意力网络相关推荐
- 特征图注意力_CCNet:用于语义分割的交叉注意力网络
此篇文章内容源自 CCNet: Criss-Cross Attention for Semantic Segmentation,若侵犯版权,请告知本人删帖. 此篇文章是论文 CCNet: Criss- ...
- 语义分割源代码_综述 | 基于深度学习的实时语义分割方法:全面调研
34页综述,共计119篇参考文献.本文对图像分割中的最新深度学习体系结构进行了全面分析,更重要的是,它提供了广泛的技术列表以实现快速推理和计算效率. A Survey on Deep Learning ...
- concat特征融合_MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)...
作者:Tom Hardy Date:2020-02-01 来源:MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出) 原文链接:https://arxiv.org/abs/1911.0 ...
- CFPNet:用于实时语义分割的通道特征金字塔
论文地址:CFPNet: Channel-wise Feature Pyramid for Real-Time Semantic Segmentation 代码地址: https://github.c ...
- LRNNet:轻量级FCB SVN实时语义分割
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 公众号后台回复「LRNNet」,即可获得论文下载链接. 简介: 语义分割可以看作是一种按像素分类的任务 ...
- 北航、旷视联合,打造最强实时语义分割网络
来源:AI科技评论 编辑:Camel 导语:MSFNet在Cityscapes测试集上达到77.1%mIoU/41FPS(注意是1024*2048),在Camvid测试集上达到75.4 mIoU/97 ...
- 实时语义分割算法大盘点
本文转载自计算机视觉工坊 语义分割论文 语义图像分割是计算机视觉中发展最快的领域之一,有着广泛的应用.在许多领域,如机器人和自动驾驶汽车,语义图像分割是至关重要的,因为它提供了必要的上下文,以采取行动 ...
- 旷视科技提出双向网络BiSeNet:实现实时语义分割
转于:https://zhuanlan.zhihu.com/p/41475332 全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vi ...
- 【论文阅读--实时语义分割】BiSeNet V2: Bilateral Network with Guided Aggregation
摘要 低层细节和高层语义对于语义分割任务都是必不可少的.然而,为了加快模型推理的速度,目前的方法几乎总是牺牲低级细节,这导致了相当大的精度下降.我们建议将这些空间细节和分类语义分开处理,以实现高精度和 ...
最新文章
- CRM成功实施如何化繁为简
- Vivado时钟分组约束的三类应用
- OpenStack在keystone部分同步数据库报错Errno 13解决办法
- tcl把文本产生html,TCL脚本数据文件格式(译文)
- java通过poi读取excel中的日期类型数据或自定义类型日期
- 分支和循环结构的应用(习题)
- IP,IP地址,mac地址
- php数组的奇数_PHP - 查找数组元素是奇数还是偶数
- 如何从Mac删除Bing重定向
- 《深度学习Python实践》第22章——文本分类实例
- 服务器上搭shinyApp:shiny-server配置及报错解决
- 远程控制——一句话木马
- CSS让DIV上下左右居中的方法
- javascript 幻灯片代码(含自动播放)
- “凸现”三围的健身运动法(图)
- TcaplusDB君 · 行业新闻汇编(一)
- 【Java基础】Java开发环境搭建并编写第一个入门程序HelloWorld
- Learning Skeletal Articulations with Neural Blend Shapes(使用神经混合形状学习骨骼关节)SIGGRAPH 2021顶刊解析
- win10系统磁盘分区
- 高校GIS房地产综合管理系统的功能
热门文章
- android QQ第三方登陆 错误 登陆授权失败(错误码:110406)
- 如何运行一个BSV创世全节点
- 家用云服务器配置,如何选择合适的云服务器配置?
- 目前最好用的软件下载网站
- 80老翁谈人生(222):谈信访工作法制化
- bzoj4244 loj2878. 「JOISC 2014 Day2」邮戳拉力赛 括号序列+背包
- 2021年熔化焊接与热切割找解析及熔化焊接与热切割模拟考试
- Allegro转AD
- Push to origin/master was rejected的解决办法
- Tkinter模块GUI界面化编程实战(五)——大鱼吃小鱼游戏(含超详解及完整源码、完整程序免费下载链接)