场景分割是目前应用前景非常广泛的方向之一,对场景进行精确的分割始终有着显著的实际意义并且极富挑战。来自中国科学院自动化研究所模式识别国家重点实验室的文章《Dual Attention Network for Scene Segmentation》采用了创新的双重注意力,在传统的主干网络FCN中加入了双注意力模块,将两个注意力模块的输出相加来进一步改进特征表示,最终自适应地了集成空间和通道维度本地特征的全局依赖性,在该任务上取得了优秀的效果。

论文地址:
https://arxiv.org/abs/1809.02983

数据集

Cityscapes数据集,训练集2979张图片,验证集500张图片,测试集1525张图片,共有19种标签。
PASCAL VOC 2012数据集,训练集10582张图片,验证集1449张图片和测试集1456张图片,共有20中标签。
PASCAL Context数据集,训练集4998张图片,测试集5105张图片。

模型

模型结构


在场景分割问题中,相同的物体在不同的光照、位置等情况下是很不相似的,由于卷积计算具有局部感受野,而相同标签又有着像素的差异,这些原因导致传统的FCN分割效果不佳。因此在本论文中,通过作者设计的DANet将注意力机制扩展到场景分割任务中,使得特征表示更加紧凑,有效的提高了分割的准确性。模型整体使用一个预训练的带有膨胀卷积的残差网络为主干,在最后两个残差块中去除下采样并且使用膨胀卷积(操作和deeplab前半部分基本类似),然后将特征图输入到两个并行的注意力模块。上半部分为空间注意力模块,下半部分为通道注意力模块。
空间注意力模块首先使用卷积层得到降维的特征,之所以降维是因为这样可以很好的提取特征并且附带着降低运算量,再者,因为自注意力模块计算的是自身的注意力,假如不通过卷积层,通常任何位置必然和自己拥有最大的softmax值,难以得到表达能力强的attention权值矩阵。接着,通过注意力公式得到空间注意矩阵。


自注意力公式是将一个batch内三维张量按照空间展开成两维,一维为空间位置,另一维为通道层数,通过自身对自身的矩阵乘法再做softmax得到自注意力权重矩阵。得到权重矩阵之后,自身与权重矩阵做矩阵乘法最终得到自注意力生成的矩阵,改变维度为三维张量,即由空间注意矩阵和D以及最原始的输入A得到空间注意特征图。

通道注意力模块整体流程和空间注意力模块类似,唯一的区别是不需要卷积层进行降维,通道注意力不降维是实验得出的结果。


实验结果



从比较结果可知,双注意力都可以得到更加精确有效的空间表达,从位置和类别两方面让语义分割的结果更优秀。

在Cityscapes测试集中,DANet性能优于所有的现有方法,在平均IOU上达到81.5%的指标。

结论

通过实验结果的定性与定量分析可知,双重注意力模块能够有效地得到大范围内特征的全局依赖性,从空间位置关系和通道类别关系两方面优化特征的表达能力,使分割结果更加精确。与此同时也可知,NLP中提出的self attention不仅在文本任务中表现优秀,在图像的各个领域同样表现良好,提醒我们多交叉使用不同方向的思想。


扫码识别关注,获取更多论文解读

CVPR 2019 | 用于场景分割的双重注意力网络相关推荐

  1. 特征图注意力_CCNet:用于语义分割的交叉注意力网络

    此篇文章内容源自 CCNet: Criss-Cross Attention for Semantic Segmentation,若侵犯版权,请告知本人删帖. 此篇文章是论文 CCNet: Criss- ...

  2. 《Hierarchical Attention Network for Document Classification》—— 用于文本分类的层次注意力网络

    目录 <Hierarchical Attention Network for Document Classification>-- 用于文本分类的层次注意力网络 1.文本分类 1.1 文本 ...

  3. FEANet——基于 RGBT的实时语义分割特征增强注意力网络

    Overview Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segment ...

  4. Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)

    Stacked Attention Networks for Image Question Answering Abstract 1.introduction 2. 相关工作 略 3.堆叠注意力网络( ...

  5. Dynamic Routing-中科院西交旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 近年来,大量手工设计和基于搜索的网络被用于语义分割.然而,以前的工作(如FCN.U-Net和DeepLab系列)希望在预定义的静态网络结构中处理不同规模的输 ...

  6. 深度学习论文导航 | 07 PANet:用于实例分割的路径聚合网络

    文章目录 一.PANet简介 二.整体结构分析 2.1 自底向上的路径增强 2.2 自适应特征层 2.3 全连接融合层 三.性能表现 3.1 在COCO上的测试效果 3.2 在Cityscapes 和 ...

  7. 论文浅尝 | KGAT: 用于推荐的知识图注意力网络

    笔记整理 | 李爽,天津大学 链接:https://arxiv.org/pdf/1905.07854v1.pdf 动机 为了提供更准确.多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助 ...

  8. 论文推荐:CCNet用于语义分割的交叉注意力

    CCNet, Transformer递归交叉自注意力,比非局部神经网络更有效.华中科技大学.地平线.ReLER 和伊利诺伊大学香槟分校联合研发 论文提出了交叉网络 (CCNet),对于每个像素,CCN ...

  9. CVPR 2019 | 基于场景图信息的图像描述生成方法

    在image captioning任务中,常规的encoder-decoder框架都是利用检测网络,如CNN提取特征,然后直接送到decoder端进行解码生成句子.文章<Auto-Encodin ...

最新文章

  1. 一个简单的Apriltag,数字,动物水果分类器
  2. Oracle经验集锦
  3. outdated: 29.Blitter Function, RAW Texture Loading
  4. 第八章 springboot + mybatis + 多数据源
  5. Spring in Action 3 (翻译)
  6. Spring Boot下使用JPA报错:'hibernate.dialect' not set的解决办法
  7. javascript单元测试:jasminejs 2.0的烦恼
  8. FreeRTOS学习笔记---动态创建任务 xTaskCreate() 源码分析
  9. 错误org.hibernate.InvalidMappingException: Unable to read XML解决方法
  10. [转载] python - map()解析
  11. kotlin密封类_Kotlin密封级
  12. 突击Mercurial SCM(HG)3---撤销操作
  13. 进销存设计之——进销存和财务软件的对接
  14. matlab eps 字体,matlab eps 字体用AI打开乱码的解决
  15. python枚举详解
  16. 十月百度,阿里巴巴,迅雷搜狗最新面试十一题
  17. spark-sql字段级血缘关系实现
  18. 七问个税改革:工薪阶层为何感觉税负重
  19. 用友u9一些常用sql分享
  20. Linux MMC原理及框架详解

热门文章

  1. 2022年全球市场普瑞巴林API总体规模、主要生产商、主要地区、产品和应用细分研究报告
  2. 一般现在时,一般进行时比较
  3. CTF练习题[Crypto]-简单加密
  4. 高性能反向代理服务器Nginx
  5. 细思极恐——R语言forestplot包画meta分析群体药动学常用森林图
  6. Mysql Cluster 8.0.26搭建
  7. SAP HANA中文技术文档(跟matinal学HANA)
  8. 计算机应用技术电子科大,2014年电子科技大学081203计算机应用技术考研专业目录及考试科目...
  9. 良精南方cms /inc/Check_Sql.asp SQL Injection Based On Cookie
  10. HTML期末大作业~web前端开发个人博客HTML整站模板~Web大学生网页成品 ~个人主页博客网页HTML设计制作