[论文阅读]BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation
前言
光看名字,看到Guided Aggreagation感觉又是一个使用attention的(全局特征指导局部特征)?
Abstract
问题的提出:
现有的加速model的方法大部分都是牺牲低等级的特征细节,这会导致精度大大下降。
所以作者提出了分开处理空间细节和语义信息(也就是用两个网络)
所以建立的网络将包括下面的结构:
细节分支,将会有宽通道和浅层数去捕捉低等级的特征和生成高像素的特征表示
语义分支,将会有窄通道和深层数去获得高等级的语义,语义分支通过减少通道数和采用快速下采样的策略,所以参数量也比较少(语义信息需要较大的感受野)
设计了一个Guided Aggregation Layer 去引导这两个特征图融合
采取了一个增强训练的策略,并且不需要任何额外的推理开销(DS)
Introduction
现有的语义分割模型:
Dilation Backbone 去掉了下采样和上采样(因为会损失信息),而改为用步长大于1的卷积代替,同时不断加大通道数来维持高像素特征表示
Encoder-Decoder 使用从上到下和跳跃连结的方式(通常用下采样和上采样,然后上采样后用对称的Encoder层中的特征图来补充损失的信息)
问题:
模型都不关心速度,只关心精度
解决方法:
减小图片的输入尺寸(ICNet)
减小通道数
作者的假设:
- 在实时检测之中,可以分别处理空间信息和语义信息,从而达到速度和精度的平衡
Core Conception of BiSeNetV2
网络的大致结构如下图
Detail Branch
需要用充足的空间通道去捕捉丰富的空间信息
因为Detail Brach 只是专注与低等级的特征,所以步长的设计要小,层数要浅
网络有较大的大小和宽通道,最好不要用耗时间的residual connecttions
Semantic Branch
Semantic Branch 捕捉高等级的语义,虽然细节捕捉能力差,但是可以由Detial Branch提供,同时作者设置 λ = C S C D ( λ < 1 ) \lambda = \frac{C_S}{C_D}(\lambda < 1) λ=CDCS(λ<1)
语义分支可以是任何轻量级的卷积模型,同时采用了快速下采样的方法
构成
观察一下,我们发现,Detail Branch和VGG差不多(把maxpool去掉换成了stride = 2的COnv)
Stem 和 CE(注意到居然还有个GE)
Stem Block:
采用了两个不同的减小图片的方法(stride = 2 Conv and stride = 2 maxpool),然后concentrate到一起
作用感觉是突出最大特征?但又不想过于极端
CE
采用了全局平均池化和残差连结
3 * 3 的GAP是什么东西?
GE(Gather and Expansion Layer)
一共有三种选择
第一种也就是mobilenetv2的结构,其中残差的那块在步长等于2时是没有的
(b)和©是作者自己提出来的Gather and Expansion Layer,从1 * 1的卷积换成了3 * 3的从而更好的聚集信息
当步长为2时,则通过图©的结构。采用两个3 * 3的深度可分离卷积的原因是为了让感受野更大(等同于5 * 5,计算量更小),同时cuda专门对3 * 3 卷积做了优化,在时间上也很优秀
Aggregation Layer
使用了bidirectional aggregation
两个特征的等级是不一样的,所以不能直接融合,我们需要把两个特征通过一些卷积操作还原到能够相加的等级,具体的操作如上图。
感觉像是相互指导?
Segmentation Head
用来输出预测的语义图,使用辅助分类器,可以有效的解决梯度消失问题。
实验设计
尝试了不同的特征融合的方法(OHEM?)
通道相加会比直接相加要来的高
语义特征图之中直接输出结果效果比细节特征图要来的高
从左到右表示
λ \lambda λ不同取值对结果的影响,发现 λ = 1 4 \lambda = \frac 14 λ=41的时候最好
- 展示了有无GE Layer 中第一个3 * 3 卷积
- 展示了用 5 * 5 的DW 和 用 两个 3 * 3 DW的区别
- 展示了GE Layer中第一个卷积用 1 * 1 和 3 * 3 的区别
在GE中深度可分离卷积中拓展因子的不同取值影响, ϵ = 6 \epsilon = 6 ϵ=6最好
结论
最大的影响是在深度可分离卷积前使用卷积融合通道
使用 两层3 * 3 和一层 5 * 5卷积的区别
然后是使用 1 * 1 和 3 * 3 的区别
探究了不同位置的辅助分类器对于网络的影响,但并没有说明辅助分类器在最终loss中的权重占比
通过直接绘制图像,证明了两个网络确实是一个在关注细节,一个在识别语义(图像怎么绘制的?)
(感觉如果这是在加了辅助分类器之后对应的输出特征图,感觉是理所当然的…辅助分类器都在语义网络这边)
探究了将模型扩大之后的影响
- 加大Detail Network的channel wide
- 加深Semantic Network的层数
探究了Semantic Network用不同的backbone的影响
之后的实验对比了一些当年在不同数据集上的State-of-the-art的网络,表格有点大,可以从原文去找
总结
不得不说这篇论文的实验部分太充足了,从各个方面考虑了自己设计的模块的提升。
创新点:
双流网络处理语义和细节(让我想到了视频分类)
新设计的模块
- GE(mobilenetv2 改1 * 1 卷积,在步长为2的时候用两层3 * 3卷积增大感受野)
- 多层深监督(感觉不算创新点)
- 语义特征图指导细节特征图融合(使用双流融合,一个通过DWConv,一个通过Conv)
- 使用了Stem Block(又是双流) 和 CE Block
[论文阅读]BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation相关推荐
- 【论文阅读--实时语义分割】BiSeNet V2: Bilateral Network with Guided Aggregation
摘要 低层细节和高层语义对于语义分割任务都是必不可少的.然而,为了加快模型推理的速度,目前的方法几乎总是牺牲低级细节,这导致了相当大的精度下降.我们建议将这些空间细节和分类语义分开处理,以实现高精度和 ...
- 论文主要要点记录《BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation》
摘要: 为了获取语义信息而丢失了底层细节信息,提出细节获取和语义信息分开获取. 较浅的网络层获取细节信息,较深的网络层获取语义信息 融合层融合特征表示 提出助推器训练策略booster trainin ...
- 【图像分割论文阅读】The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
本文出自加拿大蒙特利尔学习算法研究院.蒙特尔理工学院.蒙特利尔伊玛吉亚公司.巴塞罗那计算机视觉中心联合出品.注意到Bengio也在其中.文章最终发表于CVPR2017.[Tiramisu译作提拉米苏] ...
- 【CV论文阅读】:Rich feature hierarchies for accurate object detection and semantic segmentation...
R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统 ...
- 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation
论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation 论文搜索(studyai.com) ...
- 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...
- 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation
论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...
- 【ACNET2019】:ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION
ACNET: ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION ACNE ...
- Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation——翻译
Title Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation 标题 空间信息引导的卷积用于 ...
最新文章
- Kali Linux安装第三方软件
- feachall php_timthumb.php详解
- LeetCode Insert Delete GetRandom O(1)
- mysql图片jsp_mysql jsp 图片
- 软件设计开发笔记1:基于状态机的程序设计
- android 权限问题吗,Android 6.0前后权限问题
- 拓端tecdat|R语言k-Shape时间序列聚类方法对股票价格时间序列聚类
- 免费源码赠送之 printf(C语言简化版)
- 学数学建模算法对计算机的好处,浅议数学建模与算法
- 爱客影院自动采集程序源码v3.5.5
- Ubuntu20.04 安装matlab2017b
- jenkins停止僵尸作业Click here to forcibly terminate running steps
- TF卡用FAT32还是NTFS?
- 什么是 JScript?
- Acro Design Pro vue - table 行点击高亮显示
- 关于STM32的BSRR(端口位设置/清除寄存器) 和 BRR(端口位清除寄存器) 的理解(初学32)
- 软件测试之补丁包测试
- Vuforia examples 简介
- 区间之和 (sdut oj)
- LOAM进行点云地图创建
热门文章
- WEEKDAY函数:
- vb如何实现两台计算机数据包传送,VB学习网站! - PLC论坛 工控网 工控论坛 http://bbs.gkong.com/...
- 写代码的时候,竟然发现了10+个【了不得】的网站,必须分享
- 美国搜索市场之战 微软终于战胜雅虎
- Java第一次实习面试经历
- 预排版标记pre/pre在网页中原封不动地都显示出来,实体符号
- 茶饮行业舆情管理方案
- 【SemiDrive源码分析】系列文章链接汇总(全)
- 3---条形图(matplotlib)
- 我烧的第一个菜-酸辣土豆丝