关注公众号,发现CV技术之美

 写在前面

近年来,大量手工设计和基于搜索的网络被用于语义分割。然而,以前的工作(如FCN、U-Net和DeepLab系列)希望在预定义的静态网络结构中处理不同规模的输入。在本文中,作者研究了一种缓解语义表示中尺度差异的新方法——动态路由(dynamic routing) ,该方法根据图像的尺度分布,来生成与数据相关的路由。

为此,作者提出了一种可微的方法用于动态选择尺度变换的路径,称为软条件门(Soft Conditional Gate) 。通过在训练时给 gating function预算约束,网络能以端到端的方式进一步降低计算成本。

此外,作者还进一步放宽了网络的路由空间,以支持多路径传播,并在每个前向传播中加入了skip-connection,从而带来更大的网络容量。为了证明动态网络的优越性,作者对比了几种静态结构,发现它们可以作为路由空间中的特殊情况进行建模。在Cityscapes和PASCAL VOC 2012上进行的大量实验证明了动态网络框架的有效性。

 1. 论文和代码地址

Learning Dynamic Routing for Semantic Segmentation

论文地址:https://arxiv.org/abs/2003.10401
代码地址:https://github.com/Megvii-BaseDetection/DynamicRouting

 2. Motivation

语义分割是计算机视觉领域中最基本但最具挑战性的任务之一,其目的是为每个像素分配语义类别。语义分割中的一个问题来自输入物体之间的巨大尺寸差异。此外,较大的分布方差给特征表示和关系建模带来了困难。传统的方法试图通过精心设计的网络结构或者NAS的方法来解决这个问题。

然而,无论是传统的人工设计的网络还是基于NAS的网络,都希望在一个单一的网络结构中表示所有实例,这缺乏对现实环境中不同尺度分布的适应性。上图给出了一个示例,其中实例的尺度变化很大。为此,需要一个更灵活的网络来适应每个图像的尺度变化。

在本文中,作者提出了一个用于语义分割的动态网络框架,称为动态路由(Dynamic Routing) 。在推理过程中,动态路由能够生成与数据相关的路径,这意味着特定的网络结构随输入而变化。

通过这种方法,具有不同尺度的实例可以分配到相应的分辨率模块。如上图所示,具有不同尺度分布的输入图像将选择不同的路径进行特征变换。本文研究侧重于语义表征,旨在克服尺度的差异,提高网络效率。

在动态路由方面,作者设计了一种依赖于输入数据的门,称为软条件门(soft conditional gate) ,用于根据输入图像选择每条路径。通过提出的路由门,每个基本单元以及分辨率转换路径都可以基于每个数据样本来单独考虑。

因此,所提出的路由门构造成了一个可微模块,用于端到端优化。考虑到有限的计算预算(例如,FLOPs),贡献较小的单元将被动态丢弃。

动态路由可以很容易地实现基于输入样本的语义分割。作者在两个公开数据集(Cityscapes和PASCAL VOC 2012)上进行了实验,通过简单的尺度转换模块,本文提出的动态路由实现了与SOTA方法相当的结果,但消耗的计算资源要少得多。

 3. 方法

与静态网络体系结构相比,动态路由在网络容量和性能上具有优势,并且在相同资源消耗的情况下具有更高的性能。在本节中,作者首先介绍了设计的路由空间。然后,阐述了动态路由框架和结构细节。

3.1. Routing Space

本文的模型结构如上图所示,按照网络设计中的常见做法,网络的起点是一个固定的3层“STEM”块 ,将分辨率降低到1/4。然后,作者为动态路由设计了一个带有L层的空间,称为路由空间 。在路由空间中,相邻cell之间的比例因子被限制为2。因此,最小尺度设置为1/32。

在这些约束条件下,每个层中的候选数量最多为4个,即1/4,1/8,1/16和1/32。每个候选模块中最多有3条尺度变换路径,即上采样保持分辨率下采样 。在每个候选模块中,cell用于特征聚合,而gate用于路径选择。逐层向上采样模块被固定在网络末端,用于生成预测。

与Auto-DeepLab中每个节点只选择一条特定路径不同,在推理阶段,本文的动态路由进一步放宽了路由空间,以支持多路径路由。有了更通用的空间,许多流行的静态结构都可以表示为本文方法的特殊情况,如下图所示:

3.2. Routing Process

给定多个节点的路由空间,作者在每个节点内分别采用一个celll和一个对应的gate来聚合多尺度特征,以及进行路由路径的选择。给定上一层不同尺度的输出,第层的输入可以表示为,聚合的输入将用于在Cell和Gate内部进行特征转换。

3.2.1 Cell Operation

在Cell中,对于输入,作者使用卷积和残差连接,其中,隐藏状态可以表示为:

其中,代表操作集合,包括了卷积和残差连接。然后根据激活因子,生成的特征会变换到不同的尺度。

3.2.2 Soft Conditional Gate

每条路径的路由概率由Gate函数生成,作者在Gate函数采用了轻量级的卷积来学习一个基于输入的向量:

其中,代表卷积操作,代表ReLU激活函数,和分别代表BatchNorm和GlobalPooling。代表了卷积的参数。为了获得每条路径的概率,作者对得到的特征采用了激活函数:

因此,激活因子可通过计算得到,其值域为。当时,那么尺度到的路径将会被关闭;否则,路径保留。

利用所提出的激活函数δ,训练过程中的到的尺度变化可以表示为:

其中,表示s到j的尺度变化,通过激活因子,只要路径被保留,就可以在反向传播过程中进行端到端的优化。

在推理阶段中,如果所有路径被关闭,则会删除对应Cell中的操作以减少计算的占用,表示为:

3.3. Budget Constraint

考虑到现实世界中有限的计算资源,作者在训练过程中也考虑了预算约束,以实现高效的动态路由。第l层尺度s的计算量可以表示如下:

其中分别表示Cells、Gate和Scale Transform的操作。整个路由空间的期望计算成本可以表示为:

然后,作者将期望的计算成本加入到损失函数,来进行端到端的优化,如下所示:

其中表示整个路由空间的实际计算成本,µ表示衰减系数。通过使用不同的µ,每次传播中选择的路由将自适应地限制到相应的预算。

网络权重以及soft conditional gate可以在统一的框架内通过联合损失函数进行优化,联合损失函数如下:

其中和分别表示目标任务的损失函数和限制计算资源的损失函数。λ和λ分别用于平衡网络预测和计算成本的优化过程。

 4.实验

4.1. Dynamic Routing

基于不同的计算量,作者提出三个动态路由的变体A,B,C,如上图所示,相比于静态网络,本文的方法有显著的性能性能提升。

上图展示了Common-A,Common-B,Common-C的结构,可以看出,这些结构与目前手工设计的网络具有很大的相似性。

4.2. Component-wise Analysis

4.2.1. Cell Component

上表展示了Cell中不同的操作,可以看出,用两个SepConv3×3可以达到最好的性能。

4.2.2. Activation Function

上表展示了不同激活函数的实验结果,可以看出,采用可以达到最好的实验结果。

4.2.3. Resource Budgets

作者还采用了不同的和,来控制模型的计算量。变体网络A、B、C的超参、参数和性能如上表所示。

上图给出了不同网络变体的路由激活概率分布。

4.3. Experiments on Cityscapes

上表展示了Cityscapes数据集上,静态网络和动态网络的性能对比,可以看出动态网络有明显的性能优势。

在上表中,作者展示了SOTA方法和本文方法的对比,可以看出本文方法可以在更少的计算量下,达到更高的性能。

4.4.  Experiments on PASCAL VOC

上表展示了 PASCAL VOC 2012数据集上,本文方法和SOTA方法的结果对比,可以看出本文方法的有效性。

 5. 总结

在这项工作中,作者提出了一个用于语义分割的动态路由(dynamic routing) 网络,与以前的工作的主要区别在于,本文的方法根据每个图像的尺度分布生成与输入数据相关的前向路径。

为此,作者提出了软条件门(soft conditional gate) 以端到端的方式选择尺度转换的路径,在给定资源预算的情况下,软条件门将学会放弃那些没用的尺度以提高计算效率。

在本文中,作者进行了大量的消融实验,以证明动态网络相对于几种静态架构的优越性。此外,在Cityscapes和PASCAL VOC 2012上的实验也证明了该方法的有效性,该方法的性能与现有SOTA方法相当,但占用的计算资源要少得多。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「语义分割交流群

Dynamic Routing-中科院西交旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!...相关推荐

  1. 多快好省的目标检测器来了,旷视孙剑团队提出Anchor DETR:基于Anchor Point的DETR

    作者丨小马 编辑丨极市平台 本文原创首发于极市平台公众号,转载请获得授权并标明出处. [写在前面] 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检 ...

  2. 旷视孙剑团队提出AutoML神经架构搜索新方法:单路径One-Shot,更精确更省时

    本文转载自旷视研究院 一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 Im ...

  3. 旷视孙剑团队提出Anchor DETR:基于Transformer的目标检测新网络

    开放了预训练,r50 400多m 写在前面 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检测器中,目标的查询是一组可学习的embedding.然而 ...

  4. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  5. 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet

    知乎原文: https://zhuanlan.zhihu.com/p/363274457 论文链接: https://arxiv.org/pdf/2009.04759.pdf 代码: https:// ...

  6. LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!...

    关注公众号,发现CV技术之美 本文介绍论文『LGD: Label-guided Self-distillation for Object Detection』,由旷视孙剑.张祥雨团队等提出标签引导的自 ...

  7. ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限

    摘要:2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGoAlphaGo Zero,其中一个重要模块是出自华人团队的深度残差网络ResNet.就此背景,新智元采访了深度残差网 ...

  8. AlphaGo Zero「无师自通」背后的伟大与局限 | 旷视孙剑解读

    整理 | 安木 当你被 AlphaGo Zero 刷屏的时候,你是对人类的创造力产生自豪,还是对人类的未来感到担忧? 10 月 20 日,旷视科技(Face++)首席科学家孙剑博士接受了多家媒体的群访 ...

  9. R TALK | 旷视孙剑:如何打造云、端、芯上的视觉计算

    「R TALK 」是北京智源-旷视联合实验室推出的一个深度学习专栏,将通过不定期的推送,展示旷视研究院的学术分享及阶段性技术成果.「R Talk 」旨在通过一场场精彩纷呈的深度学习分享,抛砖引玉,推陈 ...

最新文章

  1. 格雷码问题:输出当输入为n时的格雷码
  2. 初学servlet之使用web.xml配置
  3. C 设计语言编译生成的是中间语言IL,一、源代码-面向CLR的编译器-托管模块-(元数据IL代码)...
  4. “程序员不会数据分析,有什么影响?”资深程序员:基本等于自废武功!
  5. vmware虚拟机i copied it 和 i moved it的区别
  6. 面试高并发,看这篇就够了(下)
  7. 泰安本地话听不懂,为何后来能勉强听懂?
  8. objdump选项解释
  9. kali linux Python开发环境初始化
  10. Unreal Engine 4/虚幻 4 Demo下载地址
  11. 房地产企业项目管理的特点与目标
  12. 建设城市之智慧灯杆网关
  13. Linux命令之bc命令
  14. Python解析DBLP的xml文件
  15. 单元测试Mock框架--Mockito
  16. 申请 Xvoucher 帐号 - 教师
  17. 001我和Python的第一次亲密接触
  18. 统计文件中每个字母的个数
  19. App推广干货:一个新的App该如何推广
  20. Matlab2019b.Warning: The CUDA driver must recompile the GPU librariesbecause your device is more

热门文章

  1. 网络爬虫中的模拟登陆获取数据(实例教学1)
  2. 工作线程AfxBeginThread的使用
  3. Unity Text 插入图片
  4. [TIPS]数据库 应用软件 MSSMS
  5. python中socket模块常用吗_python中socket模块详解
  6. php7扩展sphinx,php7进行安装sphinx简单记录
  7. vue跳转页面之后返回_vue页面跳转后返回原页面初始位置方法
  8. 省一级计算机选择题题库及答案,计算机一级考试选择题题库之excel题及答案(最新版).doc...
  9. php短网址案例,php生成短网址原理与实例
  10. table中的td内容过长显示为固定长度,多余部分用省略号代替