点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

后台回复【BEV】即可获取论文!

后台回复【ECCV2022】获取ECCV2022自动驾驶方向所有论文!

后台回复【领域综述】获取自动驾驶感知融合定位近80篇综述论文!

论文标题:Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

1摘要

本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。据称,本文是第一篇探索设计用于多任务密集预测以进行场景理解的Transformer算法。此外,更高的空间分辨率已经被证明对密集预测任务有益,而由于大空间尺寸的复杂性,现有基于Transformer的算法搭建更大分辨率的网络是十分具有挑战性的。InvPT 提出了一个高效的 UP-Transformer 模块,以逐渐增加的分辨率学习多任务特征交互,它还结合了高效的自注意力信息传递和多尺度特征聚合,以输出任务特定的高分辨率预测结果。相比于以往单任务的SOTA模型,InvPT在NYUD-v2数据集上取得了2.59%的相对提升,在PASCAL-Context数据集上取得了1.76%的相对提升。

2方法

InvPT的整体框架如上图所示,包含三个核心模块:

  • 多任务共享的InvPT Transformer encoder:首先,Transformer encoder从所有任务的输入图像中提取视觉特征,本文尝试使用ViT[14]和Swin Transformer[22]作为特征提取的主干;

  • 任务相关的preliminary decoders:然后,preliminary decoder生成各个特定任务的特征和初步预测,并使用真值监督训练;

  • InvPT Transformer decoder:最后,每个任务的特定特征和初步预测组合为一个序列,输入至InvPT Transformer decoder中,以学习在全局空间和任务上下文中生成细化的特定任务特征,细化后的特征进一步生成最终的预测结果。

前两点比较好理解,下面着重讲解InvPT Transformer Decoder。

InvPT Transformer Decoder via UP-Transformer Block

当空间分辨率较大时,全局自注意力的计算量就会十分恐怖,因此很多视觉Transformer模型都会大幅降低特征图的分辨率[14,46,44],并输出低空间分辨率的特征。然而特征图的分辨率越大,模型保存的局部细节就会越多,因此分辨率的大小是密集预测问题的一大关键因素。另一点是,不同尺度的特征图可以对不同层次的视觉信息进行建模[42,50],因此对多个任务在多个尺度上互相学习是有益的。出于以上动机,本文设计了一个逐步扩大分辨率的Transformer Decoder,称之为InvPT decoder,其由高效的UP-Transformer 模块、跨尺度自注意力信息传递和多尺度编码器模块组成。

Main Structure:UP-Transformer block的结构如下图所示。InvPT解码器包含三个阶段,每个阶段都是设计的UP-Transformer模块,用来计算不同空间分辨率下的self-attention并更新特征图。InvPT解码器的第一阶段(即阶段0)在 InvPT编码器的输出分辨率(即 H0 × W0)下学习跨任务自注意力,而接下来的两个阶段逐次恢复特征图的空间分辨率,并在更高的分辨率下计算跨任务的自注意力。后两个阶段(即阶段1和阶段2)使用本文提出的 UP-Transformer模块以更高的分辨率细化特征图,并实现跨尺度自注意力的传播,以及来自InvPT Transformer encoder的多尺度特征聚合。

Task-Specific Reshaping and Upsampling:Transformer 的计算模块通常对2D的feature-token序列进行操作,特征度的空间结构被分解,而空间结构对密集任务而言至关重要,基于对空间结构的考量,直接对特征序列进行上采样并非易事。另一个问题是InvPT解码器的输入特征包含多个不同的任务特定特征,所以需要对每个任务分别执行特征上采样和细化,以避免其他任务破坏当前任务的特征。为了解决上述问题,本文为InvPT解码器设计了一个任务特定的reshaping和upsampling模块,即Reshape&UP模块,如上图(b)和下图所示。Reshape&UP模块对每个任务的特征进行单独操作,双线性插值后分辨率扩大两倍,进一步经过Conv-BN-Relu等操作进行特征融合和通道降维,最后再拼接各个任务的特征。

Multi-task UP-Transformer Block:多任务UP-Transformer模块如上图所示,在阶段1和阶段2中使用,并学习逐层增加多任务特征的空间分辨率,并进行特征交互和以全局方式细化所有任务的特征。由于该模块在上采样后的特征图上计算全局自注意力,内存占用会非常大,因此本文首先减小了Q/K/V矩阵的大小,以进行自注意力计算[44,46]。

Cross-Scale Self-Attention Message Passing:为了使 InvPT 解码器能够更有效地对不同尺度的跨任务交互进行建模,本文通过如下方式将上一个阶段的信息传递至当前阶段。

得到当前阶段的注意力图后,再通过Reshape&UP操作进行细化和上采样,进而得到最终的多任务特征,过程如下所示:

Efficient Multi-Scale Encoder Feature Aggregation:对于密集场景理解,一些基本任务(例如边界检测)需要较低级别的视觉特征。但是在Transformer 中有效地使用多尺度特征是很棘手的,因为Transformer在图像分辨率上具有二次计算复杂度,通常只在小分辨率特征图上操作。逐渐增加特征图的大小并结合多尺度特征对GPU内存来说非常具有挑战性。因此,本文设计了一种高效且有效的多尺度编码特征聚合(EFA)策略。结构如上图所示。

3实验结果

实验结果和可视化如下所示,相比于基线,InvPT在多个任务上均有明显的提升,NYUD数据集上整体提升2.59%,在PASCAL上整体提升1.76%。

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务相关推荐

  1. 全卷积神经网络( FCN ):语义分割深度模型先驱

    语义分割 简单地说,分割就是抠图.语义分割,就是按图像中物体表达的含义进行抠图. 现在ps已经集成很多自动分割的功能,相比旧版本软件,新软件提高了美工人员的抠图和美图的效率. 如果我们能在更复杂的环境 ...

  2. 排序层-深度模型-2020:PLE【多任务学习模型】【腾讯】

    PLE模型是腾讯发表在RecSys '20上的文章,这篇paper获得了recsys'20的best paper award,也算为腾讯脱离技术贫民的大业添砖加瓦了.这篇文章号称极大的缓解了多任务学习 ...

  3. 基于轮廓调整的SOTA实例分割方法,速度达32.3fps | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 介绍 实例分割是许多计算机视觉任务中的重要手段,目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法.受snake算 ...

  4. SOTA模型飞入寻常百姓家-BEiT模型在AIStudio动手实践

    转自AI Studio,原文链接:​​​​​​SOTA模型飞入寻常百姓家-BEiT模型在AIStudio动手实践 - 飞桨AI Studio 一.缘起 众所周知Transformer模型精度高,但是训 ...

  5. 语义分割-深度学习算法总结(2018)-论文翻译(附带相关数据集)

    太优秀了,收藏用!转载自:https://www.cnblogs.com/Jie-Liang/archive/2017/06/29/6902375.html 论文原文地址:https://arxiv. ...

  6. 独家 | 不同机器学习模型的决策边界(附代码)

    作者 :Matthew Smith 翻译:张若楠 校对:吴金笛 本文约6700字,建议阅读10分钟 本文利用Iris数据集训练了多组机器学习模型,并通过预测大量的拟合数据绘制出了每个模型的决策边界. ...

  7. 多任务学习模型之ESMM介绍与实现

    简介:本文介绍的是阿里巴巴团队发表在 SIGIR'2018 的论文<Entire Space Multi-Task Model: An Effective Approach for Estimat ...

  8. MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL...

    关注公众号,发现CV技术之美 今日分享论文『MURAL: Multimodal, Multitask Retrieval Across Languages』,由 Google 提出跨语言的多模态.多任 ...

  9. 异常检测中的浅层模型与深度学习模型综述(A Unifying Review of Deep and Shallow Anomaly Detection)

    A Unifying Review of Deep and Shallow Anomaly Detection 异常检测中的浅层模型与深度学习模型综述 摘要:随着众多异常检测方法(基于生成模型,单分类 ...

  10. 高精度轻量级图像分割SOTA模型PP-LiteSeg开源

    图像分割技术在医疗病灶分析.自动驾驶车道线分割.绿幕人像抠图等领域发挥着举足轻重的作用.相比目标检测.图像分类等技术,图像分割需要将每个像素点进行分类,在精细的图像识别任务中不可替代. 图1 图像分割 ...

最新文章

  1. IHttpHandler的妙用之防盗链
  2. it is likely that the remote side declared peer gone on this jvm
  3. c语言管理系统信息以文件保存,求大神给一份能用的c语言的学籍管理系统:且能进行文件保存...
  4. OpenCV vs Dlib 人脸检测比较分析
  5. 访问控制列表(二)配置命令
  6. String的点点滴滴
  7. 接口调用导致阻塞_RocketMQ与Dubbo之间线程之间如何阻塞和唤醒
  8. android 方法不会覆盖或实现超类型的方法,React Native Android:方法不会覆盖或实现超类型的方法...
  9. win10音量图标没有了
  10. 华为路由与交换 eSight基本概述学习笔记
  11. yxy小蒟蒻的201119总结
  12. 小糊涂家装预算软件 官方
  13. C++实现的简单k近邻算法(K-Nearest-Neighbour,K-NN)
  14. 兰博基尼推出全新混动超跑Revuelto
  15. html表格制作旅游网页,简单实用的网页表格特效_html
  16. 【Java】高效处理字符串中的标点符号
  17. NLP(7): Word Sense Disambiguation and CKY
  18. axios的get请求禁止缓存
  19. Android中的线程
  20. python如何校验页面元素是否加载完毕_爬虫(八十七)等待页面加载完成(Waits)...

热门文章

  1. x是小于9的非负数的matlab,x是小于10的非负数”,用MATLAB表达式可写为
  2. Android 仿微信通讯录功能,好友排序 + 字母索引
  3. c语言字符 ul,c语言 #define 中的UL
  4. 《机器学习实战》机器学习概述
  5. 服务器2008 ftp配置文件,win2008 r2服务器ftp配置
  6. 守望先锋ptr服务器位置,守望先锋测试服怎么进 守望先锋ptr怎么进
  7. nepctf pwn easystack(_stack_chk_fail)
  8. 4.1-4.30推荐文章汇总
  9. c语言ab43错误的是,ab测试大并发错误
  10. vue 实现点击插入输入框_vue把输入框的内容添加到页面的实例讲解