点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

论文下载:https://arxiv.org/pdf/2003.08736.pdf

简介:

近年来,深度卷积神经网络(DCNNs)在语义图像分割方面表现出了优异的性能。然而,由于使用复杂的网络架构,基于DCNN的语义分割方法往往存在计算复杂度高的问题。这极大地限制了在实时处理的真实场景中的应用。本文提出了一种基于实时高性能DCNN的城市街道场景语义分割方法,在准确性和速度之间取得了良好的平衡。首先使用一个具有空洞卷积和注意力机制的轻量级基线网络(LBN-AA)作为基线网络,有效地获取密集的feature map。利用不同规模的池化操作提取丰富而独特的语义信息,开发了空间金字塔池化算法,实现了多尺度的目标检测。同时,设计了具有浅层卷积层的空间细节保护网络(SPN),生成高分辨率的保留空间细节信息的地形图。最后,利用一种简单实用的特征融合网络(FFN),分别对语义分支(DASPP)和空间分支(SPN)的深、浅特征进行了有效的融合。实验结果表明,在具有挑战性的Cityscapes和CamVid测试数据集上(仅使用一张NVIDIA TITAN X卡),该方法在51.0 fps和39.3 fps的推理速度下,分别实现了73.6%和68.0%的mIoU的准确率。实验结果表明,该方法对城市街道场景的语义分割具有较好的实时性。

本文主要贡献如下:

采用了一个轻量级网络,其改进的MobileNetV2具有Atrous convolution和Attention (LBN-AA),该算法只需较小的内存和少量的参数,可实现快速推理和较好的精度。DASPP利用不同大小的池化操作和每个像素的邻近信息,得到的特征更加丰富。分别采用SPN和FFN来进一步提高算法的精度,同时又不会造成很大的速度损失。SPN能够准确地保留丰富的空间信息,弥补深层空间细节的缺失,而FFN则有效地结合了语义分支(DASPP)和空间分支(SPN)的深、浅特征。

相关知识:

2D空洞卷积下不同的空洞率:

数据城市景观数据集上具有挑战性的多尺度变化的说明:从图片中可以看出,同一类别的物体(如人或车)在尺度上有很大差异。

空间金字塔池ASPP:利用多个具有不同速率的并行分支来捕获多尺度的上下文。

方法:

实时高性能语义分割方法由四个主要部分组成:带孔卷积和注意力机制的轻量级基线网络(LBN-AA)、DASPP、细节保留网络(SPN)和特征融合网络(FFN)。如下图所示。

(a)是提出的Atrous Convolution and Attention的轻量级基线网络(LBN-AA)。(b)是独特的空间金字塔池(DASPP)。(c)为空间细节保护网络(SPN)。(d)为特征融合网络(FFN)。

可以看到在MobileNetV2采用带孔卷积,特征图尺寸最小为1/8,而不会丢失太多信息。

进一步在改进的MobileNetV2中添加了几个卷积注意模块(CAM)来选择信息通道。利用CAM生成的权值来指导网络学习,从而得到加权特征图。这种方法有利于突出重要信息,抑制不相关信息。

具体配置参数如图所示:

CAM:通道注意力机制

CAM首先采用全局平均池化和1×1卷积,再采用批处理归一化和LeakyReLU将输出特征的重要性编码为一个向量。注意,输入通道的数量减少了1×1卷积操作,有效地提高了凸轮的效率。然后,全连通层和Sigmoid函数得到关注向量。最后,根据注意向量对特征图的不同通道进行加权。

由于只采样非零值的位置,接受域覆盖了棋盘格模式的区域,导致一些邻近信息丢失(见上中的灰色网格)。因此,LBN-AA可以通过将这些块的特征图连接起来,生成一个稠密的采样图,其中不同块的相邻信息可以进行互补。

独特的空间金字塔池DASPP:

在并行的带孔卷积分支中,分别采用池大小为3×3、5×5和7×7。三个支路的3×3 带孔卷积运算对应的atrous率分别为12、24和36。将ASPP中原始的1×1卷积分支改为1×1卷积和3×3卷积运算,有效地提高了特征提取的能力。仍然采用图像级池化层来捕获全局上下文信息。如下图所示:

空间细节保护网络(SPN)

使用一个精简版的ResNet-18前两层为SPN(详见下表)。将LBN-AA中的layer1和block2的输出连接起来作为SPN的最终输出。SPN最终输出的feature map是原始输入图像大小的1/4,包含88个通道。虽然SPN得到的feature map分辨率较大,但计算代价较小(因为压缩版ResNet-18只使用了浅卷积层)。

特征融合网络(FFN)

首先将两个分支的特征图沿通道连接起来。然后应用BN操作缩短特征距离,平衡特征尺度。两个特征图相同位置的像素不一定相似,它们可能与该位置上相邻的像素相似。采用size为3×3,arous rate d = 2的带孔卷积来融合特征。该操作能够有效地结合目标像素周围相邻像素的特征信息,而不是仅仅依赖于一个位置。然后用大小为1×1的投影卷积将输出通道的数量减少到语义类别的数量(216个减少到19个-标签的类别个数)。在带孔卷积和投影卷积之间也使用了BN层。最后,利用简单而高效的双线性插值,直接将融合结果上采样到原始输入图像的大小。双线性插值只需要很少的参数,可以达到与转置卷积相似的精度。

在Cityscapes数据及上获取的结果如下图:

与其他先进网络的结果对比:

对于每个类的分类正确性比较:

在CmaVid数据集上的比较结果:

总结:

在本文中,提出了一种新的实时高性能语义分割方法,以实现在准确性和速度之间的平衡。该方法由四个主要部分组成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用轻量化网络、卷积、卷积关注模块提取特征,得到密集的特征图。DASPP增加了输入特征的多样性,利用丰富的上下文信息有效地解决了语义分割的多尺度问题。SPN的设计是为了保留丰富的空间信息,弥补细节的缺失。FFN负责融合高级和低级特性。这些组件通过紧密耦合和联合优化来保证语义分割的有效性。在城市景观和CamVid数据集上的定性和定量结果证明了该方法的有效性和效率。该方法中的一些模块不仅可以用于实时语义分割,而且可以用于精确的语义分割。

本文仅做学术分享,如有侵权,请联系删文。

推荐阅读:

  • 专辑|相机标定

  • 专辑|3D点云

  • 专辑|SLAM

  • 专辑|深度学习与自动驾驶

  • 专辑|结构光

  • 专辑|事件相机

  • 专辑|OpenCV学习

  • 专辑|学习资源汇总

  • 专辑|招聘与项目对接

  • 专辑|读书笔记

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

自动驾驶领域:一种实时高精度的城市道路场景语义分割方法相关推荐

  1. AI未来说 | 听大牛论自动驾驶领域干货,看无人驾驶小车真实运作

    AI已来,而你来不来!? 人工智能论坛如今浩如烟海,有硬货.有干货的讲座却百里挑一."AI未来说"青年学术论坛第七期如约而至.本期论坛邀请了来自清华.北大.北理工.百度的各位专家和 ...

  2. Paper:自动驾驶领域SAE标准之《道路机动车辆驾驶自动化系统相关术语的分类和定义》官方英文原文翻译与解读(一)

    Paper:自动驾驶领域L级别SAE标准<道路机动车辆驾驶自动化系统相关术语的分类和定义&Taxonomy and Definitions for Terms Related to Dr ...

  3. 2021自动驾驶领域最具商业合作价值企业盘点

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 6月19日,数据猿携手上海大数据联盟,依托双方优势资源与力量,共同以媒体+联盟的方式推动产业的发展与行业的进步,特以"聚焦数智价值 引领 ...

  4. 探索自动驾驶领域中的3D多目标跟踪(ICCV 2021)

    作者丨少年依旧如风@知乎 来源丨https://zhuanlan.zhihu.com/p/417445881 编辑丨3D视觉工坊 论文:Exploring Simple 3D Multi-Object ...

  5. ESPNet: 自动驾驶领域轻量级分割模型

    原文首发于微信公众号「3D视觉工坊」--ESPNet: 自动驾驶领域轻量级分割模型 原文:ESPNet: Efficient Spatial Pyramid of Dilated Convolutio ...

  6. 2021年4月自动驾驶领域重要动态速览

    进入2021年以来,自动驾驶领域发展持续推进,即将过去的4月份,自动驾驶相关动态频繁,包括一众自动驾驶初创企业和汽车巨头玩家等都有不少动作,值得关注.下面,小编盘点了部分主要事件,大家一起来看一看吧! ...

  7. 特斯拉撤诉和解,小鹏汽车沉冤得雪:警惕自动驾驶领域的“美国陷阱”

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 历时2年,曾经轰轰烈烈的特斯拉状告小鹏汽车新员工一案,落锤.和解. 特斯拉最初以"商业窃密"起诉,但两年翻来覆去,最终 ...

  8. 自动驾驶领域常用的数据集(检测,分割,定位)

    原文链接:https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030409&idx=1&sn=2202eba9d ...

  9. 自动驾驶领域的Android?百度能否超越特斯拉和谷歌

    本文来源作者 深潜atom 12月15日,有媒体报道,百度正在考虑生产属于自己的电动汽车,或将组建一家持有多数股权的合资公司.目前百度已与包括浙江吉利.广州汽车集团和中国一汽在内的汽车制造商就可能的合 ...

最新文章

  1. 摄像头图像分析目标物体大小位置_小目标检测的增强算法
  2. 安装Ruby、Sass在WebStrom添加Watcher实现编辑scss文件时自动生成.map和压缩后的.css文件...
  3. 物理竞赛得奖学计算机,物理竞赛林紫琪带你探索清华学堂计算机科学实验班”(姚班)...
  4. saltstack 管理mysql_saltstack自动化运维系列④之saltstack的命令返回结果mysql数据库写入...
  5. bp 神经网络 优点 不足_深度学习之BP神经网络--Stata和R同步实现(附Stata数据和代码)
  6. ai进入轮廓模式怎么退出_五大容易过劳死的职业 怎么避免进入过劳死模式?
  7. TensorFlow tf.keras.losses.SparseCategoricalCrossentropy
  8. .NET/C#使用NPOI操作Excel
  9. 物流管理系统c语言程序设计,C语言程序设计物流管理系统.doc
  10. java jvm参数获取_在java代码中获取JVM参数
  11. 【光学】基于matlab圆孔衍射动态模拟【含Matlab源码 795期】
  12. mysql 测试快生产慢_兴奋!阿里三位扫地憎专家总结的Mysql性能优化金字塔法则,操作细节满分...
  13. 减小动态库大小及隐藏符号
  14. 嵌入式linux机械臂,一款基于ARM嵌入式的机械臂的设计与实现
  15. snapchat第三方登录回验(服务器端)
  16. Python编写后门程序
  17. python|爬虫|爬取豆瓣自己账号下的观影记录并可视化
  18. TI公司与MSP430单片机
  19. 动图演示:彻底理解红黑树?
  20. 十万评论告诉你谁在给《流浪地球》打 1 星

热门文章

  1. TypeScript interface
  2. iOS UITapGestureRecognizer手势和UIButton 以及UITabelView点击事件冲突
  3. Windows Azure Mobile Services增加了对 Android的支持并扩展其适用范围至东亚地区
  4. 工作三年,我眼中的‘企业’网络管理员(非苦水)
  5. 在Windows 2003 64位下ASP无法连接Access数据库的解决办法
  6. 某大龄程序员哀叹:夫妻双失业后还不起房贷,被迫断供!四年还了80万,60多万都是利息!...
  7. 薪资被「倒挂」,别慌,咱们用实力说话
  8. 苦修月余,斩获bigo、腾讯offer,面经奉上!
  9. 大厂面试必问的 4 大开源框架,你真会吗?
  10. 查询提升200倍,ClickHouse你值得拥有!