基于CNN的区域特定多尺度特征提取的两阶段停车位检测
点击上方“计算机视觉工坊”,选择“星标”
干货第一时间送达
作者丨泡椒味的口香糖
来源丨 GiantPandaCV
0. 引言
在自动驾驶系统的设计中,停车位的检测一直是一项具有挑战性的任务。本文将带大家精读2021 CVPR的论文"基于CNN的区域特定多尺度特征提取的两阶段停车位检测",该论文阐述了一种全新的两阶段停车位检测方法,使用区域特定的多尺度特征提取,具有开创性的价值。
1. 论文信息
标题:CNN-based Two-Stage Parking Slot Detection Using Region-Specific Multi-Scale Feature Extraction
作者:Quang Huy Bui and Jae Kyu Suhr
来源:2021 Computer Vision and Pattern Recognition(CVPR)
原文链接:https://arxiv.org/abs/2108.06185
2. 摘要
基于深度学习的对象检测方法可以分为一阶段和两阶段方法。虽然众所周知,两阶段方法在一般对象检测中优于一阶段方法,但是到目前为止,它们在停车位检测中表现相似。
我们认为这是因为两阶段方法还没有被充分地专用于停车位检测。因此,本文提出了一个高度专业化的两阶段停车位检测器,它使用区域特定的多尺度特征提取。
在第一阶段,所提出的方法通过估计停车位的中心、长度和方向来找到停车位的入口作为区域提议。
该方法的第二阶段指定包含所需信息最多的特定区域,并从中提取特征。也就是说,仅从最包含位置和方向信息的特定区域中单独提取位置和方向的特征。
此外,多分辨率特征地图被用来提高定位和分类的准确性。一个高分辨率特征图用于提取详细信息(位置和方向),而另一个低分辨率特征图用于提取语义信息(类型和占用)。
在实验中,使用两个大规模的公共停车位检测数据集对所提出的方法进行了定量评估,其性能优于先前的方法,包括一阶段和两阶段方法。
3. 算法分析
如图1所示为作者提出的利用区域特定的多尺度特征提取的两阶段方法的总体架构,输入的AVM图像被插入到主干网络中用于特征图提取。
该算法在第一阶段使用区域建议网络(RPN)粗略定位停车位入口,在第二阶段使用停车位检测网络(SDN)和停车位分类网络(SCN)精确估计停车位的位置和属性。
在以前的停车线检测中,基本都是从特征图中提取整个区域提议的特征,或者从输入图像中裁剪区域提议的整个区域。而这一框架仅从包含相应信息最多的特定区域中,单独提取用于预测停车位的位置和方向的特征。该论文的贡献可以概括为如下几点:
(1) 提出了一种将两阶段通用目标检测应用于停车位检测任务的有效方法;
(2) 提出了区域特定的多尺度特征提取,提高了检测性能和定位精度;
(3) 使用两个大规模公共数据集给出了定量评估结果,并表明所提出的方法给出了最先进的性能。
3.1 区域提案网络
与以前使用平行四边形、四边形或旋转矩形捕获整个停车位的方法不同,作者所提出的方法将停车位入口生成为区域建议。这是因为AVM图像通常不包括整个停车槽,而停车槽入口本身包含足够的信息供汽车开始停车,如图2所示为算法提出的RPN网络信息。
在图2所示的RPN中,红色实线和箭头分别指示生成的停车位入口和停车位的方向。因为RPN可以为单个停车位找到多个入口,所以基于两个停车位不能重叠的事实,利用非最大抑制(NMS)来移除重复检测。如果两个入口的中心位置非常接近,则认为这两个入口是重复的。
3.2 特定区域多尺度特征提取
在将停车位入口生成为区域提议之后,算法从生成的区域提议指定的感兴趣区域(ROI)中提取特征。作者巧妙地考虑到了停车位在AVM图像中可以以任意方向出现,所以不同于用直立矩形和平行四边形作为ROI进行特征提取的方法,作者提出了一种使用多尺度特征图的区域特定感兴趣区域设计,称为区域特定多尺度特征提取,其原理如图3所示。同时,图4给出了所提出的特定区域多尺度特征提取的完整操作。
(a)基于平行四边形的ROI指定;(b)-(d)区域特定的ROI指定,(b)显示位置区域,(c)显示方向区域,(d)显示类型和占用区域。
3.3 停车位检测和分类网络
利用所提出的特定区域多尺度特征提取所获得的特征,SDN检测停车位的精确位置和方向,而SCN对其类型和占用情况进行分类。图5分别给出了SDN和SCN的详细描述。
作者使用两个大规模公共停车位检测数据集对所提出的方法进行了定量评估:首尔国立大学数据集(SNU)和同济停车位数据集(PS2.0),如表1所示为两个数据集上的评估总结。
表1 SNU和PS2.0数据集上的评估总结
4.1 SNU数据集上的性能
表2是作者提出的方法和之前两种最先进的一步和两步方法的检测性能对比,其中一阶段法比两阶段法表现稍好,这主要是因为两阶段方法还没有被充分地专用于停车位检测。
同时,结果表明两阶段方法在宽松标准下比其他方法大约好3%到5%,在严格标准下比其他方法好11%到13%,说明如果两阶段方法进行合理设计,那么是可以胜过一阶段方法的。此外,当收紧标准时,作者提出的方法的性能仅下降约12%,而其他方法的性能急剧下降约20%。
表2 SNU数据集上的停车线检测性能对比
表3给出了三种方法的详细定位精度,表明作者所提出的方法的位置和方向误差都小于其他人。在自主停车系统中,定位精度非常重要,两阶段方法展示了更优秀的位置精度。
表3 SUN数据集上的停车线位置精度对比
表4给出了消融实验的结果,实验集中在区域特定的感兴趣区域和多尺度特征图上进行。消融实验表明,作者所提出的区域特定的多尺度特征提取提高了停车位检测性能。
表4 消融实验
图6展示了包含在SNU数据集的测试图像中的各种停车情况下的停车位检测结果,结果显示各种停车线都可以被准确稳定地检测到。
图6 SNU数据集测试图像中的停车位检测结果
绿线、红线和蓝线分别表示垂直、平行和倾斜的停车位;实线和虚线分别表示空闲和占用的停车位。
4.2 PS2.0数据集上的性能
表5显示了PS2.0数据集上停车位检测性能的比较,作者所提出的方法在PS2.0数据集显示出比其他方法稍高的停车位检测性能。
表5 PS2.0数据集上停车位检测性能的比较
在PS2.0数据集上的差距不像在SNU数据集上那样明显,因为几乎所有的方法在该数据集上都已经达到了非常高的检测性能。这主要是由于PS2.0数据集的训练图像和测试图像之间的相似性。这种相似性使得很难用来比较不同方法的性能。表6比较了PS2.0数据集上的类型和占用分类性能。
表6 PS2.0数据集上停车位分类性能的比较
图7给出了在PS2.0数据集的测试图像中包含的各种停车情况下的停车位检测结果,这也表明了作者所提出的方法能够恰当地处理包含在PS2.0数据集中的各种情况。
图7 在PS2.0数据集的测试图像中,给出了所提方法的停车位检测结果
绿线、红线和蓝线分别表示垂直、平行和倾斜的停车位;实线和虚线分别表示空闲和占用的停车位。
5. 结论
在论文"CNN-based Two-Stage Parking Slot Detection Using Region-Specific Multi-Scale Feature Extraction"中,作者提出了一种新的高度专业化的两阶段停车位检测方法,该方法在第一阶段寻找停车位入口作为区域建议,并在第二阶段从多尺度特征地图中提取区域特定特征以精确预测停车位的位置和属性。
最后使用两个大规模公共停车位检测数据集对该方法进行了定量评估,其检测性能和定位精度均优于以往方法。这一结果表明,如果充分专门化,两阶段方法优于一阶段方法,与一般对象检测的情况相同,这一方法对后续的停车线检测方法具有主要的借鉴意义。此外,作者也提到可以使用滤波器修剪和权重量化来优化网络,以在实时嵌入式系统中实现,读者也可将其作为一个研究方向。
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
基于CNN的区域特定多尺度特征提取的两阶段停车位检测相关推荐
- 基于 CNN 特征区域进行目标检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 目标检测是目前计算机视觉领域最热门的技术之一,该领域的研究一直在以 ...
- 【步态识别】基于CNN、步态能量图+HOG特征提取的步态识别算法的MATLAB仿真
卷积层的结构如下所示: 具体可以看如下的网址: 这个是传统的卷积神经网络.我们按这个进行设计.仿真结果如下: 他的识别率为88.89%. 然后我这里介绍下我们的改进思路,改进思路如下所示: 此外, 影 ...
- 基于opencv的霍夫方法和RANSAC方法两种圆检测
- 谈谈CNN中的位置和尺度问题
来自 | 知乎 作者 | 黄飘 链接 | https://zhuanlan.zhihu.com/p/113443895 编辑 | 深度学习这件小事公众号 本文经作者授权转载,作学术交流,请勿二次转载 ...
- 论文解读 | [CVPR2019] 基于自适应文本区域表示的任意形状场景文本检测
目录 1 研究背景及意义 2 总体设计 3 方法论 3.1 自适应文本区域表示 3.2 文本建议 3.3 建议改进 4 损失函数 5 实验及结果 1 研究背景及意义 现有的场景文本检测方法使用固定点数 ...
- LE-MSFE-DDNet:基于微光增强和多尺度特征提取的缺陷检测网络--论文笔记
论文的英文名称为:LE–MSFE–DDNet: a defect detection network based on low‑light enhancement and multi‑scale fe ...
- Efficient feature learning and multi-size image steganalysis based on CNN【Zhu-Net基于高效特征学习与多尺度图像隐写分析】
摘要 对于隐写分析,许多研究表明卷积神经网络比传统机器学习方法的两部分结构具有更好的性能.然而,仍然有两个问题需要解决:降低隐写分析特征映射的信噪比和对任意大小的图像进行隐写分析.一些算法需要固定大小 ...
- 基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测,目标追踪,卷积神经网络
一.研究意义 卷积神经网络(CNN)由于其强大的特征提取能力,近年来被广泛用于计算机视觉领域.1998年Yann LeCun等提出的LeNet-5网络结构,该结构使得卷积神经网络可以端到端的训练,并应 ...
- 物联网IoT:开源代码基于CNN的红外图像人检测夜间入侵预警系统
背景 对于安全性问题夜间监视是非常重要,一些研究试图通过使用红外热像仪自动检测闯入禁区的人员.但是,从红外闭路电视(闭路电视)中检测人身具有挑战性,因为他们通常安装在头顶位置,并且人只在结果图像中占据 ...
- 【目标检测系列】CNN中的目标多尺度处理方法
关注上方"深度学习技术前沿",选择"星标公众号", 技术干货,第一时间送达! [导读]本篇博文我们一起来讨论总结一下目标检测任务中用来处理目标多尺度的一些算法. ...
最新文章
- Go 学习笔记(65)— Go 中函数参数是传值还是传引用
- R语言ggplot2可视化:应用pivot_longer函数将数据从宽格式转换为长格式、为dataframe的每一列绘制密度图和直方图(堆叠)
- 【网络】高性能网络编程--下一个10年,是时候考虑C10M并发问题了
- linux安装配置jdk1.8
- sklearn、theano、TensorFlow 以及 theras 的理解
- uniapp 开发基础环境搭建和配置
- html堆叠柱状图脚本,Highcharts 堆叠组柱形图
- 人能为赚钱吃多少苦?
- 创建生成级联上级字符的函数
- mysql getnum函数_Mysql中实现提取字符串中的数字的自定义函数分享
- 力扣题目系列:860. 柠檬水找零
- python识别图片上的文字_Python程序图片和pdf上文字识别实例
- 基于linux 的 PCI PCIe 总线分析总结
- 实现京东商城地址选择效果(效果还挺一致的)
- 进程锁、事件、进程队列、进程间共享数据、生产者消费者模型
- 长期有效的Google Adsense英文高单价关键词
- 「石墨文档」在线协同办公系统平台免费在线办公文档兼容Office
- 推荐一个超好用的免费屏幕录制软件
- 图片标签,超链接标签
- 【论文速览】深度模型-降维与聚类
热门文章
- html dom onblur,html DOM Event对象onblur事件
- 飞秋在同一局域网内刷新不到好友
- 凡人修仙传jar_凡人的贝壳无法逃脱灵魂般的阴影
- HIVE 系列 (4) hive 内部表和外部表HQL查询统计
- mysql hugepage_mysql启用hugepage-阿里云开发者社区
- 随机数生成器(RNG, random number generator)
- 360手机号码归属地查询抓取、免费稳定高效手机号码归属地查询
- sha1校验工具android,Android 正式版与测试版签名(MD5,SHA1,SHA256)以及忘记keystore的应用正式版签名获取...
- 服务器名称指示(SNI)是什么东东?
- Datawhale- DS- Jun - 第一章:第一节数据载入及初步观察-课程