基于2D-3D直线对应关系的单目摄像机定位
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
编辑丨当SLAM遇见小王同学
声明: 本文只是个人学习记录,侵权可删。论文版权与著作权等全归原作者所有,小王自觉遵守《中华人民共和国著作权法》与《伯尔尼公约》等国内外相关法律,其他个人或者组织等转载请保留此声明!!
“
如今,VO&VIO在状态估计方面取得不错进展,但在闭环时会不可避免地累积漂移和位姿跳变。为了克服这些问题,武汉大学提出了一种有效的单目相机定位方法,在现有的激光雷达地图使用直接2D-3D线关系。为了处理激光雷达点云和图像之间的差异,从激光雷达地图离线提取几何3D线,而从视频序列在线提取鲁棒2D线。利用来自VIO的姿态预测,可以有效地获得粗糙的2D-3D线关系。然后通过最小化投影误差和剔除离群点,迭代优化相机位姿和2D-3D对应关系。实验结果表明,所提出的方法能够在结构化环境中有效地估计相机位姿,而没有累积漂移或姿态跳跃。
”
1
介绍
在如今,图像数据与3D点云的融合具有挑战性。当前的方法通常将3D数据传送到2D,再根据2D图像对3D点云进行重建,以对齐用于位姿估计的数据。基于城市环境的特征,作者基于这样一个事实,即主要的几何结构,如线和平面,可以在3D地图和2D图像中捕获。直接的2D-3D几何关系更鲁棒和精确。因此,作者是直接估计2D-3D线的对应关系,用于精确和长期的相机定位。
武汉大学这项工作提出了一种在现有3D激光雷达地图中,直接利用2D-3D线关系来实现实时轻量级单目相机定位的方法。作者假设给定一个粗略的位姿初始化,并关注地图中的姿态跟踪,对于几何并发特征提取,从激光雷达地图离线检测3D线段,从视频序列在线提取鲁棒的2D线段。通过采用来自VIO的6自由度位姿预测,提取视场中的局部可见3D线,并直接与2D线特征匹配以获得粗略的2D-3D线关系。最后,通过最小化投影误差和剔除异常值,对相机位姿和2D-3D匹配进行迭代优化。
总之,这项工作的主要贡献是:
估算几何用于相机定位的2D-3D线关系,其有效地将每个关键帧与先前的激光雷达图相关联
几何线对应对于外观变化是鲁棒的,并且适合于城市环境中的相机定位
图1示出了在激光雷达图中具有2D-3D线对应和估计的相机位姿的图像。
2
理论方法
该方法同时估计激光雷达地图中的6自由度相机姿态和2D-3D线对应关系。对应关系用于通过最小化3D线投影误差来优化相机姿态,而改进的相机姿态可以帮助reject异常对应关系。作为在线2D-3D对应估计的初步步骤,在大规模3D激光雷达地图上离线提取3D线特征。同时,在手动标记的2D-3D点对应关系上,由PnP为第一帧给出粗略姿态初始化。然后利用VINS-Mono来预测相邻关键帧之间的相机运动。利用预测的姿态,提取相机视场中的局部3D线,并与从图像序列中在线提取的2D线直接匹配。最后,相机位姿和2D-3D对应关系被迭代更新。
系统如图2所示
1 提取2D和3D线
在城市环境中,几何结构通常由线段和平面表示。作者使用基于分割的3D线检测方法从激光雷达图中提取3D线。总体思路是将点云聚类成平面区域,然后拟合得到3D线段。该方法对于大规模点云是有效和鲁棒的。虽然处理几百万个点需要时间,但是所有地图的3D线在开始追踪之前只提取一次。
对于2D线提取,作者希望提取与3D线一致且对噪声具有鲁棒性的几何2D线。这在城市场景中是具有挑战性的,因为大量的纹理噪声会产生碎片化的2D线段,并且在颜色均匀的结构(例如,白墙)上的2D图像中一些几何边缘是不可见的。许多最先进的线段检测(LSD)方法已经出现在计算机视觉中,其中传统的手工方法在CPU上在线运行效率很高。然而,检测到的线是有噪声的,图3(a)示出了一个例子。这种碎片化和噪声化的特征会产生大量的二维三维匹配异常值。考虑到线的完整性和对噪声的鲁棒性,最终采用了基于Learning的最小二乘方法,该方法使用AFM将最小二乘问题转化为区域着色问题。对于图像中的每个像素p,模型首先学习从像素到最近线段上的最近点P'的2D向量a(p)。
2 2D-3D线匹配
对于单个帧,获得2D-3D对应的主要步骤包括初始相机位姿预测、3D直线检测和单个2D-3D线对应性估计。这里,提取FoV中的3D线有助于提高效率,因为与3D地图中的所有3D线相比,FoV中的局部3D线非常有限。考虑到遮挡检查仅在3D线地图上很难进行,将所有3D线保持在FoV中,而不丢弃遮挡线。
对于时间t处的图像,来自VINS-Mono的对应姿态估计被表示为,并且使用2D-3D对应关系的更新姿态被表示为。通过使用来自最后一帧的2D-3D对应的估计姿态和来自VINS-Mono T的摄像机运动,可以计算更新的姿态:
利用姿态预测点,可以基于两个端点投影提取FoV中的局部3D线{},以提高效率。用于检查FoV中3D点P的可见性.
利用预测的摄像机位置,2D线= (,)直接与FoV中的局部3D线匹配,其中和分别是2D线的起点和终点。对于每个可能的2D-3D对应,我们使用3D向量来测量相似性,2D角距离θ,两个3D端点投影的距离d到相应的无限2D线,以及有限2D线与3D线投影的重叠长度
3D线L=(,)在像平面上的投影是=(,).
2D线的归一化表示为v=()//||||。
那么2D角距离θ可以通过下式计算:
假设提取的2D线的参数表示为Ax+By+C=0。距离d可以通过下式计算:
通过使用点到线投影点,3D线投影之间的重叠长度与检测到的2D线为:
3 姿势优
对于单个帧,可以通过将两个3D端点投影的点到无限线的距离最小化到相应的2D线距离来优化相机姿态。估计的摄像机姿态的李代数表示为ξ。无限2D线的系数向量可以是H=[A B C]。目标函数是最小化所有2D-3D对应之间的投影误差:
然而,单帧2D-3D对应观测对于在线相机定位不够稳健。当视场中的3D线在3D空间中受限或彼此平行时,2D-3D对应关系不能约束6自由度姿态。此外,即使是对于姿态估计来说,对应关系就足够了,2D线和三维线的几何定位噪声会使估计在真实姿态附近抖动。为了解决这些问题,利用滑动窗口来添加更多的先前对应观察,以优化当前姿态(如图5所示)。假设从VINS-Mono为两个相邻关键帧估计的摄像机运动是准确的,这是合理的,因为VINS-Mono在两个相邻关键帧上的漂移很小。表示为两个相邻关键帧之间的摄像机运动(4×4矩阵,包括R和T)。前第n个关键帧的摄像机姿态可以通过当前估计和摄像机运动导出
那么滑动窗口中所有先前的2D-3D对应关系在当前帧中都是“可见的”。在等式9,先前的摄像机姿态与当前姿态相关,而是恒定的姿态变换,其李代数表示为ξ。因此,姿态优化函数为
3
实验结果
作者在两个不同的真实数据集上进行了测试。第一个实验是在EuRoC上进行的。然后,在不同条件下对Realsense D435i相机采集的数据集进行了实验,以验证性能。
1 EuRoC MAV 数据集结果
EuRoC MAV数据集是一个在UAV上收集的视觉惯性数据集。2D-3D对应结果和激光雷达图中的估计轨迹如图6所示。FoV中的所有3D线都投影到图像平面没有遮挡检查。从左上图中,我们可以观察到3D线(绿色)的投影通过使用VINS-Mono(红)的估计位姿而移动。然后通过迭代更新2D-3D对应关系和相机姿态,以更精确的姿态获得稳定的对应关系。位置漂移大大减少,并且可以估计稳定的2D-3D对应关系。
对于定量分析,每个序列的开始200个估计姿态用于与地面真实的轨迹对准。绝对轨迹误差(ATE)结果如表1所示,很明显,与仅里程计相比,2D3D对应提高了姿态估计精度。V2房间有更多的噪音,使得2D-3D的对应关系有时不稳定,无法进行姿态优化。这就是为什么V2的改进没有V1的显著原因。最坏的情况是没有稳定的2D-3D对应关系可用,并且最终估计遵循里程计。此外,我们的方法显示出与VINS相比有竞争力的结果。而循环闭合优化了循环中过去的位姿,并为当前位姿产生位姿跳跃。出于实时定位的目的,过去对位姿的改进没有意义,我们的方法总是在滑动窗口中估计当前的位姿,这大大减少了漂移,并且没有姿态跳跃的问题。
平均相对位姿误差(RPE)如表二和图7所示,作者的方法误差始终保持较小且稳定,这与2D和3D直线定位的精度有关。
2 作者采集的数据集的评估
为了进一步评估,作者在自己收集的室内走廊和室外建筑数据上进行了测试。英特尔RealSense D435i摄像头用于收集同步图像和惯性测量单元数据。左全局快门成像仪捕获单目图像序列(30Hz下640 × 480像素图像,红外投影仪关闭),并同步IMU数据(200Hz)。
如图8所示,激光雷达图是通过记录FARO扫描仪的几次扫描获得的。室内走廊(图8a)和史密斯厅(图8c)都有很多遮挡,而NSH大楼(图8b)则简单得多,遮挡较少。对于这些实验,轨迹以相同的模式运行一整圈,并返回起点。
室内走廊的结果如图1所示。两个室外建筑的结果如图9所示。考虑到没有地面真实轨迹,估算精度验证以以下两种方式显示。对于定性分析,使用估计的姿态将3D线要素投影为与2D线重叠VINS-Mono(红色)和作者的方法。对于VINS-Mono,可以观察到3D线投影(绿线)被左上角图像中不准确的相机姿态移动和缩放。当使用作者的方法时,姿态估计在左下图像中提供了更精确和稳定的2D3D结构对应。此外,还可以观察到两个轨迹之间明显的错位。
为了评估准确性,作者沿着轨迹选取5帧,并使用PnP在手动标记的10对2D-3D点对应关系上估计地面真实相机姿态。沿着轨迹在不同时间对5个帧进行采样。位置误差如表三所示。对于VINS-Mono(红色),累积的漂移沿着轨迹增加了很多。而作者的方法在稳定的2D-3D直线对应的帮助下大大提高了定位精度。定位误差沿着整个轨迹保持较小。另一个有趣的观察是,如果保持系统的方向,并向后移动到起始位置,累积的误差会向后漂移,这在NSH大楼上的VINS-Mono的结果中有所体现。
就效率而言,VINS-Mono不使用地图信息,可以自定义输出频率设置。然而,随着设置频率的不同,里程计的结果会有很大的变化。选择15 Hz是最稳定的。然后,对于2D-3D对应关系和相机姿态的估计,每个关键帧平均花费大约0.01秒。由于3D线提取在系统启动之前是离线的,所以2D线检测可以在640×480图像上以25Hz运行,而作者的方法可以在所有场景下以大约13-15Hz运行。
4
结论
在本文中,作者提出了一种新的单目相机定位方法。在现有的激光雷达地图的结构环境,利用激光雷达地图中的3D几何线和鲁棒的在线2D线检测,其方法基于VINS-Mono相机运动预测有效地获得粗略的2D-3D线对应。2D-3D对应的位姿优化大大减小了VIO系统的位姿估计漂移,而无需使用视觉闭环。
在真实数据集上的定性和定量结果表明,可以有效地获得激光雷达地图中可靠的2D-3D对应关系和精确的相机姿态。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
基于2D-3D直线对应关系的单目摄像机定位相关推荐
- 【论文精读】基于网络立体数据监督的单目相对深度感知
基于网络立体数据监督的单目相对深度感知 Paper Information Abstract 1 Introduction 2 Related Work 3 Proposed method 3.1 O ...
- 3D视觉(二):单目摄像头的标定与校正
3D视觉(二):单目摄像头的标定与校正 文章目录 3D视觉(二):单目摄像头的标定与校正 一.相机模型 1.机器车坐标系到相机坐标系 2.相机坐标系到归一化平面坐标系 3.归一化平面坐标畸变 4.归一 ...
- 基于FPGA的单目内窥镜定位系统设计(上)
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第一篇,上篇,话不多说,上货. 导读 随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
- 基于FPGA的单目内窥镜定位系统设计(中)
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第二篇,中篇,话不多说,上货. 导读 随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
- 基于交汇的多机器人协作单目SLAM
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨泡泡机器人SLAM 标题:Multirobot Collaborative Monocular ...
- 基于FPGA的单目内窥镜定位系统设计(下)
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第三篇,下篇,话不多说,上货. 导读 随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
- 畸变的单目摄像机标定
畸变的单目摄像机标定 Deep Single Image Camera Calibration with Radial Distortion 摘要 单图像标定是从一幅图像中预测摄像机参数的问题.在处理 ...
- 摄像机标定技术及其应用——单目摄像机
摄像机标定技术及其应用--单目摄像机 一.为什么要进行摄像机标定 随着机器视觉的迅猛发展,我们已经不满足于使用摄像机进行监控.抓拍这种较为简单的功能.更多的用户青睐于它在非接触三维尺寸测量上的应用.我 ...
- 机器视觉学习笔记(4)——单目摄像机标定参数说明
机器视觉学习笔记(4)--单目摄像机标定参数说明 标签: 机器视觉 1.针孔摄像机模型 在介绍摄像机标定参数之前,需要先简单说一下针孔摄像机的原理.投影平面到小孔的距离为焦距f,物体到小孔的距离为Z, ...
最新文章
- always on sql 收缩日志_SQL Server AlwaysOn日志收缩
- CMU Facebook论文解读 | 非局部神经网络(附代码实现)
- JMP Discovery Summit数据分析峰会登陆中国
- Spring MVC表单教程
- 2016年第12本:成功就靠专注一件事
- linux安装lua相关编译报错
- Xshell远程连接Linux无法成功连接
- flash mx拖拽实例_Flash MX 2004动态串面板
- web页面左右双向箭头(利用CSS样式和图片)——20181130
- 计算机控制面板空白,win7控制面板打开是空白的怎么办-解决控制面板打开之后空白的方法 - 河东软件园...
- python数据分析案例简单实战项目(二)--疫情数据分析
- 钟南山:越晚“阳”,症状或越轻
- JAVA调用Excel公式和js判断选择计算有效集合
- 共享电车“享骑”押金退还花样多啊
- 服务器集群技术的特点和功能
- 大数据和云计算发展前景怎样?
- 深入浅出工控机加固的那点事
- android 设置EditText可输入和不可输入状态
- 帮助你快速懂得心算十进制转二进制。(理解就会)
- WIN11 EDGE IE8调试
热门文章
- 超高频UHF RFID读写模块R200开发测试
- OSS服务和自建服务器存储对比
- 线段树版子题【HDU - 1166 敌兵布阵】【HDU-1754 I Hate It】【HDU-1698 Just a Hook】【OpenJ_Bailian3439A Simple Pro】
- 大话神仙仙旅奇缘答案大全
- 实现点击不同的按钮显示不同的内容【同一页面】web
- 手把手带你撸一个校园APP(五):新闻中心模块
- candence pcb走线等长_PCB走线角度选择 - PCB Layout 跳坑指南 - 吴川斌的博客
- stp实验心得_实验报告STP
- 简单使用Python爬虫爬取淘宝网页商品信息
- Can't connect to host : 由于目标计算机积极拒绝,无法连接。