基于2D-3D直线对应关系的单目摄像机定位

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

编辑丨当SLAM遇见小王同学

声明: 本文只是个人学习记录，侵权可删。论文版权与著作权等全归原作者所有，小王自觉遵守《中华人民共和国著作权法》与《伯尔尼公约》等国内外相关法律，其他个人或者组织等转载请保留此声明！！

“

如今，VO&VIO在状态估计方面取得不错进展，但在闭环时会不可避免地累积漂移和位姿跳变。为了克服这些问题，武汉大学提出了一种有效的单目相机定位方法，在现有的激光雷达地图使用直接2D-3D线关系。为了处理激光雷达点云和图像之间的差异，从激光雷达地图离线提取几何3D线，而从视频序列在线提取鲁棒2D线。利用来自VIO的姿态预测，可以有效地获得粗糙的2D-3D线关系。然后通过最小化投影误差和剔除离群点，迭代优化相机位姿和2D-3D对应关系。实验结果表明，所提出的方法能够在结构化环境中有效地估计相机位姿，而没有累积漂移或姿态跳跃。

”

介绍

在如今，图像数据与3D点云的融合具有挑战性。当前的方法通常将3D数据传送到2D，再根据2D图像对3D点云进行重建，以对齐用于位姿估计的数据。基于城市环境的特征，作者基于这样一个事实，即主要的几何结构，如线和平面，可以在3D地图和2D图像中捕获。直接的2D-3D几何关系更鲁棒和精确。因此，作者是直接估计2D-3D线的对应关系，用于精确和长期的相机定位。

武汉大学这项工作提出了一种在现有3D激光雷达地图中，直接利用2D-3D线关系来实现实时轻量级单目相机定位的方法。作者假设给定一个粗略的位姿初始化，并关注地图中的姿态跟踪，对于几何并发特征提取，从激光雷达地图离线检测3D线段，从视频序列在线提取鲁棒的2D线段。通过采用来自VIO的6自由度位姿预测，提取视场中的局部可见3D线，并直接与2D线特征匹配以获得粗略的2D-3D线关系。最后，通过最小化投影误差和剔除异常值，对相机位姿和2D-3D匹配进行迭代优化。

总之，这项工作的主要贡献是：

估算几何用于相机定位的2D-3D线关系，其有效地将每个关键帧与先前的激光雷达图相关联
几何线对应对于外观变化是鲁棒的，并且适合于城市环境中的相机定位

图1示出了在激光雷达图中具有2D-3D线对应和估计的相机位姿的图像。

理论方法

该方法同时估计激光雷达地图中的6自由度相机姿态和2D-3D线对应关系。对应关系用于通过最小化3D线投影误差来优化相机姿态，而改进的相机姿态可以帮助reject异常对应关系。作为在线2D-3D对应估计的初步步骤，在大规模3D激光雷达地图上离线提取3D线特征。同时，在手动标记的2D-3D点对应关系上，由PnP为第一帧给出粗略姿态初始化。然后利用VINS-Mono来预测相邻关键帧之间的相机运动。利用预测的姿态，提取相机视场中的局部3D线，并与从图像序列中在线提取的2D线直接匹配。最后，相机位姿和2D-3D对应关系被迭代更新。

系统如图2所示

1 提取2D和3D线

在城市环境中，几何结构通常由线段和平面表示。作者使用基于分割的3D线检测方法从激光雷达图中提取3D线。总体思路是将点云聚类成平面区域，然后拟合得到3D线段。该方法对于大规模点云是有效和鲁棒的。虽然处理几百万个点需要时间，但是所有地图的3D线在开始追踪之前只提取一次。

对于2D线提取，作者希望提取与3D线一致且对噪声具有鲁棒性的几何2D线。这在城市场景中是具有挑战性的，因为大量的纹理噪声会产生碎片化的2D线段，并且在颜色均匀的结构(例如，白墙)上的2D图像中一些几何边缘是不可见的。许多最先进的线段检测(LSD)方法已经出现在计算机视觉中，其中传统的手工方法在CPU上在线运行效率很高。然而，检测到的线是有噪声的，图3(a)示出了一个例子。这种碎片化和噪声化的特征会产生大量的二维三维匹配异常值。考虑到线的完整性和对噪声的鲁棒性，最终采用了基于Learning的最小二乘方法，该方法使用AFM将最小二乘问题转化为区域着色问题。对于图像中的每个像素p，模型首先学习从像素到最近线段上的最近点P'的2D向量a(p)。

2 2D-3D线匹配

对于单个帧，获得2D-3D对应的主要步骤包括初始相机位姿预测、3D直线检测和单个2D-3D线对应性估计。这里，提取FoV中的3D线有助于提高效率，因为与3D地图中的所有3D线相比，FoV中的局部3D线非常有限。考虑到遮挡检查仅在3D线地图上很难进行，将所有3D线保持在FoV中，而不丢弃遮挡线。

对于时间t处的图像，来自VINS-Mono的对应姿态估计被表示为，并且使用2D-3D对应关系的更新姿态被表示为。通过使用来自最后一帧的2D-3D对应的估计姿态和来自VINS-Mono T的摄像机运动，可以计算更新的姿态:

利用姿态预测点，可以基于两个端点投影提取FoV中的局部3D线{}，以提高效率。用于检查FoV中3D点P的可见性.

利用预测的摄像机位置，2D线= (，)直接与FoV中的局部3D线匹配，其中和分别是2D线的起点和终点。对于每个可能的2D-3D对应,我们使用3D向量来测量相似性，2D角距离θ，两个3D端点投影的距离d到相应的无限2D线，以及有限2D线与3D线投影的重叠长度

3D线L=(，)在像平面上的投影是=(，).

2D线的归一化表示为v=()//||||。

那么2D角距离θ可以通过下式计算:

假设提取的2D线的参数表示为Ax+By+C=0。距离d可以通过下式计算:

通过使用点到线投影点，3D线投影之间的重叠长度与检测到的2D线为:

3 姿势优

对于单个帧，可以通过将两个3D端点投影的点到无限线的距离最小化到相应的2D线距离来优化相机姿态。估计的摄像机姿态的李代数表示为ξ。无限2D线的系数向量可以是H=[A B C]。目标函数是最小化所有2D-3D对应之间的投影误差:

然而，单帧2D-3D对应观测对于在线相机定位不够稳健。当视场中的3D线在3D空间中受限或彼此平行时，2D-3D对应关系不能约束6自由度姿态。此外，即使是对于姿态估计来说，对应关系就足够了，2D线和三维线的几何定位噪声会使估计在真实姿态附近抖动。为了解决这些问题，利用滑动窗口来添加更多的先前对应观察，以优化当前姿态(如图5所示)。假设从VINS-Mono为两个相邻关键帧估计的摄像机运动是准确的，这是合理的，因为VINS-Mono在两个相邻关键帧上的漂移很小。表示为两个相邻关键帧之间的摄像机运动(4×4矩阵，包括R和T)。前第n个关键帧的摄像机姿态可以通过当前估计和摄像机运动导出

那么滑动窗口中所有先前的2D-3D对应关系在当前帧中都是“可见的”。在等式9，先前的摄像机姿态与当前姿态相关，而是恒定的姿态变换，其李代数表示为ξ。因此，姿态优化函数为

实验结果

作者在两个不同的真实数据集上进行了测试。第一个实验是在EuRoC上进行的。然后，在不同条件下对Realsense D435i相机采集的数据集进行了实验，以验证性能。

1 EuRoC MAV 数据集结果

EuRoC MAV数据集是一个在UAV上收集的视觉惯性数据集。2D-3D对应结果和激光雷达图中的估计轨迹如图6所示。FoV中的所有3D线都投影到图像平面没有遮挡检查。从左上图中，我们可以观察到3D线(绿色)的投影通过使用VINS-Mono(红)的估计位姿而移动。然后通过迭代更新2D-3D对应关系和相机姿态，以更精确的姿态获得稳定的对应关系。位置漂移大大减少，并且可以估计稳定的2D-3D对应关系。

对于定量分析，每个序列的开始200个估计姿态用于与地面真实的轨迹对准。绝对轨迹误差(ATE)结果如表1所示，很明显，与仅里程计相比，2D3D对应提高了姿态估计精度。V2房间有更多的噪音，使得2D-3D的对应关系有时不稳定，无法进行姿态优化。这就是为什么V2的改进没有V1的显著原因。最坏的情况是没有稳定的2D-3D对应关系可用，并且最终估计遵循里程计。此外，我们的方法显示出与VINS相比有竞争力的结果。而循环闭合优化了循环中过去的位姿，并为当前位姿产生位姿跳跃。出于实时定位的目的，过去对位姿的改进没有意义，我们的方法总是在滑动窗口中估计当前的位姿，这大大减少了漂移，并且没有姿态跳跃的问题。

平均相对位姿误差(RPE)如表二和图7所示，作者的方法误差始终保持较小且稳定，这与2D和3D直线定位的精度有关。

2 作者采集的数据集的评估

为了进一步评估，作者在自己收集的室内走廊和室外建筑数据上进行了测试。英特尔RealSense D435i摄像头用于收集同步图像和惯性测量单元数据。左全局快门成像仪捕获单目图像序列(30Hz下640 × 480像素图像，红外投影仪关闭)，并同步IMU数据(200Hz)。

如图8所示，激光雷达图是通过记录FARO扫描仪的几次扫描获得的。室内走廊(图8a)和史密斯厅(图8c)都有很多遮挡，而NSH大楼(图8b)则简单得多，遮挡较少。对于这些实验，轨迹以相同的模式运行一整圈，并返回起点。

室内走廊的结果如图1所示。两个室外建筑的结果如图9所示。考虑到没有地面真实轨迹，估算精度验证以以下两种方式显示。对于定性分析，使用估计的姿态将3D线要素投影为与2D线重叠VINS-Mono(红色)和作者的方法。对于VINS-Mono，可以观察到3D线投影(绿线)被左上角图像中不准确的相机姿态移动和缩放。当使用作者的方法时，姿态估计在左下图像中提供了更精确和稳定的2D3D结构对应。此外，还可以观察到两个轨迹之间明显的错位。

为了评估准确性，作者沿着轨迹选取5帧，并使用PnP在手动标记的10对2D-3D点对应关系上估计地面真实相机姿态。沿着轨迹在不同时间对5个帧进行采样。位置误差如表三所示。对于VINS-Mono(红色)，累积的漂移沿着轨迹增加了很多。而作者的方法在稳定的2D-3D直线对应的帮助下大大提高了定位精度。定位误差沿着整个轨迹保持较小。另一个有趣的观察是，如果保持系统的方向，并向后移动到起始位置，累积的误差会向后漂移，这在NSH大楼上的VINS-Mono的结果中有所体现。

就效率而言，VINS-Mono不使用地图信息，可以自定义输出频率设置。然而，随着设置频率的不同，里程计的结果会有很大的变化。选择15 Hz是最稳定的。然后，对于2D-3D对应关系和相机姿态的估计，每个关键帧平均花费大约0.01秒。由于3D线提取在系统启动之前是离线的，所以2D线检测可以在640×480图像上以25Hz运行，而作者的方法可以在所有场景下以大约13-15Hz运行。

结论

在本文中，作者提出了一种新的单目相机定位方法。在现有的激光雷达地图的结构环境，利用激光雷达地图中的3D几何线和鲁棒的在线2D线检测，其方法基于VINS-Mono相机运动预测有效地获得粗略的2D-3D线对应。2D-3D对应的位姿优化大大减小了VIO系统的位姿估计漂移，而无需使用视觉闭环。

在真实数据集上的定性和定量结果表明，可以有效地获得激光雷达地图中可靠的2D-3D对应关系和精确的相机姿态。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

基于2D-3D直线对应关系的单目摄像机定位相关推荐

【论文精读】基于网络立体数据监督的单目相对深度感知
基于网络立体数据监督的单目相对深度感知 Paper Information Abstract 1 Introduction 2 Related Work 3 Proposed method 3.1 O ...
3D视觉(二)：单目摄像头的标定与校正
3D视觉(二):单目摄像头的标定与校正文章目录 3D视觉(二):单目摄像头的标定与校正一.相机模型 1.机器车坐标系到相机坐标系 2.相机坐标系到归一化平面坐标系 3.归一化平面坐标畸变 4.归一 ...
基于FPGA的单目内窥镜定位系统设计（上）
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第一篇,上篇,话不多说,上货. 导读随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
基于FPGA的单目内窥镜定位系统设计（中）
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第二篇,中篇,话不多说,上货. 导读随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
基于交汇的多机器人协作单目SLAM
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达来源丨泡泡机器人SLAM 标题:Multirobot Collaborative Monocular ...
基于FPGA的单目内窥镜定位系统设计（下）
今天给大侠带来基于FPGA的单目内窥镜定位系统设计,由于篇幅较长,分三篇.今天带来第三篇,下篇,话不多说,上货. 导读随着现科技的发展和社会的进步,信息科技迅速发展,我们可从互联网.电台等媒体获取大 ...
畸变的单目摄像机标定
畸变的单目摄像机标定 Deep Single Image Camera Calibration with Radial Distortion 摘要单图像标定是从一幅图像中预测摄像机参数的问题.在处理 ...
摄像机标定技术及其应用——单目摄像机
摄像机标定技术及其应用--单目摄像机一.为什么要进行摄像机标定随着机器视觉的迅猛发展,我们已经不满足于使用摄像机进行监控.抓拍这种较为简单的功能.更多的用户青睐于它在非接触三维尺寸测量上的应用.我 ...
机器视觉学习笔记（4）——单目摄像机标定参数说明
机器视觉学习笔记(4)--单目摄像机标定参数说明标签: 机器视觉 1.针孔摄像机模型在介绍摄像机标定参数之前,需要先简单说一下针孔摄像机的原理.投影平面到小孔的距离为焦距f,物体到小孔的距离为Z, ...

基于2D-3D直线对应关系的单目摄像机定位

基于2D-3D直线对应关系的单目摄像机定位相关推荐

最新文章

热门文章