0. 引言

多机器人协作在搜索救援、工业自动化、智慧农业等领域发展迅猛,而协同SLAM(C-SLAM)是实现多机器人协作的核心技术。现有的EuRoc、KITTI等数据集虽然在单机SLAM领域发挥了重要作用,但却很难去评价多机协同的轨迹和建图精度。近日,中山大学团队开发了一种用于协作SLAM的大规模多模态数据集,由3个无人车沿四种轨迹采集,包含7个室外场景和5个室内场景。这是第一个使用各种室内和室外环境的激光雷达、视觉和惯性数据的C-SLAM数据集,研究机器人协作的小伙伴一定不要错过!

1. 论文信息

标题:S3E: A Large-scale Multimodal Dataset for Collaborative SLAM

作者:Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Yudu Jiao, Qiming Chen, Tao Jiang, Hongbo Chen

原文链接:https://arxiv.org/abs/2210.13723

数据集链接:https://github.com/PengYu-Team/S3E

官方demo:https://www.bilibili.com/video/BV1Ze41137kx/?vd_source=78d041dc03a4aac231b5cac62feffc70

2. 摘要

随着使用一组机器人协作完成任务的要求越来越高,研究界对协作同步定位和地图绘制越来越感兴趣。不幸的是,现有的数据集在它们捕获的协作轨迹的规模和变化方面是有限的,尽管不同主体之间的交互轨迹的一般化对于协作任务的整体可行性是至关重要的。为了帮助将研究社区的贡献与现实世界的多主体协调SLAM问题结合起来,我们引入了S3E,这是一个由无人驾驶地面车辆车队沿着四个设计的协作轨迹范例捕获的新的大规模多模态数据集。S3E由7个室外和5个室内场景组成,每个场景都超过200秒,由同步和校准良好的高质量双目相机、激光雷达和高频IMU数据组成。至关重要的是,我们的努力在数据集大小、场景可变性和复杂性方面超过了以前的尝试。它的平均记录时间是开创性的EuRoC数据集的4倍。我们还提供仔细的数据集分析以及协作SLAM和单个对应方的基线。

3. 数据集介绍

3.1 数据采集车

如图1所示是用于采集S3E数据集的无人车,每个无人车上都有2个高分辨率彩色相机、1个16线激光雷达、1个9轴IMU以及1个双天线RTK。表1所示是无人车所使用传感器的具体参数。

图1 采集平台,三个遥控车辆分别名为Alpha, Bob以及Carol。

表1 传感器设备参数

无人车所使用的平台是Agilex Scout Mini,它是一款四轮驱动、最高车速10km/h的全地形高速遥控移动平台。在具体的数据采集过程中,作者使用Velodyne VLP-16 Puck来记录360°点云数据。使用两台HikRobot MV-CS050-10GC GigE相机采集双目视觉数据,其中双目相机的基线为360mm,图像通过全局快门扫描捕获,并从原始图像降采样到1224x1024。此外,还使用9轴Xsens MTi-30-2A8G4 IMU记录三个加速度计和三个陀螺仪。为了进行验证和测试,作者还使用Femtomes Nano-D RTK配备双天线在GNSS可用区域捕获轨迹真值,真值采集频率为1 Hz。无人车平台上所有传感器的安装位置如图2所示,采集到的S3E数据集样例如图3所示。

图2 传感器布局和坐标系

图3 S3E数据集的数据示例,每行都显示了不同平台同时捕捉到的双目图像和点云。

3.2 传感器同步

在多传感器融合中,时间同步和传感器校准至关重要。因此,作者在此方面也做了很多的工作。

(1) 时间同步:如图4所示,S3E的同步系统使用Altera EP4CE10板作为触发器,Intel NUC11TNKv7作为主机。对于不同机器人间的同步,作者把这个问题分成两种情况来讨论。首先,应用GNSS时间作为室外场景中的全局时间源来校准机器人的计时器。之后,在无GNSS系统中(室内场景),所有机器人运行时间校准程序,通过无线网络从PTP服务器获取外部全局时间数据。

对于内部同步,触发单元周期性地产生脉冲来触发激光雷达、双目摄像机和IMU。值得注意的是,FPGA产生1 Hz脉冲来触发激光雷达,然后激光雷达返回10 Hz数据,并在接收到触发信号后刷新内部计数器寄存器。摄像机和IMU在收到触发脉冲后立即返回数据。

(2) 传感器校准:在图2所示的传感器布局中,所有的坐标系都遵循右手定则。作者使用标准棋盘校准来运行相机的内部校准。对于激光雷达和IMU,由厂家进行内部传感器校准。之后进行双目相机联合标定和激光雷达-相机联合标定。此外,在利用Allan标准差对IMU噪声建模后,作者还进行了相机和IMU的联合标定。

图4 基于FPGA的同步系统架构

3.3 轨迹范例

如图5所示,在S3E数据集中,作者设计了遵循四种不同的机器人内/机器人间规范的闭环轨迹。

第一种轨迹是C-SLAM应用中的典型情况,即机器人编队同时绕目标运行,主要用于对目标进行稠密三维重建。第二个轨迹模拟区域搜索和救援任务,每个机器人在不同的区域搜索,并在交互过程中与其他机器人共享信息。这种情况要求C-SLAM算法在小的公共区域内具有可靠的机器人内部闭环能力和高效的机器人之间闭环能力。第三条轨迹集中于仅具有机器人间环路闭合的场景,所有的机器人都从不同的地方开始,并在路径中的一些会合点前进,最后在同一个地方相遇。第四条轨迹中,机器人从不同的地方开始,终点是同一个地点。这种情况在C-SLAM中非常困难,因为所有的机器人只在终点相遇,几乎没有为回环提供任何信息。

图6显示了室外环境中S3E数据集的轨迹,它包含校园内五个有代表性的功能区域,即广场、图书馆、学院、操场和宿舍。

图5 四种轨迹范例

图6 S3E数据集的室外轨迹,Alpha、Bob和Carol在室外环境中的轨迹用橙色、紫色和青色标注。

S3E数据集的室外和室内分布情况如表2所示,与其他主流SLAM数据集的对比如表3所示。S3E数据集的平均时间为459.1s,这对解决C-SLAM的长期评估问题具有较大帮助。值得注意的是,对于每个设计的轨迹,该数据集至少包含一个序列。此外,Dormitory为第三类和第四类的混合轨迹,Laboratory_1为第二类和第四类的混合轨迹。

表2 S3E数据集分析

表3 与一些流行的SLAM数据集的对比

4. 实验

4.1 基线

如表4所示,作者在S3E数据集上提供了四个单机器人SLAM和三个C-SLAM基线,评价指标为ATE,均是目前的主流SLAM算法。其中前者包括ORB-SLAM3、VINS-Fusion、LIO-SAM以及LVI-SAM。后者包括COVINS、DiSCo-SLAM以及DCL-SLAM。

作者采用了三种方法来生成轨迹真值:在GNSS可用区域,由双天线RTK设备记录的厘米级定位真值。对于无GNSS的场景,用RTK设备记录建筑物外轨道的起点和终点。并利用运动捕捉设备来记录室内情况下的起点和终点。

表4 室外环境下单SLAM和C-SLAM的基准ATE。α、β和γ分别代表ALPHA、BOB和CAROL

4.2 结果对比

对于单机器人SLAM,基于激光雷达的方法通常优于基于视觉的方法。在S3E中,大多数基于视觉的方法在转弯时无法跟踪帧,因此,基于LiDAR的C-SLAM超过了基于视觉的C-SLAM。同时,C-SLAM在成功检测到回环时,可以状态估计的鲁棒性和准确性。例如DCL-SLAM相比其前端LIO-SAM,平均ATE降低了0.42。在Playground_1序列中,部署单LIO-SAM时,同心圆Alpha和Bob均无法跟踪帧,单通过DCL-SLAM可以成功跟踪,并且精度实现了大幅提升。在Square_1中,COVINS以7.09的ATE超过了单SLAM,Carol在ORB-SLAM3失败时通过协作实现了1.75 ATE。

如图7所示,红色圆圈表示C-SLAM成功检测到回环。在左侧,DiSCo-SLAM和DCL-SLAM在简单的情况下取得成功,因为不同观测之间的大量重叠保证了后端优化的冗余特性。与DCL-SLAM相比,COVINS在两个机器人同向移动的端点处成功检测到不同机器人之间的回环,但在两个机器人相对移动的中点处未能匹配到Bob和Carol之间的特征。这也是DCL-SLAM优于COVINS的原因之一。结果表明,先进的C-SLAM系统可以在具有相当大重叠度的轨迹间表现良好。

图7 C-SLAM的定性结果

5. 结论

近期,中山大学开发了一种由三个无人车记录的大规模C-SLAM数据集,它包含激光雷达-视觉-IMU数据。S3E数据集包含7个室外场景和5个室内场景,并进行了时间同步和传感器校准。此外,S3E数据集中包含了多个回环检测,并评估了当前最先进的C-SLAM及其单机器人前端比较器的性能。多机协同是机器人领域的一个重要发展趋势,而目前多机数据集还较少,S3E很大程度上填补了这方面的空白。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

17.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿,加微信:dddvision

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近6000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

S3E:用于协作SLAM的大规模多模态数据集相关推荐

  1. OpenViDial:一个大规模多模态对话数据集

    人类对话不仅仅只依靠聊天内容,更需要利用视觉信息.本文构建了一个大规模多模态对话数据集,从电影和电视剧中抽取出(句子,图片)对,经过数据处理与清洗,最终得到一百万余条句子,及其对应的图片信息.此外,本 ...

  2. 《预训练周刊》第22期:Fastformer:加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...

    No.22 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...

  3. 最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集

    来源|自动驾驶之心 编辑|深蓝学院 自动驾驶之心很荣幸邀请到王汝嘉分享刚刚开源的Argoverse 2数据集,该数据集是有史以来最大的激光雷达传感器数据集合. 论文:https://arxiv.org ...

  4. 1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室...

    行早 发自 凹非寺 量子位 | 公众号 QbitAI 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空. 这个新发布的数据集不仅规模大--包含1亿组图文对,而且质量也很高. 所有图像都是筛选过 ...

  5. WenLan-10亿参数!别只玩GPT,来看看人大中科院联手打造第一个大规模多模态中文预训练模型BriVL...

    关注公众号,发现CV技术之美 ▊ 写在前面 近年来,多模态预训练模型在视觉和语言之间架起了桥梁.然而,大多数研究都是通过假设文本和图像对之间存在很强的语义关联来对图像-文本对之间的跨模态交互进行显式建 ...

  6. 使用对比学习处理大规模多模态单细胞数据

    目录 摘要 引言 Results Overview of Concerto 对比学习的embedding通过微调显著提高了自动细胞分类的性能,并支持跨组织的新细胞类型发现. 其他结果 摘要 单细胞数据 ...

  7. 首个可用于深度学习的ToF相关数据集!基于置信度的立体相机以及ToF相机深度图融合框架...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者 | cocoon 编辑 | 3D视觉开发者社区 目录 ✦ contents 1. 概述 2. 方 ...

  8. 笔记:文澜:桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

    笔记:WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training 笔记:文澜:桥接视觉和语言的大规模的多模 ...

  9. 10万视频,所有面部图像均获授权,Facebook创建大规模Deepfake数据集

    本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文约6000字,建议阅读10+分钟 DFDC数据集是目前最大的公开可用换脸视频数据集. [ 摘要 ]前不久, ...

  10. 10万视频,所有图像均获授权,Facebook创建大规模Deepfake数据集

    2020-06-22 13:00:11 前不久,Facebook 主办的 Deepfake 检测挑战赛(DFDC)落下帷幕.近日,Facebook撰文介绍了其构建的大规模 Deepfake 数据集 D ...

最新文章

  1. golang beego 数据输出 返回值
  2. hdu2065(指数型母函数+快速幂)
  3. 实现Chrome Devtools调试JavaScript V8引擎
  4. php安装redis扩展‘checking for igbinary includes... configure: error: Cannot find igbinary.h‘解决方法
  5. for循环十万条数据内存溢出_强如 Disruptor 也发生内存溢出?
  6. sql docker容器_了解SQL Server Docker容器中的备份和还原操作
  7. 多重共线性的解决方法之——岭回归与LASSO
  8. 报线上python课程靠谱吗-Python培训线上和线下有什么区别?
  9. web安全day23:vim软件的最基本最常用操作
  10. 精通有状态和无状态(Stateful vs Stateless)
  11. 什么是性能调优?性能调优的方法有哪些,流程是怎样的
  12. ANSI SQL之殇
  13. 使用R进行VENN_维恩图或韦恩图_的绘制_2020-11-08
  14. MySql数据库版本查询
  15. 【历史上的今天】7 月 25 日:IBM 获得了第一项专利;Verizon 收购雅虎;亚马逊发布 Fire Phone
  16. 【玩转嵌入式屏幕显示】(三)TFT-LCD屏幕打点 + 画线 + 画矩形 + 画圆Bresenham算法实现(基于打点函数,算法可移植到任何屏幕的驱动程序之上)
  17. 应用层HTTP数据包的截获与还原技术的实现
  18. 嵌入式 ssl协议详解
  19. tcpdump arping nsenter
  20. 2019全球人工智能产品应用博览会将于今年5月在苏州举办!

热门文章

  1. 1.maya基本操作
  2. 双球坐标系_【天文】教你认识三大天球坐标系!(上)
  3. SIGAR - System Information Gatherer And Reporter
  4. hwd分别是长宽高_W H D在尺寸上代表什么??
  5. 磁盘被写保护怎样去掉
  6. 签署您的应用——多渠道签名打包教程
  7. openSUSE Tumbleweed 连接 Canon LBP2900 打印机
  8. 梦殇 chapter six
  9. Linux如何删除用户
  10. 通信LOGO隐秘史(设备商篇)