来源丨机器之心

编辑丨极市平台

近年来,深度学习技术使得计算机视觉和机器人领域的许多进展成为可能,但训练深度模型需要各种各样的输入,以泛化到新的场景。

此前,计算机视觉领域已经利用网页抓取技术收集了数百万个主题的数据集,包括 ImageNet、Open Image、Youtube-8M、COCO 等。然而,给这些数据集贴标签仍是一个劳动密集型工作,标签错误可能会影响到对技术进步的感知,而且这种策略也很难推广至 3D 或真实世界的机器人数据上。与图像不同的是,目前网络上并没有大规模、高质量的 3D 场景,而从真实世界收集这类数据又极具挑战性。此外,人工标注员也很难从图像中提取 3D 几何特性。

一般来说,使用 Gazebo、Bullet、MuJoCo、Unity 等工具对机器人和环境进行仿真可以减轻上述限制。但是,仿真毕竟不完全是真实世界,即使一个场景是直接通过对真实环境的 3D 扫描建立起来的,扫描中的离散对象也会像固定的背景物一样,不会像真实世界的对象那样对输入做出回应。

因此,关键问题在于提供一个高质量的 3D 对象模型库,这些模型可以整合到物理和视觉建模中,为深度学习提供所需的多样性。

为了解决这个问题,谷歌的研究者提出了 Google Scanned Objects (GSO) 数据集,这是一个由超过 1000 个 3D 扫描家用物品组成的精选集,可用于 Ignition Gazebo、Bullet 模拟器和其他可以读取 SDF 模型格式的工具。

在一篇论文中,研究者介绍了该数据集的收集、管理、扩展等内容。

论文链接:https://arxiv.org/pdf/2204.11918.pdf

据不完全统计,GSO 数据集已经在计算机视觉、计算机图形学、机器人操作、机器人导航和 3D 形状处理等 10 个项目的 12 篇论文中得到应用:

该研究贡献主要有几点:

  • 提出 Google Scanned Objects 数据集;

  • 3D 扫描 pipeline 设计;

  • 3D 扫描管理和发布过程;

  • 该数据集在研究领域中的影响。

数据集的创建

GSO 数据集起源于 2011 年谷歌的云机器人计划,目的是让机器人基于普通家用物品的高保真 3D 模型,能够在自己的环境中识别和抓取物体。

然而,除了物体识别和机器人抓取之外,3D 模型还有很多用途,包括用于物理模拟的场景构建和用于终端用户应用的 3D 物体可视化。因此,谷歌研究院发起了一个项目,将 3D 体验大规模引入谷歌,以低于传统商业级产品摄影的成本收集大量家用物品的 3D 扫描图像。

这是一项端到端的工程,包括物体获取、新颖的 3D 扫描硬件、高效的 3D 扫描软件、快速 3D 渲染的质量保障、网络与移动浏览器,以及人机交互研究。

在收集数据之后,研究者构建了一个 pipeline,让这些数据能以各种格式使用。

3D 扫描 pipeline

即使限于家用物品的领域,3D 扫描也会带来独特的挑战,包括高效的物理扫描设置、目标照明、相机可靠性、扫描仪性能、配色、纹理渲染,以及处理光学上不一致的材料,比如近白色、有光泽或透明的表面。

专用的 3D 扫描硬件是劳动密集型的,性价比不高。为了进行大规模扫描,还需要一些更具可用性和可靠性的工具。

因此,研究者设计了自己的专用扫描硬件和软件(图 2),能够在 10 分钟内扫描物体并生成高分辨率模型。控制光线的物理外壳(图 2b)使用两台机器视觉相机和一台投影仪进行结构光扫描,捕捉 3D 几何图形,并使用单独的单反高分辨率相机以产品友好的光线捕捉纹理。

项目第一年结束的时候能够做到每周超过 400 次扫描,过程中,研究团队共获得了 100K 份 360 度照片旋转和 10k 份完全 3D 扫描的独特对象。

图 2。

图 3:作为校准过程的扫描。(a) 校正模式使 2D pipeline 能够精确对齐相机。(b) 计算机控制的投影仪为 3D 扫描物体创造了类似的图案。(c) 合适的模式能够以亚像素精度探测位置。(d) 提取扫描物体的完整 3D 形状。

图 4:扫描的物品需要通过质量检查。(a) 许多物品被捕获为高质量的封闭流形 mesh。(b) 有的物体很少产生无效的 mesh,但有时会出现变形。

仿真模型转换

这些原始的扫描模型使用协议缓冲元数据、非常高分辨率的可视化、不适合模拟的格式。对象的一些物理属性,比如质量,会被捕获,但诸如摩擦之类的表面属性在元数据中则没有表示。

为了让这些扫描的模型能够在仿真系统中使用,每个模型都通过一个 pipeline 进行下列步骤:

  1. 过滤无效对象。

  2. 分配对象名称。

  3. 验证对象 mesh。

  4. 计算物理属性。

  5. 构造碰撞体积。

  6. 减小模型尺寸。

  7. 创建 SDF 模型。

  8. 创建缩略图。

  9. 打包模型。

数据集属性

组成

GSO 数据集包含 1030 个扫描对象和相关的元数据,总计 13GB,根据 CCBY 4.0 License 授权。表 III.1 分解了数据集中的模型类别。

表 III.1

优势

自动化 pipeline 可以快速生成大量模型,而无需手工处理。因为这些模型是扫描的,而不是手工建模的,所以它们是真实的,而不是理想中的,这减少了将学习从模拟转移到真实世界的困难。

扫描仪的玻璃平台可以从各个方面扫描模型,包括底座,不像其他扫描仪有不透明的平台。类似地,从环境中提取的模型通常缺少像底座这样起到衔接作用的遮挡区域。

因为该扫描仪根据投影图案而不是深度照相机数据重建表面形状,所以得到的 mesh 具有高保真度。光滑的表面是平滑的,轮廓边缘是准确的 (图 5)。相比之下,RGB-D 数据得到的 mesh,可能出现斑驳和不规则,特别是在轮廓上。

图5

限制

同时,这个数据集也有一些限制:扫描仪的捕捉区域不能容纳比面包箱 (约 50 厘米) 大的对象,因此该数据集不包括在其他数据集中较大的对象,如椅子、汽车或飞机。同样,扫描分辨率是有限的,所以非常小的对象不能以合理的保真度建模。此外,生成的纹理是漫反射的:高度镜面或透明的对象不能表征出来,生成结果也不够理想。

更多细节可参考原论文。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

谷歌公布13GB 3D扫描数据集:17大类、1030个家用物品相关推荐

  1. 谷歌开源GSO:3D扫描数据集:17大类、1030个家用物品、13GB

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Laura Downs等 转载自:机器之心编译  |  编辑:蛋酱.泽南 谷歌的研究者提出了 Goog ...

  2. 谷歌AI发布“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云,网友:快给我的AR模型用上...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  3. 疲劳驾驶样本集_谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  4. 谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活 这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲.十个国家里收集来的400多万张带注释的图像. 作 ...

  5. 华为否认鸿蒙为噱头;谷歌公布 6 大 iOS 漏洞;GitLab 又发安全补丁 | 极客头条...

    快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

  6. kitti数据集_超全的3D视觉数据集汇总

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  7. kaggle数据集汇总_超全的3D视觉数据集汇总

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  8. 7 Papers Radios | 机器人「造孩子」;谷歌裸眼3D全息视频聊天技术公开

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨机器之心 作者丨杜伟.楚航.罗若天 本周重要论文包括能「造孩子」的机器人以及谷歌公开的裸眼3D全 ...

  9. 立体相机标定数据集_超全的3D视觉数据集汇总

    作者:Tom Hardy Date:2019-12-31 文章来源:超全的3D视觉数据集汇总 1.KITTI数据集 KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最 ...

最新文章

  1. linux下apk包名查看,使用adb命令查看apk版本
  2. WPF 资源路径设置
  3. 第三天 LINUX安全
  4. LaTeX 参考文献的排版与引用
  5. [转帖]Beyond Compare如何进行二进制比较
  6. Vim快速选中、删除、复制引号或括号中的内容
  7. 计算机应用与篮球有关的文章,浅析计算机技术应用对高校篮球教学的作用与影响...
  8. 后缀名是ofd是什么文件?可以转成PDF吗
  9. 热切换Log4j日志级别
  10. JavaScript基础知识总结(1)
  11. Chainlink的77种用法
  12. cim系统 是什么_CIM和IBM i:它是什么以及它如何工作
  13. 三菱FX5U程序,双FX5U80MT主从站控制,普洛菲斯触摸屏程序,搭配三菱伺服,松下变频器控制运动控制数轴运动控制
  14. Swift基础(六)解包
  15. 第1-6课:算法设计常用思想之穷举法
  16. 网易云信IM即时通讯聊天源码SDK 并发高轻松万人并发稳定不丢消息 后端PHP 前端 安卓Java
  17. 西安工业大学计算机学院研究生招生简章,西安工业大学计算机技术在职研究生招生简章...
  18. Room数据库添加字段遇到的问题记录
  19. Java IO流学习总结(一)—— IO流分类和常用IO流汇总
  20. 数字金融VS传统金融,区块链如何革新信任机制?

热门文章

  1. DOS-dir查看目录下的文件列表
  2. 指纹识别综述(8): 唯一性
  3. JS 手机浏览器唤醒手机QQ
  4. 在INTEL KABYALAKE平台上运行COREBOOT 记录
  5. 计算机操作系统选择题
  6. 计算机视觉——棋盘格标定法获取相机内参外参
  7. Next.js v4.1.4 文档中文翻译
  8. 现代化医院PACS/RIS系统概述
  9. cozmo vector的起源最详细的说明
  10. 【数字信号处理】MATLAB OLA(Overlap-Add)实现变调不变速/变速不变调