重磅！谷歌发布3D目标检测数据集及检测方案

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

谷歌人工智能实验室近日发布 Objectron 数据集，这是一个以3D目标为中心的视频剪辑的集合，这些视频剪辑从不同角度捕获了较大的一组公共对象。数据集包括 15K 带注释的视频剪辑，并补充了从地理多样的样本中收集的超过 4M 带注释的图像（覆盖五大洲的 10 个国家）。

机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果，但仅仅是通过在2D照片上训练模型而已。

在这些成功的基础上，提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景，如增强现实、机器人、自动化和图像检索。

今年早些时候，谷歌发布了 MediaPipe Objectron，一套为移动设备设计的实时 3D 目标检测模型，这个模型是基于一个已标注的、真实世界的 3D 数据集，可以预测物体的 3D 边界。

然而，理解3D 中的对象仍然是一项具有挑战性的任务，因为与2D 任务(例如，ImageNet、 COCO 和 Open Images)相比，缺乏大型的真实世界数据集。

为了使研究团体能够继续推进3D 对象理解，迫切需要发布以对象为中心的视频数据集，这些数据集能够捕获更多的对象的3D 结构，同时匹配用于许多视觉任务(例如，视频或摄像机流)的数据格式，以帮助机器学习模型的训练和基准测试。

近期谷歌发布了 Objectron 数据集，这是一个以对象为中心的短视频剪辑数据集，从不同的角度捕捉了一组更大的普通对象。

每个视频剪辑都伴随着 AR 会话元数据，其中包括摄像机姿态和稀疏点云。数据还包含为每个对象手动注释的3D 边界，这些 bounding box 描述了对象的位置、方向和尺寸。

每个视频剪辑都随附有 AR 的元数据，其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释的 3D 边界框，用于描述对象的位置，方向和尺寸。

该数据集包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲)。

3D 目标检测解决方案

除了这个数据集，谷歌还分享了一个 3D 目标检测解决方案，可以用于4类物体：鞋子、椅子、杯子和相机。

这些模型是在 MediaPipe 中发布的，MediaPipe 是谷歌的开源框架，用于跨平台可定制的流媒体机器学习解决方案，它同时也支持机器学习解决方案，比如设备上的实时手势、虹膜和身体姿态跟踪。

与之前发布的 single-stage Objectron 模型相比，这些最新版本采用了两级架构。

第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪，第二级使用图像裁剪来估计三维bounding box，同时计算下一帧对象的二维裁剪，使得目标检测器不需要运行每一帧。第二阶段的三维 bounding box 预测器是以83 FPS在 Adreno 650 GPU 上运行。

3D 目标检测的评估指标

有了真实的注释，我们就可以使用 3D IoU（interp over union）相似性统计来评估 3D 目标检测模型的性能，这是计算机视觉任务常用的指标，衡量bounding box与ground truth的接近程度。

谷歌提出了一种计算一般的面向三维空间的精确 3D IoU 的算法。

首先使用 Sutherland-Hodgman Polygon clipping 算法计算两个盒子面之间的交点，这类似于计算机图形学的剔除技术（frustum culling），利用所有截断多边形的凸包计算相交的体积。最后，通过交集的体积和两个盒子的并集的体积计算 IoU。

谷歌表示将随数据集一起发布评估的源代码。

数据格式

Objectron 数据集的技术细节，包括使用和教程，均可在数据集网站上获得。这些数据集中的物体包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子等，和数据集一起发布的具有以下内容:

1.视频序列

2.带注释的标签(目标的3D 边界框)

3.AR 元数据 (如照相机姿态、点云和平面表面)

4.处理过的数据集: 混合版本的带注释的帧、tf.example 格式的图像和 SequenceExample 格式的视频

5.支持基于上面描述的度量评估的脚本

6.支持脚本将数据加载到 Tensorflow、Pytorch、Jax并且可视化数据集

除了数据集，谷歌还开放了数据管道来解析 Tensorflow、 PyTorch 和 Jax 框架中的数据集。还提供了 colab notebook 的实例。

通过发布这个 Objectron 数据集，谷歌希望能够使研究团体推进三维物体几何理解的极限。同时也希望促进新的研究和应用，如视图合成，改进的 3D 表示和非监督式学习等。

参考链接：

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+blogspot%2FgJZg+%28Google+AI+Blog%29

end

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博的公众号，欢迎关注，干货多多

王博的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章（上）

博士笔记 | 周志华《机器学习》手推笔记第八章（下）

博士笔记 | 周志华《机器学习》手推笔记第九章

点个在看支持一下吧

重磅！谷歌发布3D目标检测数据集及检测方案相关推荐

谷歌发布人类动作识别数据集AVA，精确标注多人动作
选自Google Research 机器之心编译参与:路雪视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性.现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精 ...
面向量产的3D目标与车道线检测方法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Part 1 背景介绍 1. 1 团队介绍商汤科技自动驾驶团队依托公司为背景,以 SenseParr ...
中科院发布了目标追踪数据集，1万多条视频，150万个边界框 | 快来下载
动栗发自凹非寺量子位出品 | 公众号 QbitAI 中科院发布了一个目标追踪数据集,叫做Got-10k.很大,很精致. 它包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成5 ...
CVPR2020 | 谷歌提出多目标(车辆)跟踪与检测框架 RetinaTrack
本文原载知乎,经作者授权转载,请勿二次转载. https://zhuanlan.zhihu.com/p/127115290 RetinaTrack 论文题目:RetinaTrack: Online S ...
谷歌发布语义分割新数据集！
转自:新智元编辑:LRS 对于人来说,看一张平面照片能够想象到重建后的3D场景布局,能够根据2D图像中包含的有限信号来识别对象,确定实例大小并重建3D场景布局. 这个问题有一个术语叫做光学可逆问题i ...
80+开源数据集资源汇总（包含目标检测、医学影像、关键点检测、工业检测等方向）
数据集下载汇总链接:https://www.cvmart.net/dataSets 数据集将会不断更新,欢迎大家持续关注! 小目标检测 AI-TOD航空图像数据集数据集下载地址:http://m6z ...
双目立体视觉建立深度图_从单幅图像到双目立体视觉的3D目标检测算法
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...
无人驾驶领域的3D目标检测综述
论文阅读笔记<3D Object Detection for Autonomous Driving: A Review and New Outlooks> github链接:https:/ ...
谷歌发布自然问答数据集 Natural Questions
Google 发布用于训练和评估开放领域(Open-domain)问答系统的大型语料库 Natural Questions(NQ).该数据集包含了 30 万个自然产生的问题和对应的回答注释,每个回答都 ...

重磅！谷歌发布3D目标检测数据集及检测方案

重磅！谷歌发布3D目标检测数据集及检测方案相关推荐

最新文章

热门文章