点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

本文转载自:新智元  |  编辑:QJP

【导读】谷歌人工智能实验室近日发布 Objectron 数据集,这是一个以3D目标为中心的视频剪辑的集合,这些视频剪辑从不同角度捕获了较大的一组公共对象。数据集包括 15K 带注释的视频剪辑,并补充了从地理多样的样本中收集的超过 4M 带注释的图像(覆盖五大洲的 10 个国家)。
Objectron 数据集链接(文末附下载):
https://github.com/google-research-datasets/Objectron/

机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果,但仅仅是通过在2D照片上训练模型而已。

在这些成功的基础上,提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景,如增强现实、机器人、自动化和图像检索。

今年早些时候,谷歌发布了 MediaPipe Objectron,一套为移动设备设计的实时 3D 目标检测模型,这个模型是基于一个已标注的、真实世界的 3D 数据集,可以预测物体的 3D 边界。

然而,理解3D 中的对象仍然是一项具有挑战性的任务,因为与2D 任务(例如,ImageNet、 COCO 和 Open Images)相比,缺乏大型的真实世界数据集。

为了使研究团体能够继续推进3D 对象理解,迫切需要发布以对象为中心的视频数据集,这些数据集能够捕获更多的对象的3D 结构,同时匹配用于许多视觉任务(例如,视频或摄像机流)的数据格式,以帮助机器学习模型的训练和基准测试。

近期谷歌发布了 Objectron 数据集,这是一个以对象为中心的短视频剪辑数据集,从不同的角度捕捉了一组更大的普通对象。

每个视频剪辑都伴随着 AR 会话元数据,其中包括摄像机姿态和稀疏点云。数据还包含为每个对象手动注释的3D 边界,这些 bounding box 描述了对象的位置、方向和尺寸。

每个视频剪辑都随附有 AR 的元数据,其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释的 3D 边界框,用于描述对象的位置,方向和尺寸。

该数据集包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲)。

3D 目标检测解决方案

除了这个数据集,谷歌还分享了一个 3D 目标检测解决方案,可以用于4类物体:鞋子、椅子、杯子和相机。

这些模型是在 MediaPipe 中发布的,MediaPipe 是谷歌的开源框架,用于跨平台可定制的流媒体机器学习解决方案,它同时也支持机器学习解决方案,比如设备上的实时手势、虹膜和身体姿态跟踪。

与之前发布的 single-stage Objectron 模型相比,这些最新版本采用了两级架构。

第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪,第二级使用图像裁剪来估计三维bounding box,同时计算下一帧对象的二维裁剪,使得目标检测器不需要运行每一帧。第二阶段的三维 bounding box 预测器是以83 FPS在 Adreno 650  GPU 上运行。

3D 目标检测的评估指标

有了真实的注释,我们就可以使用 3D IoU(interp over union)相似性统计来评估 3D 目标检测模型的性能,这是计算机视觉任务常用的指标,衡量bounding box与ground truth的接近程度。

谷歌提出了一种计算一般的面向三维空间的精确 3D IoU 的算法。

首先使用 Sutherland-Hodgman Polygon clipping 算法计算两个盒子面之间的交点,这类似于计算机图形学的剔除技术(frustum culling),利用所有截断多边形的凸包计算相交的体积。最后,通过交集的体积和两个盒子的并集的体积计算 IoU。

谷歌表示将随数据集一起发布评估的源代码。

数据格式

Objectron 数据集的技术细节,包括使用和教程,均可在数据集网站上获得。这些数据集中的物体包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子等,数据集一起发布的具有以下内容:

1.视频序列

2.带注释的标签(目标的3D 边界框)

3.AR 元数据 (如照相机姿态、点云和平面表面)

4.处理过的数据集: 混合版本的带注释的帧、tf.example 格式的图像和 SequenceExample 格式的视频

5.支持基于上面描述的度量评估的脚本

6.支持脚本将数据加载到 Tensorflow、Pytorch、Jax并且可视化数据集

除了数据集,谷歌还开放了数据管道来解析 Tensorflow、 PyTorch 和 Jax 框架中的数据集。还提供了 colab notebook 的实例 。

通过发布这个 Objectron 数据集,谷歌希望能够使研究团体推进三维物体几何理解的极限。同时也希望促进新的研究和应用,如视图合成,改进的 3D 表示和非监督式学习等。

参考链接:

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+blogspot%2FgJZg+%28Google+AI+Blog%29

点击阅读原文,下载Objectron数据集

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

重磅!谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!...相关推荐

  1. 谷歌刚刚发布了2500万个免费数据集,快来了解一下

    全文共2024字,预计学习时长6分钟 来源:Pexels 注意:谷歌的新数据集搜索工具已于2020年1月23日问世. 疫情防控阶段,大家的"寒假"越过越长,这么"长&qu ...

  2. 性价比超高:苹果发布了新数据集,助力室内场景理解

    作者:刘媛媛 来源:数据实战派 前言 计算机视觉界一直渴望能够找到一种方法,让计算机和人们都能够理解室内场景的复杂性. 对于许多基本的场景理解任务,很难或不可能从真实图像中获得每像素地面实况标签. 一 ...

  3. 英特尔发布CPU新架构,突破性采用3D堆栈法

    当地时间12月12日,英特尔在"架构日"活动中公布了下一代CPU微架构-Sunny Cove,这个微架构采用10纳米工艺制造,会成为英特尔下一代酷睿和至强处理器的基础.一同发布的还 ...

  4. Google 谷歌 AI博客:发布Objectron 3D对象检测模型数据集

    仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性.基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜 ...

  5. 谷歌AI发布“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云,网友:快给我的AR模型用上...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  6. Google发布Objectron数据集

    正文字数:1708  阅读时长:2分钟 仅仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中取得了卓越的准确性.在这些成功的基础上,进一步提高对3D对象的理解,这将极大地促 ...

  7. 谷歌最新论文:手机端的实时3-D目标检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文由知乎作者黄浴授权转载,不得擅自二次转载.原文链接:https://zhuanlan.zhihu. ...

  8. CVPR 2020 | 港中文提出3D目标检测新框架DSGN

    ©PaperWeekly 原创 · 作者|张承灏 学校|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架--深度立 ...

  9. 纯视觉3D目标检测新SOTA!STS:基于Camera的深度估计新方法

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[领域综述]获取自动驾驶全栈近80篇综述论文! 论文链接:https ...

最新文章

  1. 一致性哈希算法——算法解决的核心问题是当slot数发生变化时,能够尽量少的移动数据...
  2. notes belonging to given user
  3. rtthread 串口dma接收_RT-Thread 串口DMA使用笔记--STM32F207
  4. 使用ArcGIS Server发布我们的数据
  5. git分支合并指定代码_git的几种实用操作(合并代码与暂存复原代码)
  6. CubeMX的代码生成设置
  7. 配置 IPsec *** and Internet Using Split Tunneling
  8. windows10彻底杀死卡死的顽固进程
  9. Net设计模式实例之观察者模式(Observer Pattern)
  10. logistic regression及其Python实现
  11. 51Nod 1131 - 覆盖数字的数量(分类讨论)
  12. txt转excel的工具
  13. Giesecke Devrient推出全球首张Nano SIM卡,比Micro SIM卡小1/3
  14. Oracle PLM,协同研发的产品生命周期管理平台
  15. 一群参与境内外赌博网站的开发的程序员被抓,网友:切勿面向监狱编程。。。...
  16. android 渠道排名,安卓APP渠道效果统计***排名
  17. python编程题:天天向上的力量
  18. [cadfil] 基于隐形飞机喷气式发动机双S弯喷管的纤维缠绕工艺
  19. google 搜索接口
  20. 网易2017校园招聘笔试题 优雅的点

热门文章

  1. angularjs-ngModel 控制页面的宽度
  2. Redis 集群方案
  3. 服务器测速,php在线测速
  4. 最小系统必须安装的组件(仅做参考)
  5. 用反射动态创建对象,类型无法转换的困惑
  6. 【腾讯三面】你能现场写一下LRU算法吗?
  7. 10 张图打开 CPU 缓存一致性的大门
  8. 9000亿投资浪费在数字化转型,罪魁祸首在DevOps?
  9. 【高并发】高并发环境下诡异的加锁问题(你加的锁未必安全)
  10. 掌握它才说明你真正懂 Elasticsearch