萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

见过3D物体数据集,见过会动的3D物体数据集吗?

每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云。

这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。

谷歌认为,3D目标理解领域,缺少像2D中的ImageNet这样的大型数据集,而Objectron数据集能在一定程度上解决这个问题。

数据集一经推出,1.6k网友点赞。

有网友调侃,谷歌恰好在自己想“谷歌”这类数据集的时候,把它发了出来。

也有团队前成员表示,很高兴看到这样的数据集和模型,给AR带来进步的可能。

除此之外,谷歌还公布了用Objectron数据集训练的针对鞋子、椅子、杯子和相机4种类别的3D目标检测模型。

来看看这个数据集包含什么,以及谷歌提供的3D目标检测方案吧~(项目地址见文末)

9类物体,对AR挺友好

目前,这个数据集中包含的3D物体样本,包括自行车,书籍,瓶子,照相机,麦片盒子,椅子,杯子,笔记本电脑和鞋子。

当然,这个数据集,绝不仅仅只是一些以物体为中心拍摄的视频和图像,它具有如下特性:

注释标签(3D目标立体边界框)

用于AR数据的数据(相机位姿、稀疏点云、二维表面)

数据预处理(图像格式为tf.example,视频格式为SequenceExample)

支持通过脚本运行3D IoU指标的评估

支持通过脚本实现Tensorflow、PyTorch、JAX的数据加载及可视化,包含“Hello World”样例

支持Apache Beam,用于处理谷歌云(Google Cloud)基础架构上的数据集

所有可用样本的索引,包括训练/测试部分,便于下载

图像部分的画风,基本是这样的,也标注得非常详细:

而在视频中,不仅有从各个角度拍摄的、以目标为中心的片段(从左到右、从下到上):

也有不同数量的视频类型(一个目标、或者两个以上的目标):

谷歌希望通过发布这个数据集,让研究界能够进一步突破3D目标理解领域,以及相关的如无监督学习等方向的研究应用。

怎么用?谷歌“以身示范”

拿到数据集的第一刻,并不知道它是否好用,而且总感觉有点无从下手?

别担心,这个数据集的训练效果,谷歌已经替我们试过了。

看起来还不错:

此外,谷歌将训练好的3D目标检测模型,也一并给了出来。(传送见文末)

算法主要包括两部分,第一部分是Tensorflow的2D目标检测模型,用来“发现物体的位置”;

第二部分则进行图像裁剪,来估计3D物体的边界框(同时计算目标下一帧的2D裁剪,因此不需要运行每个帧),整体结构如下图:

在模型的评估上,谷歌采用了Sutherland-Hodgman多边形裁剪算法,来计算两个立体边界框的交点,并计算出两个立方体的相交体积,最终计算出3D目标检测模型的IoU

简单来说,两个立方体重叠体积越大,3D目标检测模型效果就越好。

这个模型是谷歌推出的MediaPipe中的一个部分,后者是一个开源的跨平台框架,用于构建pipeline,以处理不同形式的感知数据。

它推出的MediaPipe Objectron实时3D目标检测模型,用移动设备(手机)就能进行目标实时检测。

看,(他们玩得多欢快)实时目标检测的效果还不错:

其他部分3D数据集

除了谷歌推出的数据集以外,此前视觉3D目标领域,也有许多类型不同的数据集,每个数据集都有自己的特点。

例如斯坦福大学等提出的ScanNetV2,是个室内场景数据集,而ScanNet则是个RGB-D视频数据集,一共有21个目标类,一共1513个采集场景数据,可做语义分割和目标检测任务。

而目前在自动驾驶领域非常热门的KITTI数据集,也是一个3D数据集,是目前最大的自动驾驶场景下计算机视觉的算法评测数据集,包含市区、乡村和高速公路等场景采集的真实图像数据。

此外,还有Waymo、SemanticKITTI、H3D等等数据集,也都用在不同的场景中。(例如SemanticKITTI,通常被专门用于自动驾驶的3D语义分割)

无论是视频还是图像,这些数据集的单个样本基本包含多个目标,使用场景上也与谷歌的Objectron有所不同。

感兴趣的小伙伴们,可以通过下方传送门,浏览谷歌最新的3D目标检测数据集,以及相关模型~

Objectron数据集传送门:
https://github.com/google-research-datasets/Objectron/

针对4种物体的3D目标检测模型:
https://google.github.io/mediapipe/solutions/objectron

参考链接: 
https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

@关注AI行业的朋友,李开复邀你参会啦!

扫码查看更多AI大咖 & 马上报名

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

谷歌AI发布“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云,网友:快给我的AR模型用上...相关推荐

  1. 提速20倍!谷歌AI发布TensorFlow 3D

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 随着自动驾驶汽车与机器人的深入发展,激 ...

  2. 提速20倍!谷歌AI发布TensorFlow 3D,智能汽车场景亲测好用

    来源丨新智元 编辑丨极市平台 导读 Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种 ...

  3. 谷歌AI发布Deepfake检测数据集,真人多场景拍摄,生成3000段假视频

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(AI_era) .   新智元报道   来源:Google AI 编辑:大明 [新智元导读]Deepfake又添劲敌!这次出手的是谷歌 ...

  4. 谷歌刚刚发布了2500万个免费数据集,快来了解一下

    全文共2024字,预计学习时长6分钟 来源:Pexels 注意:谷歌的新数据集搜索工具已于2020年1月23日问世. 疫情防控阶段,大家的"寒假"越过越长,这么"长&qu ...

  5. 3D集合图元:最小边界框/包围盒(boundingbox)

    对于2D边界框的应用时比较广泛地,它为一个简单匹配建立了很小的计算规则,3D模型的boundingbox则比较困难,计算代价较大.对于PCL库的使用则降低了计算难度,三维数值化降低了建模过程,可以使用 ...

  6. 疲劳驾驶样本集_谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  7. 谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活 这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲.十个国家里收集来的400多万张带注释的图像. 作 ...

  8. 【论文阅读】基于视图的图卷积神经网络3D物体形状识别算法

    原文地址:点击访问 本期,为大家推送CVPR 2020一篇关于图神经网络与3D相关的文章.自我感觉挺有趣的,有兴趣的同学推荐一读. 论文题目:View-GCN: View-based Graph Co ...

  9. Google 谷歌 AI博客:发布Objectron 3D对象检测模型数据集

    仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性.基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜 ...

最新文章

  1. R语言使用ggpubr包绘制出版社、编辑、审稿人要求的可视化图形实战
  2. Linux下select, poll和epoll IO模型的详解
  3. js触发button的点击事件
  4. nltk packages下载问题
  5. 移动端vue实现部门结构功能_基于Vue的组织架构树组件
  6. 几种流行的开源WebService框架Axis1,Axis2,Xfire,CXF,JWS比较
  7. MySQL 8.0.19安装教程(windows 64位)
  8. 在IT呆了好久了,给大家科普下这个行业的行话
  9. 华为监事会副主席丁耘长跑28公里后突发疾病去世,年仅53岁!
  10. vue cli 构架vux移动端模板
  11. 谷歌浏览器导致电脑右下角莫名弹出广告解决办法
  12. 普中51单片机的贪吃蛇教程
  13. linux硬盘组合为raid0挂载
  14. macos最新版本是什么_macOS的最新版本是什么?
  15. matplotlib之饼图
  16. 抓取网易云音乐歌曲热门评论生成词云(转)
  17. (二)航空发动机强度与振动复习纲要
  18. 研发工程师入门——Linux系统基础
  19. 使用Pyecharts进行奥运会可视化分析!
  20. 加密解密五种算法的实现

热门文章

  1. WCF服务的REST / SOAP端点
  2. 退市35年后,牛仔裤品牌李维斯要重新IPO了
  3. 生成Gif动画缩略图-Gif动画水印的改进
  4. Data Structure_Sort Algorithm
  5. 017——VUE中v-fo指令的使用方法
  6. 微信小程序图片变形解决方法
  7. flexcan controller register
  8. three.js贴图
  9. 鼠标滑过某一个图标时,提示讯息
  10. Xamarin图表开发基础教程(8)OxyPlot框架