点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

转载于 :机器之心

AI博士笔记系列推荐:

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

常规目标检测,已经不能满足移动端了,谷歌开源的 3D 实时目标检测了解一下?

目标检测是一个得到广泛研究的计算机视觉问题,但大多数研究侧重于 2D 目标检测。值的注意的是,2D 预测仅能提供 2D 边界框。所以,如果扩展至 3D 预测,人们可以捕捉到目标的大小、位置与方向,从而在机器人、无人驾驶、图像检索和 AR 等领域得到更广泛的应用。

尽管 2D 目标检测已经相当成熟,并在工业界广泛应用,但由于数据缺乏以及同类别下目标形状和外观的多样性,从 2D 转向 3D 目标检测依然会面临较大的挑战。

今日,谷歌宣布推出 MediaPipe Objectron,这是一种适用于日常物体的移动端实时 3D 目标检测 pipeline,它能够检测 2D 图像中的目标,并通过新创建 3D 数据集上训练的机器学习模型来估计这些目标的姿态和大小。

具体而言,MediaPipe 是一个用于构建 pipeline 进而处理不同模态感知数据的跨平台开源框架,Objectron 则在 MediaPipe 中实现,其能够在移动设备上实时计算目标的定向 3D 边界框。

从单个图像进行 3D 目标检测。MediaPipe 可以在移动端上实时确认目标对象的位置、方向以及大小。整个模型非常精简,速度也非常快,研究者将整套方案都开源了出来。

  • 框架地址:https://github.com/google/mediapipe/

  • 项目地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

MediaPipe 是谷歌去年 7 月份发布的一个多媒体框架,它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型。昨日 MediaPipe 发布 0.7 版,并加入了移动端试试 3D 检测模型。目前 MediaPipe 包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。

获取真实的 3D 训练数据

随着依赖于 3D 传感器(如 LIDAR)的自动驾驶行业发展普及,现在已有大量街道场景的 3D 数据,但对于日常生活中拥有更细颗粒度的目标来说,有标注的 3D 数据集就非常有限了。所以,为了解决此问题,谷歌团队使用了 AR 会话(Session)数据开发了一种全新的数据 Pipeline。

此外,随着 ARCore 以及 ARkit 的出现,数亿体量的智能手机拥有了 AR 功能,并且能够通过 AR 会话取获取更多的信息,包括相机姿态、稀疏 3D 点云、光照估计以及平面区域估计。

为了标记真实数据,团队构建了一个全新的标注工具,并且与 AR 会话数据一起使用,该标注工具使标注者得以快速标记目标的 3D 边界框。

该工具使用了分屏视图来显示 2D 的视频帧,同时在其左侧叠加 3D 边界框,并在右侧显示 3D 点云,摄像机方位以及所检测到的水平面。标注器在 3D 视图中绘制 3D 边界框,并通过查看 2D 视频帧中的投影来验证其位置。

左:带标注的 3D 边界框所形成的投影展示在边界框顶部,更易于验证标注;右:通过检测到的目标表面以及稀疏点云数据,可以为不同的相机姿态标注真实世界中的 3D 边界框。

AR 合成数据

之前常用的方法会根据合成数据补充真实数据,以提高预测的准确性。然而这样的做法通常会导致质量低下、不真实的数据,且如果要执行图像的真实感渲染,又需要更多的计算力。

研究者采用了另一种称之为 AR 合成数据(AR Synthetic Data Generation)的方法,只要将对象放到 AR 系统的工作场景中,我们就能利用相机姿态估计、水平面检测、光照估计生成物理上可能存在的位置及场景。这种方法能生成高质量合成数据,并无缝匹配实际背景。通过结合真实数据与 AR 合成数据,研究者能将模型的准确性提高约 10%。

AR 合成数据的生成示例,在蓝色书籍旁边,虚拟的白色盒子可以渲染到真实场景中。

3D 目标检测的流程是什么样的

对于 3D 目标检测,研究者先构建了一个单阶段模型 MobilePose,以预测单张 RGB 图像中某个目标的姿态和物理大小。该模型的主干是一个编码器-解码器架构,其构建在 MobileNet V2 的基础上。研究者应用了多任务学习方法,来从检测与回归的角度联合预测目标的形状,且在预测形状的过程中,其只依赖于标注的分割图像。

MobilePose-Shape 网络在中间层会带有形状预测模块。

在模型的训练中,如果数据没有标注形状,那也是可行的。只不过借助检测边界框,研究者可以预测形状中心与分布。

为了获得边界框的最终 3D 坐标,研究者利用了一种完善的姿态估计算法(EPnP),它可以恢复对象的 3D 边界框,而无需知道对象维度这一先验知识。给定 3D 边界框,我们可以轻松计算对象的姿态和大小。

下图显示了网络架构和后处理过程,该模型轻巧到可以在移动设备上实时运行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度运行)。

3D 目标检测的神经网络架构与后处理过程。

模型的示例结果,其中左图为估计边界框的原始 2D 图像,中间为带高斯分布的目标检测,最右边为预测的分割 Mask。

在 MediaPipe 中进行检测和追踪

当模型对移动设备获得的每一帧图像进行计算的时候,它可能会遇到晃动的情况,这是因为每一帧对目标边界框预测本身的模糊性造成的。为了缓解这个问题,研究者采用了检测+追踪的框架,这一框架近期被用于 2D 检测和追踪中。这个框架减少了需要在每一帧上运行网络的要求,因此可以让模型的检测更为精确,同时保证在移动端上的实时性。它同时还能保持识别帧与帧之间的目标,确保预测的连贯性,减少晃动。

为了进一步提升这一 pipeline 的效率,研究者设置模型在每几帧后再进行一次模型推理。之后,他们使用名为快速动作追踪(instant motion tracking)和 Motion Stills 技术进行预测和追踪。当模型提出一个新的预测时,他们会根据重叠区域对检测结果进行合并。

为了鼓励研究者和开发者基于这一 pipeline 进行试验,谷歌目前已经将研究成果开源到了 MediaPipe 项目中,包括端到端的移动设备应用 demo,以及在鞋、椅子两个分类中训练好的模型。研究者希望这一解决方案能够更好地帮助到社区,并产生新的方法、应用和研究成果。团队也希望能够扩大模型到更多类别中,进一步提升在移动端设备的性能表现。

室内和户外 3D 目标检测示例。

原文链接:https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

END

声明:本文来源于网络

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

最新热文荐读

GitHub | 计算机视觉最全资料集锦

Github | 标星1W+清华大学计算机系课程攻略!

Github | 吴恩达新书《Machine Learning Yearning》

收藏 | 2020年AI、CV、NLP顶会最全时间表!

收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

收藏 | 深度学习专项课程精炼图笔记!

笔记 | 手把手教你使用PyTorch从零实现YOLOv3

笔记 | 如何深入理解计算机视觉?(附思维导图)

笔记 | 深度学习综述思维导图(可下载)

笔记 | 深度神经网络综述思维导图(可下载)

总结 | 2019年人工智能+深度学习笔记思维导图汇总

点个在看支持一下吧

移动端实时3D目标检测,谷歌开源出品,安卓下载就能用相关推荐

  1. 谷歌最新论文:手机端的实时3-D目标检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文由知乎作者黄浴授权转载,不得擅自二次转载.原文链接:https://zhuanlan.zhihu. ...

  2. 【项目实战】YOLOV5 +实时吸烟目标检测+手把手教学+开源全部

    本原创项目长期更新,旨在完成校园异常行为实时精检测,做到集成+N次开发+优化(不止局限于调包)为止,近期将不断更新以下模型+数据+标注文件+教程.关注博主,Star 一下github,一起开始美妙的目 ...

  3. 谷歌AI良心开源:一部手机就能完成3D目标检测,还是实时的那种

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:量子位@微信公众号 导读: 昨天,谷歌开源了能在移动设备上实时计算面向对象的 ...

  4. 重磅!谷歌发布3D目标检测数据集及检测方案

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习> ...

  5. 史上最全综述:3D目标检测算法汇总!

    来源:自动驾驶之心 本文约16000字,建议阅读10+分钟 本文将演示如何通过阈值调优来提高模型的性能.本文的结构安排如下:首先,第2节中介绍了3D目标检测问题的定义.数据集和评价指标.然后,我们回顾 ...

  6. 3D目标检测学习笔记

    博主初学3D目标检测,此前没有相关学习背景,小白一枚-现阶段的学习重点是点云相关的3D检测. 本文是阅读文章:3D Object Detection for Autonomous Driving: A ...

  7. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

  8. CVPR 2020 | 港中文提出3D目标检测新框架DSGN

    ©PaperWeekly 原创 · 作者|张承灏 学校|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架--深度立 ...

  9. ICCV2021|单目3D目标检测真的需要伪激光雷达吗?

    作者丨agent@知乎 来源丨https://zhuanlan.zhihu.com/p/406918022 编辑丨3D视觉工坊 Paper: arxiv.org/pdf/2108.0641 Code: ...

最新文章

  1. 不做“浮冰”,深挖AI技术和场景
  2. 2016 Multi-University Training Contest 4 Bubble Sort(树状数组模板)
  3. 电脑登陆不了网页的服务器地址,电脑登陆qq打不开网页怎么设置
  4. 未来已来,音视频江湖再起波澜
  5. Windows 程序包管理器 1.0 正式发布
  6. Standard Driver Routines(标准驱动程序)
  7. C++结构体中const使用场景
  8. 米斯特白帽培训讲义 实战篇 WordPress
  9. IIS 7.5 + PHP-5.6.3 + mysql-5.6.21.1
  10. Linux下飞鸽传书项目设计书,Linux 下飞鸽传书设计实现
  11. appium 学习教程
  12. 通过资源监视器排查网络高占用异常
  13. 成都理工大学计算机考研资料汇总
  14. 30天自制操作系统第二天
  15. python永久配置pip下载镜像源方法(window版本)
  16. Ae 入门系列之二:素材的导入与管理
  17. 加内存条流程(以Dell灵越5580为例)
  18. 如何在VMware Workstation虚拟机上安装苹果系统(Mac OS)
  19. 什么是cmnet和cmwap
  20. 苹果(maccms V10) Python 采集豆瓣评分直接入库。

热门文章

  1. centos iptables_SQLyog远程连接centos中mysql数据库
  2. 绕过waf mysql爆库_sqlilab-Less-21-30-writeup
  3. puml绘制思维导图_强推:9款超好用思维导图APP
  4. it转正述职报告_三年产品经理的转正述职报告
  5. python怎么控制小数点位数_谈谈关于Python里面小数点精度控制的问题
  6. thinkphp3.2笔记(1)目录,控制器及url模式,地址解析
  7. 20165322 第二周结队编程-四则运算
  8. resopnse处理HTTP文件头
  9. 利用递归级联删除的代码
  10. oracle 10g 学习之函数和存储过程(12)