【导读】自动驾驶里视觉一直为人所诟病,特斯拉就是经常被拉出来批判的典型。谷歌最近开发了一个新模型,效果拔群,已被CVPR2021接收。

对于人来说,看一张平面照片能够想象到重建后的3D场景布局,能够根据2D图像中包含的有限信号来识别对象,确定实例大小并重建3D场景布局。

这个问题有一个术语叫做光学可逆问题inverse optics problem,它是指从视网膜图像到视网膜刺激源的模糊映射。

现实世界中的计算机视觉应用,例如自动驾驶就严重依赖这些功能来定位和识别3D对象,这需要AI模型来推断投影到2D图像的每个3D点的空间位置、语义类别和实例标签。

从图像重建3D世界的能力可以分解为两个独立的子任务:单眼深度估计(从单个图像预测深度)和视频全景分割(实例分割和语义分割)。

研究人员通常对每个任务提出不同的模型,通过在多个任务之间共享计算的模型权重。在实际应用的时候,将这些任务与统一的计算机视觉模型一起处理可以简化部署提高效率。

基于这个研究背景,Google提出一个全新的模型ViP-DeepLab,通过深度感知视频全景分割来学习视觉感知,已被CVPR 2021接受,旨在同时解决单眼深度估计和视频全景分割。

论文中还导出了两个数据集,并提出了一种称为深度感知视频全景质量(DVPQ)的新评估指标,这个新指标可以同时评估深度估计和视频全景分割。

ViP-DeepLab是一个统一的模型,可以对图像平面上的每个像素联合执行视频全景分割和单眼深度估计,并在子任务的几个学术数据集取得了sota结果。

ViP-DeepLab通过从两个连续的帧作为输入来执行其他预测,输出包括第一帧的深度估计,它为每个像素分配一个深度估计值。

此外,ViP-DeepLab还对出现在第一帧中的对象中心执行两个连续帧的中心回归,此过程称为中心偏移预测,它允许两个帧中的所有像素分组到出现在第一帧中的同一对象。如果未将新实例匹配到先前检测到的实例中,则会出现新实例。

ViP-DeepLab的输出可以用于视频全景分割。连接两个连续的帧作为输入。语义分割输出将每个像素与其语义类别相关联,而实例分割输出则从与第一帧中的单个对象相关联的两个帧中识别像素,输入图像来自Cityscapes数据集。

论文中在多个流行的基准数据集上测试了ViP-DeepLab,包括Cityscapes-VPS,KITTI深度预测和KITTI多对象跟踪和分段(MOTS)。

ViP-DeepLab都取得了SOTA的结果,在Cityscapes-VPS测试上,其视频全景质量(VPQ)大大优于以前的方法,达到了5.1%。

在KITTI深度预测基准上进行单眼深度估计的比较,对于深度估算指标,值越小,性能越好。尽管差异可能看起来很小,但在此基准上性能最高的方法通常在SILog中的间隙小于0.1。

此外,VIP-DeepLab也在KITTI MOTS行人和汽车排名度量使用新的度量标准HOTA,都取得了显著提升。

最后,论文中还为新任务提供了两个新的数据集,即深度感知视频全景分割,并在其上测试了ViP-DeepLab,而这个模型的结果将成为社区进行比较的基准模型。

ViP-DeepLab具有简单的体系结构,可在视频全景分割,单眼深度估计以及多对象跟踪和分割方面实现最先进的性能,这个模型也能帮助进一步研究对2D场景中的真实世界。

参考资料:

https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html

欢迎添加群助手微信,邀请您加入大佬云集-计算机视觉交流群!

???? 长按识别添加,邀请您进群!

重磅发布!Google语义分割新数据集来啦!又一个分割SOTA模型相关推荐

  1. 霸榜!Google发布语义分割新数据集!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 对于 ...

  2. 谷歌发布语义分割新数据集!

    转自:新智元 编辑:LRS 对于人来说,看一张平面照片能够想象到重建后的3D场景布局,能够根据2D图像中包含的有限信号来识别对象,确定实例大小并重建3D场景布局. 这个问题有一个术语叫做光学可逆问题i ...

  3. IDEA 2020.2 重磅发布,动画级新功能预览!

    点击上方 好好学java ,选择 星标 公众号 重磅资讯.干货,第一时间送达今日推荐:2020年7月程序员工资统计,平均14357元,又跌了,扎心个人原创100W+访问量博客:点击前往,查看更多 本文 ...

  4. idea网页预览功能_IDEA 2020.2 重磅发布,动画级新功能预览!

    博主关注了 IDEA 的官推,平时没事就会去看看有没有啥比较好的更新.今天下午看到IntelliJ IDEA 2020.2 都已经发布并且还支持了 Java15.然后,我就去官网简单看了一下新特性.单 ...

  5. “疯狂变脸”再升级,腾讯云重磅发布多脸融合新功能

    近日,腾讯云人脸融合正式发布多脸融合新功能,该产品在之前单脸融合的基础上,新增多脸融合和选脸融合.同时,内置的新型算法,让融合效果表现更优异. 人脸融合在实际应用中极具趣味性和参与性,目前已经被广泛应 ...

  6. unet训练自己的数据集_基于UNet网络实现的人像分割 | 附数据集

    点击上方↑↑↑"OpenCV学堂"关注我 来源:公众号 AI算法与图像处理 授权 以后我会在公众号分享一些关于算法的应用(美颜相关的),工作之后,发现更重要的能力如何理解业务并将算 ...

  7. linux下u盘如何将分割的合在一起,我又一个8g的U盘,想分两个区,一个区装系统,用PE引导,另一个分割槽用来存放档案,有什么工具,怎么操作,...

    我又一个8g的U盘,想分两个区,一个区装系统,用PE引导,另一个分割槽用来存放档案,有什么工具,怎么操作,以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的 ...

  8. 重磅!谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文转载自:新智元  |  编辑:QJP [导读]谷歌人工智能实验室近日发布 Objectron 数据 ...

  9. ECCV2020 | 北京大学提出RGB-D语义分割新网络,多模态信息融合

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章收录于ECCV2020,由北京大学.商汤科技.香港中文大学提出的基于RGB-D图像的语义分割算 ...

最新文章

  1. 最新综述:基于深度学习方式的单目物体姿态估计与跟踪
  2. php生成唯一的加密串,hashids.php-master整数生成唯一字符串的加密库
  3. 敏捷开发的45个好习惯
  4. linux kernel内存管理学习篇
  5. java有没有回调函数_Java中的回调函数 - wangjianme的个人空间 - OSCHINA - 中文开源技术交流社区...
  6. [python进阶]12.继承的优缺点
  7. linux编程手册读书笔记第一章(20140329)
  8. 【BZOJ 3326】[Scoi2013]数数 数位dp+矩阵乘法优化
  9. 微信小程序 - 基本学习资源
  10. hiveserver2总是启动不起来
  11. 报名啦!旷视研究院解读COCO 2017物体检测夺冠算法 | 吃瓜社
  12. b+树时间复杂度_几分钟学会Java实现图的最小生成树:Kruskal算法
  13. 【TSP】基于matlab粒子群算法求解旅行商问题【含Matlab源码 445期】
  14. pywifi 模块的安装
  15. lintcode(507)摆动排序 II
  16. android 数据永久删除,如何安全地彻底擦除Android
  17. dax-自定义周做同比和环比
  18. 正定与半正定矩阵,判别的方法不能混用,否则出错
  19. TTL接口笔记本液晶屏改液晶显示器
  20. 手机搜狐 html5,手机搜狐欲改版推全新域名及LOGO 着力Html5技术

热门文章

  1. Struts2——学习(5):页面跳转
  2. Loadrunner日志设置与查看
  3. 交换机IEEE 802.1Q、VLAN ID、QoS之间的关系
  4. WPF:自动执行机器人程序若干注意事项
  5. 微软Win8将有多个版本 四款面向ARM平台
  6. linux如何添加route,Linux主机添加路由 route(示例代码)
  7. 棱形旋转c语言程序_C 语言时隔 5 年重回巅峰,这 20 个热门项目拿去练手!
  8. c语言字符串作为函数返回值的类型,返回字符串类型的函数怎么写?
  9. 计算机主机的作用和性能指标,Cpu是什么 cpu性能指标主要有哪几个方面【详细介绍】...
  10. idea 连接 mysql_IDEA 与MySQL连接问题