重磅发布！Google语义分割新数据集来啦！又一个分割SOTA模型

【导读】自动驾驶里视觉一直为人所诟病，特斯拉就是经常被拉出来批判的典型。谷歌最近开发了一个新模型，效果拔群，已被CVPR2021接收。

对于人来说，看一张平面照片能够想象到重建后的3D场景布局，能够根据2D图像中包含的有限信号来识别对象，确定实例大小并重建3D场景布局。

这个问题有一个术语叫做光学可逆问题inverse optics problem，它是指从视网膜图像到视网膜刺激源的模糊映射。

现实世界中的计算机视觉应用，例如自动驾驶就严重依赖这些功能来定位和识别3D对象，这需要AI模型来推断投影到2D图像的每个3D点的空间位置、语义类别和实例标签。

从图像重建3D世界的能力可以分解为两个独立的子任务：单眼深度估计（从单个图像预测深度）和视频全景分割（实例分割和语义分割）。

研究人员通常对每个任务提出不同的模型，通过在多个任务之间共享计算的模型权重。在实际应用的时候，将这些任务与统一的计算机视觉模型一起处理可以简化部署提高效率。

基于这个研究背景，Google提出一个全新的模型ViP-DeepLab，通过深度感知视频全景分割来学习视觉感知，已被CVPR 2021接受，旨在同时解决单眼深度估计和视频全景分割。

论文中还导出了两个数据集，并提出了一种称为深度感知视频全景质量（DVPQ）的新评估指标，这个新指标可以同时评估深度估计和视频全景分割。

ViP-DeepLab是一个统一的模型，可以对图像平面上的每个像素联合执行视频全景分割和单眼深度估计，并在子任务的几个学术数据集取得了sota结果。

ViP-DeepLab通过从两个连续的帧作为输入来执行其他预测，输出包括第一帧的深度估计，它为每个像素分配一个深度估计值。

此外，ViP-DeepLab还对出现在第一帧中的对象中心执行两个连续帧的中心回归，此过程称为中心偏移预测，它允许两个帧中的所有像素分组到出现在第一帧中的同一对象。如果未将新实例匹配到先前检测到的实例中，则会出现新实例。

ViP-DeepLab的输出可以用于视频全景分割。连接两个连续的帧作为输入。语义分割输出将每个像素与其语义类别相关联，而实例分割输出则从与第一帧中的单个对象相关联的两个帧中识别像素，输入图像来自Cityscapes数据集。

论文中在多个流行的基准数据集上测试了ViP-DeepLab，包括Cityscapes-VPS，KITTI深度预测和KITTI多对象跟踪和分段（MOTS）。

ViP-DeepLab都取得了SOTA的结果，在Cityscapes-VPS测试上，其视频全景质量（VPQ）大大优于以前的方法，达到了5.1％。

在KITTI深度预测基准上进行单眼深度估计的比较，对于深度估算指标，值越小，性能越好。尽管差异可能看起来很小，但在此基准上性能最高的方法通常在SILog中的间隙小于0.1。

此外，VIP-DeepLab也在KITTI MOTS行人和汽车排名度量使用新的度量标准HOTA，都取得了显著提升。

最后，论文中还为新任务提供了两个新的数据集，即深度感知视频全景分割，并在其上测试了ViP-DeepLab，而这个模型的结果将成为社区进行比较的基准模型。

ViP-DeepLab具有简单的体系结构，可在视频全景分割，单眼深度估计以及多对象跟踪和分割方面实现最先进的性能，这个模型也能帮助进一步研究对2D场景中的真实世界。

参考资料：

https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html

欢迎添加群助手微信，邀请您加入大佬云集-计算机视觉交流群！

???? 长按识别添加，邀请您进群！

重磅发布！Google语义分割新数据集来啦！又一个分割SOTA模型相关推荐

霸榜！Google发布语义分割新数据集！
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接对于 ...
谷歌发布语义分割新数据集！
转自:新智元编辑:LRS 对于人来说,看一张平面照片能够想象到重建后的3D场景布局,能够根据2D图像中包含的有限信号来识别对象,确定实例大小并重建3D场景布局. 这个问题有一个术语叫做光学可逆问题i ...
IDEA 2020.2 重磅发布，动画级新功能预览！
点击上方好好学java ,选择星标公众号重磅资讯.干货,第一时间送达今日推荐:2020年7月程序员工资统计,平均14357元,又跌了,扎心个人原创100W+访问量博客:点击前往,查看更多本文 ...
idea网页预览功能_IDEA 2020.2 重磅发布，动画级新功能预览！
博主关注了 IDEA 的官推,平时没事就会去看看有没有啥比较好的更新.今天下午看到IntelliJ IDEA 2020.2 都已经发布并且还支持了 Java15.然后,我就去官网简单看了一下新特性.单 ...
“疯狂变脸”再升级，腾讯云重磅发布多脸融合新功能
近日,腾讯云人脸融合正式发布多脸融合新功能,该产品在之前单脸融合的基础上,新增多脸融合和选脸融合.同时,内置的新型算法,让融合效果表现更优异. 人脸融合在实际应用中极具趣味性和参与性,目前已经被广泛应 ...
unet训练自己的数据集_基于UNet网络实现的人像分割 | 附数据集
点击上方↑↑↑"OpenCV学堂"关注我来源:公众号 AI算法与图像处理授权以后我会在公众号分享一些关于算法的应用(美颜相关的),工作之后,发现更重要的能力如何理解业务并将算 ...
linux下u盘如何将分割的合在一起,我又一个8g的U盘，想分两个区，一个区装系统，用PE引导，另一个分割槽用来存放档案，有什么工具，怎么操作，...
我又一个8g的U盘,想分两个区,一个区装系统,用PE引导,另一个分割槽用来存放档案,有什么工具,怎么操作,以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的 ...
重磅！谷歌刚刚发布Objectron新数据集，可完美检测3D目标，超过4百万幅图像和15K视频剪辑！...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达本文转载自:新智元 | 编辑:QJP [导读]谷歌人工智能实验室近日发布 Objectron 数据 ...
ECCV2020 | 北京大学提出RGB-D语义分割新网络，多模态信息融合
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达这篇文章收录于ECCV2020,由北京大学.商汤科技.香港中文大学提出的基于RGB-D图像的语义分割算 ...

重磅发布！Google语义分割新数据集来啦！又一个分割SOTA模型

【导读】自动驾驶里视觉一直为人所诟病，特斯拉就是经常被拉出来批判的典型。谷歌最近开发了一个新模型，效果拔群，已被CVPR2021接收。

重磅发布！Google语义分割新数据集来啦！又一个分割SOTA模型相关推荐

最新文章

热门文章