谷歌AI：根据视频生成深度图，效果堪比激光雷达

图灵TOPIA

作者：Ariel Gordon等

编译：刘静

图灵联邦编辑部出品

从视频中估计3D结构和相机运动是计算机视觉中的一个关键问题，这个技术在自动驾驶领域有着广阔的工业应用前景。

目前自动驾驶的核心技术是LiDAR（激光雷达），一种运用雷达原理，采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”，激光雷达技术越先进，视觉感知的精准程度越高，这是自动驾驶得以实现的底层技术基础。

但是最近几年，放在摄像头上的深度学习研究，发展很蓬勃。相比之下，虽然激光雷达 (LiDAR)的数据有诸多优点，但相关学术进展并不太多。相机+数据+神经网络的组合，正在迅速缩小与LiDAR的能力差距。

无需相机参数、单目、以无监督学习的方式从未标记场景视频中搞定深度图！

这是谷歌AI与机器人实验室联合发布的最新研究结果，效果可媲美LiDAR。

什么是深度图？

深度图像（depth image)也被称为距离影像（range image），由相机拍摄，是指将从图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见表面的几何形状。单位为mm，效果参考下图：

在场景视频景深学习领域，谷歌AI和机器人实验室联合公布了三项最新研究突破：

第一，证明了可以以一种无监督的方式训练深度网络，这个深度网络可以从视频本身预测相机的内在参数，包括镜头失真（见图1）。

第二，在这种情况下，他们是第一个以几何方式从预测深度直接解决遮挡的问题。

第三，大大减少了处理场景中移动元素所需的语义理解量：只需要一个覆盖可能属于移动对象的像素的单个掩码，而不是分割移动对象的每个实例并跨帧跟踪它。

图1：从未知来源的视频中学习深度的方法的定性结果，通过同时学习相机的外在和内在参数来实现。由于该方法不需要知道相机参数，因此它可以应用于任何视频集。所有深度图（在右侧可视化，作为差异）都是从原始视频中学习而不使用任何相机内在函数。从上到下：来自YouTube8M的帧，来自EuRoC MAV数据集，来自Cityscapes和来自KITTI的帧。

推特网友对此不吝赞美：“这是我见过的最令人印象深刻的无监督结果之一。来自未标记视频的深度图对于自动驾驶非常有用:)“

以下是论文具体内容：

从视频中估计3D结构和相机运动是计算机视觉中的一个关键问题，这个技术在自动驾驶领域有着广阔的工业应用前景。

解决该问题的传统方法依赖于在多个连续帧中识别场景中的相同点，并求解在这些帧上最大程度一致的3D结构和相机运动。

但是，帧之间的这种对应关系只能针对所有像素的子集建立，这导致了深度估计不确定的问题。与通常处理逆问题一样，这些缺口是由连续性和平面性等假设填充的。

深度学习能够从数据中获得这些假设，而不是手工指定这些假设。在信息不足以解决模糊性的地方，深度网络可以通过对先前示例进行归纳，以生成深度图和流场。

无监督方法允许单独从原始视频中学习，使用与传统方法类似的一致性损失，但在训练期间对其进行优化。在推论中，经过训练的网络能够预测来自单个图像的深度以及来自成对或更长图像序列的运动。

随着对这个方向的研究越来越有吸引力，很明显，物体运动是一个主要障碍，因为它违反了场景是静态的假设。已经提出了几个方向来解决该问题，包括通过实例分割利用对场景的语义理解。

遮挡是另一个限制因素，最后，在此方向的所有先前工作中，必须给出相机的内在参数。这项工作解决了这些问题，因此减少了监督，提高了未标记视频的深度和运动预测质量。

首先，我们证明了可以以一种无监督的方式训练深度网络，这个深度网络从视频本身预测相机的内在参数，包括镜头失真（见图1）。

其次，在这种情况下，我们是第一个以几何方式从预测深度直接解决遮挡的问题。

最后，我们大大减少了处理场景中移动元素所需的语义理解量：我们需要一个覆盖可能属于移动对象的像素的单个掩码，而不是分割移动对象的每个实例并跨帧跟踪它。

这个掩模可能非常粗糙，实际上可以是矩形边界框的组合。获得这样的粗糙掩模是一个简单得多的问题，而且与实例分割相比，使用现有的模型可以更可靠地解决这个问题。

除了这些定性进展之外，我们还对我们的方法进行了广泛的定量评估，并发现它在多个广泛使用的基准数据集上建立了新的技术水平。将数据集汇集在一起，这种能力通过我们的方法得到了极大的提升，证明可以提高质量。

表1：总结了在KITTI上训练的模型和评估结果，使用给定相机内建和学习相机内建两种方式来评估我们方法的深度估计，结果显而易见，我们获得了当前最佳SOTA。

表2：总结了在Cityscapes上训练和测试的模型的评估结果，我们的方法优于以前的方法，并从学习的内建中获益。

表3：深度估计的消融实验。在所有实验中，训练集是Cityscapes（CS）和KITTI组合，我们分别在Cityscapes（CS）和KITTI（Eigen partition）上测试模型。每行代表一个实验，其中与主方法相比进行了一次更改，如“实验”行中所述。数字越小越好。

除了这些定性的进步，我们对我们的方法进行了广泛的定量评估，发现它在多个广泛使用的基准数据集上建立了一个新的技术状态。将数据集集中在一起，这种方法大大提高了数据集的质量。

最后，我们首次演示了可以在YouTube视频上学习深度和相机内在预测，这些视频是使用多个不同的相机拍摄的，每个相机的内建都是未知的，而且通常是不同的。

来自YouTube8M收集的图像和学习的视差图。

论文摘要

《场景视频景深学习——非特定相机单眼图片景深无监督学习》

我们提出了一种新颖的方法，仅使用相邻视频帧的一致性作为监督信号，用于同时学习单眼视频的深度，运动，物体运动和相机内建。与先前的工作类似，我们的方法通过将可微变形应用于帧，并将结果与相邻结果进行比较来学习，但它提供了若干改进：我们直接使用在训练期间预测的深度图，以几何和可微的方式处理遮挡。我们介绍了随机层标准化，一种新颖的强大正则化器，并考虑了目标相对于场景的运动。据我们所知，我们的工作是第一个以无监督的方式从视频中学习相机固有参数（包括镜头失真）的工作，从而使我们能够从规模未知原点的任意视频中提取准确的深度图和运动信息。

我们在Cityscapes，KITTI和EuRoC数据集上评估我们的结果，建立深度预测和测距的新技术水平，并定性地证明，深度预测可以从YouTube上的一系列视频中学到。

论文地址：

https://arxiv.org/pdf/1904.04998.pdf

加群交流

关注最新的计算机视觉技术，欢迎加入52CV-交流群，扫码添加CV君拉你入群，

（请务必注明:52CV）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

麻烦给我一个“在看”！

谷歌AI：根据视频生成深度图，效果堪比激光雷达相关推荐

抖音、Tiktok危机！谷歌AI短视频生成模型，效果惊艳了
文 | 梦晨 Pine(发自凹非寺) 源 | 量子位内容生成AI进入视频时代! Meta发布「用嘴做视频」仅一周,谷歌CEO劈柴哥接连派出两名选手上场竞争. 第一位Imagen Video与Meta ...
深度学习实战22(进阶版)-AI漫画视频生成模型，做自己的漫画视频
大家好,我是微学AI,今天给大家带来深度学习实战22(进阶版)-AI漫画视频生成模型. 回顾之前给大家介绍了<深度学习实战8-生活照片转化漫画照片应用>,今天我借助这篇文章的原理做一个AI ...
AI软件视频生成工具抖音蓝V运营小助手
AI软件视频生成工具为用户提供了智能混剪.批量生成标题文案.智能发布和移动端操作等功能. 海量自定义风格商务模板: AI软件视频生成工具提供了大量专业商务风格的视频模板,模板可根据用户的需求进行自定义 ...
谷歌转向文字-视频生成
在文本转图像上卷了大半年之后,Meta.谷歌等科技巨头又将目光投向了一个新的战场:文本转视频. 上周,Meta 公布了一个能够生成高质量短视频的工具--Make-A-Video,利用这款工具生成的视频 ...
谷歌CVPR最新成果！采用数据驱动方法通过YouTube视频生成深度图（效果最先进！）
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散本文来源于联盟成员翻译笔记昨日(4月25日)刚更新的文章地址:https://arxiv.org/pdf/190 ...
谷歌AI发布Deepfake检测数据集，真人多场景拍摄，生成3000段假视频
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自新智元(AI_era) . 新智元报道来源:Google AI 编辑:大明 [新智元导读]Deepfake又添劲敌!这次出手的是谷歌 ...
Imagen Video Phenaki：谷歌提出的新AI视频生成技术
本文来源机器之心编辑:张倩.杜伟未经授权不得二次转载谷歌.Meta 等科技巨头又挖了一个新坑. 在文本转图像上卷了大半年之后,Meta.谷歌等科技巨头又将目光投向了一个新的战场:文本 ...
谷歌最新发布两大视频生成工作：720p高清+长镜头，网友：对短视频行业冲击太大......
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群梦晨 Pine 发自凹非寺转载自:量子位(QbitAI) 内容 ...
不用GAN、VAE，谷歌发明视频生成的扩散模型，实现新SOTA
关注公众号,发现CV技术之美本文转自机器之心,编辑:杜伟.陈萍. 扩散模型正在不断的「攻城略地」. 扩散模型并不是一个崭新的概念,早在2015年就已经被提出.其核心应用领域包括音频建模.语音合成.时 ...

谷歌AI：根据视频生成深度图，效果堪比激光雷达

谷歌AI：根据视频生成深度图，效果堪比激光雷达相关推荐

最新文章

热门文章