Abstract
递归全对场变换:一种新的光流深度神经架构。RAFT提取像素特征,对所有像素对建立多尺度4D关联体积,并且使用一个循环单元在关联体积上执行查找来迭代地更新光流场。

Motivation
光流的任务是预估视频帧之间的逐像素运动,受到各种困难的限制,包括快速移动的对象、遮挡、运动模糊和纹理相关的表面。optical flow在传统上被认为是一个手工优化问题,它覆盖了两个图像对,一般来说,优化目标定义了一种平衡,即鼓励视觉上相似的图像区域对齐的状态和对运动的合理性施加优先级的调整项。这种方法取得了相当大的成功,但是手工设计一个高鲁棒性的优化目标应用于各种情况是困难的。
深度学习可以简化公式优化问题并且直接预测光流,成为传统方法的一种替代方案。

Core
RAFT三个主要部分组成:(1)为每个像素提取特征向量的特征编码器;(2)相关联卷积层,其为所有像素对产生4D相关体积,随后池化以产生较低分辨率的体积;(3)基于GRU的递归重复操作,从相关体积中检索值,并迭代更新初始化为零的流场。
RAFT的架构基于传统优化方法,特征编码器提取每一个像素的特征。关联层计算像素之间的视觉相似性。更新操作模拟迭代优化算法的步骤,但与传统方法不同的是,特征和运动先验不是手工设计的,而是分别由特征编码器和更新操作符学习的。
RAFT的设计从许多现有的作品中获得灵感,但本质上是新颖的。首先,RAFT以高分辨率维护和更新一个固定的流场。这与之前工作中的粗糙到精细设计不同,在之前工作中,首先在低分辨率下预测光流,然后重复上采样细化生成高分辨率。通过操作单个的高分辨率光流场,RAF克服了多个由粗到细级联的缺陷:难以在低分辨率下修复错误,忽视小的快速移动对象的倾向,以及通为了训练多级级联的大量迭代。第二,RAFT的更新操作时循环的且轻量级的。许多最近的网络已经使用一些形式的迭代细化,但是没有设置迭代地权重,因此被限制了迭代的数量。第三,更新操作有着全新的设计,它包含了一个卷积GRU,可以在4D多尺度关联体积上执行查找,相比之下前人的工作只用了单纯的卷积或关联层。
三点优势:
(1)State-of-the-art accuracy:本文在 KITTI 相对现有最好结果取得了 16% 的误差下降,达到 5.10%(F1)。在 Sintel 上取得了 30% 的误差下降(像素误差)。是目前最好的结果。
(2)Strong generalization:仅在仿真数据集训练时,RAFT 相比同样在仿真数据集训练的最好的网络结果有 40% 的误差下降。
(3)High efficiency: RAFT 在 1088×436 videos 可以达到 10 FPS 的速度( 1080Ti GPU)。同时在训练迭代次数上,减少了10倍。

Method

Feature Extraction
使用卷积网络从输入图像中提取特征。特征编码器网络应用于I1和I2,并将输入图像映射到较低分辨率的密集特征映射。我们的编码器gθ以1/8的分辨率输出特征图,设置D= 256。特征编码器由6个残差模块组成,2个为1/2分辨率,2个为1/4分辨率,2个为1/8分辨率。此外还使用了上下文网络,上下文网络仅从第一幅输入图像中提取特征,上下文网络的架构与特征提取网络相同。特性网络和上下文网络一起构成了特征提取部分。

Computing Visual Similarity
计算所有特征向量对之间的点积得到关联体积。
关联金字塔:
使用池化得到四个不同尺度的关联体积,这组体积给出了关于大位移和小位移的信息;由于保持了高分辨率信息,允许我们的方法恢复快速移动的小物体的运动。
关联查找:
我们定义了一个通过从关联金字塔中建立索引来生成特征图的查找操作器。给定当前的光流估计(f1,f2),我们将每个像素映射到它的预估对应值上,然后将该点附近的局部网格定义成半径范围内的整数偏移集。我们在金字塔的所有级别上执行查找,跨级别的恒定半径意味着较低级别的更大上下文,然后,将每个等级的值连接成一个单一的特征图.

高效计算高分辨率图像:
所有像素对的相关比例只需要计算一次,并且在迭代次数中是常数。然而,我们的方法有一个等价的实现,它利用内积和平均池的线性来缩放。

在这个替代实现中,我们不预先计算相关性,而是预先计算合并的图像特征映射。在每次迭代中,仅当被查询时按需计算每个相关值。

Iterative Updates
定义更新运算符估计一系列光流序列的预估值,每次迭代,它都会产生一个应用于当前估计的更新方向。更新运算符的输入为:光流、关联值和延迟的状态输入,输出为:更新值和更新的隐藏状态。

更新运算符的架构被设计成模拟优化算法的步骤,使用跨深度的绑定权重,并使用有界激活来鼓励收敛到一个固定点。更新运算符的核心组件是基于GRU单元的门控激活单元,其完全连接层被卷积取代。

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow相关推荐

  1. 论文阅读:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

    文章目录 1. 论文总述 2. RAFT结构被传统算法所启发 3. RAFT的三个重大创新点 4. 光流算法需要解决的难点 5. 传统光流算法简介及缺点 6. Fast DIS 有可能存在的问题 7. ...

  2. (论文解读)RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

    目录 论文解读之: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow 写在前面 回顾光流领域 RAFT Feature Encod ...

  3. RAFT:Recurrent All-Pairs Field Transforms for Optical Flow

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Abstract 1 Introduction 2 Related Work Optical Flow as Energy ...

  4. 《RAFT:Recurrent All-Pairs Field Transforms for Optical Flow》论文笔记

    参考代码:RAFT 作者主页:Zachary Teed 1. 概述 导读:这篇文章提出了一种新的光流估计pipline,与之前介绍的PWC-Net类似其也包含特征抽取/correlation volu ...

  5. RAFT: Recurrent All-Pairs Field Transforms for Optical Flow论文阅读

    RAFT由三个主要组件组成: 特征编码器,该编码器为每个像素提取特征向量; 相关层,对所有像素对产生4D相关卷,后续池化产生较低分辨率卷 基于gru的循环更新操作符,从相关卷中检索值,迭代更新初始化为 ...

  6. 【入门向】光流法(optical flow)基本原理+深度学习中的应用【FlowNet】【RAFT】

    目录 1. 理论背景 1.1 光流 1.2 光流场 2. 基本原理 2.1 假设条件 2.2 约束方程 3. 光流估计方法 3.1 思路概述 3.2 优缺点对比 4. 稠密光流和稀疏光流 4.1 稠密 ...

  7. 【论文简述及翻译】RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching(3DV 2021)

    一.论文简述 1. 第一作者:Lahav Lipson 2. 发表年份:2021 3. 发表期刊:3DV,Best paper 4. 关键词:立体匹配.端到端训练.迭代优化.GRU 5. 探索动机:立 ...

  8. 论文笔记 - RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching

    这篇博客是对论文RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching的阅读笔记. 论文地址位于paper,代码已 ...

  9. 光流(optical flow) 光流法(optical flow method) 光流场(optical flow field)

    光流是空间运动物体在观测成像面上的像素运动的瞬时速度.光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的"运动",即研究图像灰度在时间上的变化与景象中物 ...

最新文章

  1. 设计模式(2)工厂方法模式(Factory Method)
  2. 如何提高数据安全性与可用性——行云管家堡垒机
  3. struts2中dtd失效,代码不提示问题
  4. ComponentName知识
  5. CAP BASE 最终一致性
  6. 【英语学习】【Daily English】U11 Work L01 Would you like a tour of the office?
  7. java中二叉树_Java工程师面试1000题224-递归非递归实现二叉树前、中、后序遍历...
  8. Clone使用方法详解【转载】
  9. 林锐高质量编程中的几道面试题
  10. 战略分析思路——沙盘推演逻辑
  11. b级计算机机房标准,B级电子信息系统机房技术要求国标GB50174–2008
  12. 使用 meson 编译代码
  13. 租用美国的VPS主机需要注意什么
  14. deepin/ubantu下 mysql 1698错误解决
  15. python+opencv实现运动检测追踪拍照
  16. 备考PMP的程序员注意了!!!13张PMPBook思维导图免费送上,没有套路,直接领取
  17. emplace 和 emplace_back
  18. [51nod1355]斐波那契的最小公倍数
  19. 异常:getReader() has already been called for this request
  20. 业务需求、用户需求、功能需求、技术需求 环环相扣

热门文章

  1. Flutter 初尝:从 Java 无缝过渡
  2. Android 手势锁的实现 让自己的应用更加安全吧
  3. 杯子抱枕手机壳 日历书签文化衫 这里的文创样机应有尽有!
  4. U盘被分区出EFI,格式化失败 win无法格式化
  5. SpringBoot + xxl-job 多数据源异构数据增量同步
  6. 【笔记11】个人扫盲:内存与CPU中的核、线程、物理CPU、逻辑CPU
  7. VESA--1080P时序代码
  8. github django html5,django-html5-forms
  9. GUI programming with wxPython 之 XRC
  10. matlab fopen函数的用法,matlab中fopen函数与fprintf用法