作者：Shiyu Zhao，Long Zhao，Zhixing Zhang，Enyu Zhou，Dimitris Metaxas

来源：CVPR2022

摘要

1、想要解决什么问题？question

适用于大运动区域和无纹理区域的光流估计。

2、通过什么方法来解决这个问题？method

在直接回归前引入全局匹配；提出基于patch的重叠注意力机制（POLA）；开发匹配优化框架GMFlowNet。

3、作者给出的结果是什么？answer

GMFlowNet的性能远远优于RAFT，达到了sota的效果。

引言

1、研究背景

光流估计是计算机视觉中一项关键的任务。

2、当前研究进展

基于能量优化法；基于匹配优化法；直接回归法。

3、存在的问题

基于神经网络直接回归的光流估计方法不能明确地捕获长期运动的相关性，不能有效处理大的运动。

4、灵感来源

基于能量优化的方法中，在优化前引入匹配可以提升性能。

研究方法

GMFlowNet由3部分组成：大背景特征提取、全局匹配、基于学习的优化。

1、大背景特征提取

首先用三个卷积层提取出初始特征，再采用Transformer块来包含长期依赖信息。为了减少计算成本，提出局部注意力模块POLA。

注意力计算

用[45]的transformer计算方式，再加上[34]中提出的相对位置偏置B，得到注意力

POLA（Patch-based overlapping attention）

POLA将特征划分为M×M非重叠的patch，处理每个及其相邻8个的patch，根据[29,45]在注意力块中采用多头注意力。给定一个向量化的patch为P，其周围的3×3paches为S.在注意力中的第i个头，首先用线性投影将P和S投影到dk维数，投影后为Pi和Si；再用Pi和Si算注意力，得到输出hi；将hi聚合得到H，把H投射为d维，得到最终结果O

Swin Transformer有一个固定窗口和一个滑动窗口，而滑动窗口需要2个单独的注意力块来进行patch间信息的交换，这会导致信息丢失，不利于匹配。POLA在一个块内包含patch间的特征，直接进行信息交换，信息损失较小。POLA的优势在于：消耗的内存更少；可以在现有的深度学习平台上高效实现；通过patch排列特征可以获得更好的性能。

2、全局匹配

4D代价体计算

根据[26,42]，在输入分辨率的1/8上构建4D代价体。

匹配置信度计算

根据[37]，用双softmax算子将代价体转换为匹配置信度。

匹配的选择和流的生成

根据匹配置信度，算出输入图像I1和I2的匹配；定义匹配集；计算粗流。

3、优化

利用RAFT的优化作为本研究的优化，RAFT优化的初始值是0，本研究为f01→2

4、监督

匹配损失

优化损失

与RAFT相同

总损失

实验

1、定量评估

不同位移下的表现

将Sintel训练集划分为s10，s10-40，s40+子集，在C＋T数据集上训练GMFlowNet，以RAFT为基准，在子集上评估，评价指标为AEPE。结果表明，GMFlowNet在位移极大的区域上有很大的改进，这说明具有大背景的全局匹配有利于处理较大的运动。

跨域评估[26,42,25]

在C＋T数据集上训练，在S和K数据集上评估。结果表明GMFlowNet具有很好的泛化能力，将泛化能力的提高归功于全局匹配。

在标准基准上评估[26,42,25]

2、定性评估

可视化估计流

GMFlowNet对局部模糊区域，如无纹理区域提供了更好的预测

可视化代价体

GMFlowNet的代价体峰值远高于RAFT

3、消融实验

在初始特征提取模块的选择；大背景特征提取模块选择；注意力块数量的选择；重叠类型的选择；是否使用全局匹配，分别进行实验，验证各个模块的有效性

4、效率

全局匹配运行时间

用RAFT和加入全局匹配的RAFT做对比试验，结果表明加入全局匹配后运行速度稍慢，但性能显著提高。

重叠注意力运行时间

与+Swin相比，GMFlowNet需要0.078秒的额外时间，考虑到性能的改进，这种开销是可以接受的。

本文的创新点：

在回归前引入全局匹配来处理大位移
特征提取中使用POLA注意力机制，减少匹配中的模糊区域，提高精度

【论文精读】：Global Matching with Overlapping Attention for Optical Flow Estimation相关推荐

论文阅读：FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks
文章目录 1. 论文总述 2. 利用CNN预测光流的另一种思路 3. 通过堆叠网络来进行光流估计优化的idea来源 4. FlyingThings3D (Things3D) dataset 5. Th ...
论文笔记-Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation
Hello, 这是论文阅读计划的第24篇啦今天介绍的这篇论文是CVPR 2020的论文,非监督的光流估计. 一.背景介绍光流作为图像的运动描述,已经广泛应用于高级视频任务.得益于深度学习的发展,基 ...
【论文简述及翻译】PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume（CVPR 2018）
一.论文简述 1. 第一作者:Deqing 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:光流估计.端到端训练.代价体.金字塔 5. 探索动机:大多数性能最好的方法都采用能量最小化 ...
《论文阅读》FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation
留个笔记自用 FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation 做什么 Scene Flow Estimati ...
每周论文精读05-A2J:AnchortoJointRegressionNetwork for 3D ArticulatedPoseEstimation from a SingleDepthImage
https://download.csdn.net/download/Jason_____Wang/16502249 论文精读--A2J: Anchor-to-Joint Regression Net ...
RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation——精读笔记
RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation 原文:https://arxiv.org/pdf/ ...
论文阅读：Fast Optical Flow using Dense Inverse Search
文章目录 1. 论文总述 2021_09_14补充: 2. 光流鲁棒性遇到的挑战 3. 保持精度的同时提高速度的一些方法 4. Fast inverse search for corresponden ...
（论文解读）RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
目录论文解读之: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow 写在前面回顾光流领域 RAFT Feature Encod ...
Attention is all you need 论文精读笔记 Transformer
目录前言正文 Relative works 模型架构注意力 Attention Position-wise Feed Forward Network Embeddings and ...
【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval 介绍模型跨膜态特征表 ...

【论文精读】：Global Matching with Overlapping Attention for Optical Flow Estimation

摘要

1、想要解决什么问题？question

2、通过什么方法来解决这个问题？method

3、作者给出的结果是什么？answer

引言

1、研究背景

2、当前研究进展

3、存在的问题

4、灵感来源

相关工作

1、将光流问题描述为连续的全局能量函数优化问题

2、将光流作为回归网络

3、注意力机制

研究方法

1、大背景特征提取

注意力计算

POLA（Patch-based overlapping attention）

2、全局匹配

4D代价体计算

匹配置信度计算

匹配的选择和流的生成

3、优化

4、监督

匹配损失

优化损失

总损失

实验

1、定量评估

不同位移下的表现

跨域评估[26,42,25]

在标准基准上评估[26,42,25]

2、定性评估

可视化估计流

可视化代价体

3、消融实验

4、效率

全局匹配运行时间

重叠注意力运行时间

本文的创新点：

【论文精读】：Global Matching with Overlapping Attention for Optical Flow Estimation相关推荐

最新文章

热门文章