论文笔记-Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation

Hello，这是论文阅读计划的第24篇啦

今天介绍的这篇论文是CVPR 2020的论文，非监督的光流估计。

一、背景介绍

光流作为图像的运动描述，已经广泛应用于高级视频任务。得益于深度学习的发展，基于学习的光流方法具有相当高的精确度和高效的推理能力，正逐渐取代经典的基于变分的方法。然而，在现实中很难收集到稠密光流的基本事实，这使得大多数有监督的方法严重依赖于大规模的合成数据集，并且当模型转移到现实世界时，区域差异导致潜在的退化。

从另一个角度来看，许多著作提出了以无监督的方式学习光流，其中ground truth是不必要的。这些工作旨在从视图合成训练具有目标的网络，即优化参考图像和流动扭曲目标图像之间的差异。这个目标是基于亮度恒定的假设，这对于具有挑战性的场景来说是明显的，例如极端亮度或部分遮挡。因此，需要适当的正则化，如结论处理或局部平滑。最近的研究集中在更复杂的规则，如3D几何约束和全局极线约束。在本文中，我们不依赖几何规则，而是重新思考任务本身以提高精度。

二、相关背景

受监督的光流。

从FlowNet 开始，已经提出了各种具有监督学习的光流网络，例如FlowNet2 ，PWC-Net ，IRR-PWC 。这些方法在精度上与精心设计的变分法相当，并且在推理过程中更有效。然而，超可视化方法的成功在很大程度上依赖于大规模合成数据集，这导致了在转移到现实应用时的潜在退化。作为一种选择，我们深入到无监督的方法，以减轻密集光流的地面真实的需要。

无监督光流。

于等人首先介绍了一种具有亮度恒常性和运动光滑性的光流学习方法，它类似于传统的能量最小化方法。其他研究通过遮挡再现，多帧扩展，外极约束，具有单目深度的3D几何约束和立体深度来提高精度。虽然这些方法变得复杂，但与最先进的监督方法仍有很大差距。最近的工作通过以知识提炼的方式学习被遮挡的像素流来改进性能，而这些工作中的两阶段训练是微不足道的。我们的方法不是研究复杂的几何约束，而是专注于基本的训练策略。它通过简单的单阶段学习框架将遮挡提取的情况推广到更具挑战性的场景。

增强学习。

数据扩充是改进培训最简单的方法之一。最近，有一些关于将增强集成到学习框架中的新东西。Mounsaveng等人和肖等人建议使用空间转换器网络来增强学习数据，以生成更复杂的样本。谢等提出通过一致性训练在半监督任务中使用增强。彭等介绍了通过联合训练特定任务网络来优化数据扩充。作为自动化领域的一个新趋势，提出了几种自动搜索最佳扩充策略的方法。所有这些方法都是针对监督或半监督学习的。在这项工作中，我们提出了一个简单而有效的方法来整合丰富的增强与无监督的优化流。我们建议使用原始样本的可靠预测作为自我监督信号来指导扩充样本的预测。

三、研究内容 & 贡献

光流的无监督学习利用了来自视图合成的监督，已经成为有前途的监督方法的替代方法。然而，在具有挑战性的场景中，无监督学习的目标可能是不可靠的。在这项工作中，我们解决了上述两个问题与一个新的无监督学习框架的光流。具体来说，对于第一个问题，使用不同的变换来生成具有挑战性的场景，例如弱光、过度曝光、大位移或部分遮挡。对于第二个问题，我们不是用蒸馏来优化两个模型，而是在常规学习框架中简单地扭曲训练步骤，用变换图像的输入运行一个额外的前向，并且来自第一个前向通道的变换流被视为可靠的监督。由于来自转换的自我监督避免了无监督的目标在挑战场景中变得模糊，我们的框架允许网络通过与原始样本类比来学习，并逐渐掌握处理挑战样本的能力。此外，我们的方法在使用更少参数的情况下，获得了与最近的完全超可视化方法相竞争的结果。

四、方法

基于数据集中的原始图像对增强图像进行采样。在一般的方法中，网络是用从扩充数据集采样的数据来训练的。相比之下，我们在原始数据上训练网络，但是利用增强样本作为正则化。

我们的方法的基本假设是，扩充带来了具有挑战性的场景，在这些场景中，无监督的损失是不可靠的，而原始数据的转换预测可以提供可靠的自我监督。因此，我们优化变换样本的一致性，而不是视图合成的目标。我们遵循在光流的监督学习中通常使用的广义Charbonnier函数:
Laug ∼∑p(∣S(U‾12(p))−U‾12∗(p)∣+ϵ)q\mathcal{L}_{\text {aug }} \sim \sum_{\mathbf{p}}\left(\left|\mathcal{S}\left(\overline{\mathbf{U}}_{12}(\mathbf{p})\right)-\overline{\mathbf{U}}_{12}^{*}(\mathbf{p})\right|+\epsilon\right)^{q} Laug ∼p∑(∣∣∣S(U12(p))−U12∗(p)∣∣∣+ϵ)q

主要思想的一些例子。使用相同的网络分别预测原始图像和变换图像的光流。(a)空间变换和外观变换产生大位移和低亮度的场景。(b)遮挡变换引入了额外的遮挡。从原始预测U12转换而来的伪标签U12可以提供可靠的监控。

网络结构：

损失函数：

Lall =Lph(U12)+λ1Lsm(U12)⏟1st forward +λ2Laug (S(U‾12),U‾12∗)⏟2nd forward ,\mathcal{L}_{\text {all }}=\underbrace{\mathcal{L}_{\mathrm{ph}}\left(\mathbf{U}_{12}\right)+\lambda_{1} \mathcal{L}_{\mathrm{sm}}\left(\mathbf{U}_{12}\right)}_{1 \text { st forward }}+\underbrace{\lambda_{2} \mathcal{L}_{\text {aug }}\left(\mathcal{S}\left(\overline{\mathbf{U}}_{12}\right), \overline{\mathbf{U}}_{12}^{*}\right)}_{\text {2nd forward }}, Lall =1 st forward Lph(U12)+λ1Lsm(U12)+2nd forward λ2Laug (S(U12),U12∗),

五、结果 & 结论

本文提出了一个新的框架，在增强的自我监督下，从未标记的图像序列中学习光流。为了避免视图合成在转换数据上不可靠的目标，我们通过为转换图像添加另一个前向通道来扭曲基本学习框架，其中监督来自原始图像的转换预测。此外，还提出了一种轻量级网络及其多帧扩展。大量实验表明，我们的方法显著提高了准确率，具有很高的兼容性和泛化能力。我们相信，我们的学习框架可以进一步与其他几何约束结合，或者转移到其他视觉几何任务，如深度或场景流估计。