Hello, 这是论文阅读计划的第24篇啦

今天介绍的这篇论文是CVPR 2020的论文,非监督的光流估计。

一、背景介绍

光流作为图像的运动描述,已经广泛应用于高级视频任务。得益于深度学习的发展,基于学习的光流方法具有相当高的精确度和高效的推理能力,正逐渐取代经典的基于变分的方法。然而,在现实中很难收集到稠密光流的基本事实,这使得大多数有监督的方法严重依赖于大规模的合成数据集,并且当模型转移到现实世界时,区域差异导致潜在的退化。

从另一个角度来看,许多著作提出了以无监督的方式学习光流,其中ground truth是不必要的。这些工作旨在从视图合成训练具有目标的网络,即优化参考图像和流动扭曲目标图像之间的差异。这个目标是基于亮度恒定的假设,这对于具有挑战性的场景来说是明显的,例如极端亮度或部分遮挡。因此,需要适当的正则化,如结论处理或局部平滑。最近的研究集中在更复杂的规则,如3D几何约束和全局极线约束。在本文中,我们不依赖几何规则,而是重新思考任务本身以提高精度。

二、相关背景

受监督的光流。

从FlowNet 开始,已经提出了各种具有监督学习的光流网络,例如FlowNet2 ,PWC-Net ,IRR-PWC 。这些方法在精度上与精心设计的变分法相当,并且在推理过程中更有效。然而,超可视化方法的成功在很大程度上依赖于大规模合成数据集,这导致了在转移到现实应用时的潜在退化。作为一种选择,我们深入到无监督的方法,以减轻密集光流的地面真实的需要。

无监督光流。

于等人首先介绍了一种具有亮度恒常性和运动光滑性的光流学习方法,它类似于传统的能量最小化方法。其他研究通过遮挡再现,多帧扩展,外极约束,具有单目深度的3D几何约束和立体深度来提高精度。虽然这些方法变得复杂,但与最先进的监督方法仍有很大差距。最近的工作通过以知识提炼的方式学习被遮挡的像素流来改进性能,而这些工作中的两阶段训练是微不足道的。我们的方法不是研究复杂的几何约束,而是专注于基本的训练策略。它通过简单的单阶段学习框架将遮挡提取的情况推广到更具挑战性的场景。

增强学习。

数据扩充是改进培训最简单的方法之一。最近,有一些关于将增强集成到学习框架中的新东西。Mounsaveng等人和肖等人建议使用空间转换器网络来增强学习数据,以生成更复杂的样本。谢等提出通过一致性训练在半监督任务中使用增强。彭等介绍了通过联合训练特定任务网络来优化数据扩充。作为自动化领域的一个新趋势,提出了几种自动搜索最佳扩充策略的方法。所有这些方法都是针对监督或半监督学习的。在这项工作中,我们提出了一个简单而有效的方法来整合丰富的增强与无监督的优化流。我们建议使用原始样本的可靠预测作为自我监督信号来指导扩充样本的预测。

三、研究内容 & 贡献

光流的无监督学习利用了来自视图合成的监督,已经成为有前途的监督方法的替代方法。然而,在具有挑战性的场景中,无监督学习的目标可能是不可靠的。在这项工作中,我们解决了上述两个问题与一个新的无监督学习框架的光流。具体来说,对于第一个问题,使用不同的变换来生成具有挑战性的场景,例如弱光、过度曝光、大位移或部分遮挡。对于第二个问题,我们不是用蒸馏来优化两个模型,而是在常规学习框架中简单地扭曲训练步骤,用变换图像的输入运行一个额外的前向,并且来自第一个前向通道的变换流被视为可靠的监督。由于来自转换的自我监督避免了无监督的目标在挑战场景中变得模糊,我们的框架允许网络通过与原始样本类比来学习,并逐渐掌握处理挑战样本的能力。此外,我们的方法在使用更少参数的情况下,获得了与最近的完全超可视化方法相竞争的结果。

四、方法

基于数据集中的原始图像对增强图像进行采样。在一般的方法中,网络是用从扩充数据集采样的数据来训练的。相比之下,我们在原始数据上训练网络,但是利用增强样本作为正则化。

我们的方法的基本假设是,扩充带来了具有挑战性的场景,在这些场景中,无监督的损失是不可靠的,而原始数据的转换预测可以提供可靠的自我监督。因此,我们优化变换样本的一致性,而不是视图合成的目标。我们遵循在光流的监督学习中通常使用的广义Charbonnier函数:
Laug ∼∑p(∣S(U‾12(p))−U‾12∗(p)∣+ϵ)q\mathcal{L}_{\text {aug }} \sim \sum_{\mathbf{p}}\left(\left|\mathcal{S}\left(\overline{\mathbf{U}}_{12}(\mathbf{p})\right)-\overline{\mathbf{U}}_{12}^{*}(\mathbf{p})\right|+\epsilon\right)^{q} Laug ​∼p∑​(∣∣∣​S(U12​(p))−U12∗​(p)∣∣∣​+ϵ)q

主要思想的一些例子。使用相同的网络分别预测原始图像和变换图像的光流。(a)空间变换和外观变换产生大位移和低亮度的场景。(b)遮挡变换引入了额外的遮挡。从原始预测U12转换而来的伪标签U12可以提供可靠的监控。

网络结构:

损失函数:

Lall =Lph(U12)+λ1Lsm(U12)⏟1st forward +λ2Laug (S(U‾12),U‾12∗)⏟2nd forward ,\mathcal{L}_{\text {all }}=\underbrace{\mathcal{L}_{\mathrm{ph}}\left(\mathbf{U}_{12}\right)+\lambda_{1} \mathcal{L}_{\mathrm{sm}}\left(\mathbf{U}_{12}\right)}_{1 \text { st forward }}+\underbrace{\lambda_{2} \mathcal{L}_{\text {aug }}\left(\mathcal{S}\left(\overline{\mathbf{U}}_{12}\right), \overline{\mathbf{U}}_{12}^{*}\right)}_{\text {2nd forward }}, Lall ​=1 st forward Lph​(U12​)+λ1​Lsm​(U12​)​​+2nd forward λ2​Laug ​(S(U12​),U12∗​)​​,

五、结果 & 结论


本文提出了一个新的框架,在增强的自我监督下,从未标记的图像序列中学习光流。为了避免视图合成在转换数据上不可靠的目标,我们通过为转换图像添加另一个前向通道来扭曲基本学习框架,其中监督来自原始图像的转换预测。此外,还提出了一种轻量级网络及其多帧扩展。大量实验表明,我们的方法显著提高了准确率,具有很高的兼容性和泛化能力。我们相信,我们的学习框架可以进一步与其他几何约束结合,或者转移到其他视觉几何任务,如深度或场景流估计。

论文笔记-Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation相关推荐

  1. 论文阅读:FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks

    文章目录 1. 论文总述 2. 利用CNN预测光流的另一种思路 3. 通过堆叠网络来进行光流估计优化的idea来源 4. FlyingThings3D (Things3D) dataset 5. Th ...

  2. 《论文阅读》FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation

    留个笔记自用 FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation 做什么 Scene Flow Estimati ...

  3. 【论文简述及翻译】PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume(CVPR 2018)

    一.论文简述 1. 第一作者:Deqing 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:光流估计.端到端训练.代价体.金字塔 5. 探索动机:大多数性能最好的方法都采用能量最小化 ...

  4. 论文笔记:Contrastive Adaptation Network for Unsupervised Domain Adaptation

    1. 任务设置 U n s u p e r v i s e d D o m a i n A d a p t a t i o n f o r I m a g e C l a s s i f i c a ...

  5. 论文笔记1:Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views

    快速且鲁棒的多视角下多人三维姿态估计 作者讲解:https://www.bilibili.com/video/BV1K441157Xf?from=search&seid=52494766343 ...

  6. 【论文笔记——DIM】Learning Deep Representations By Mutual Information Estimation and Maximization

    arxiv:https://arxiv.org/abs/1808.06670 code:https://github.com/rdevon/DIM report video:https://www.y ...

  7. 论文笔记--Spatial-Temporal Fusion Graph Neural Networks for Traffic Flow Forecasting

    在交通预测问题上,现有的框架通常利用给定的空间邻接图和复杂的机制来建模空间和时间关联.作者认为使用给定的空间邻接图会限制模型的有效时空相关性学习,并且它们通常使用单独的模块来实现空间和时间相关性,或者 ...

  8. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  9. 论文笔记(一):se(3)-TrackNet: Data-driven 6D Pose Tracking by ...... in Synthetic Domains

    se(3)- TrackNet:Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains 文章概 ...

最新文章

  1. Python Qt GUI设计:QSlider滑动条类(基础篇—16)
  2. SASS的一些使用体会(安装-配置-开启firefox的调试)
  3. apache rewrite 支持post 数据
  4. Python open()函数用法详解
  5. deepin 15.11 docker 安装命令
  6. Text store debug FM CRM_TEXT_MAINTAIN_OW
  7. js判断用户是否离开当前页面
  8. TechEmpower Web 框架性能第19轮测试结果正式发布,ASP.NET Core在主流框架中拔得头筹...
  9. apache2.4.39 php,win7 配置AMP环境(apache2.4.39 + php7.1.28)
  10. 读读objc源码(二):weak类型指针的实现
  11. 项目助理这个工作怎么样_影楼化妆师这个工作怎么样?
  12. 页面间参数传递---基于Vue的uniapp手机端_前端UI_uview工作笔记005
  13. [Aaronyang] 写给自己的WPF4.5 笔记[2依赖属性]
  14. 全新版本的SoundSource for Mac 优质的音频控制软件
  15. 命令行方式登录PostgreSQL、创建用户和数据库并赋权
  16. vue 同步加载_如何在vue里实现同步阻塞请求,请求完成之前不加载页面或组件?...
  17. java 从socket读数据,从数据读取TcpClient不如socket
  18. 计算机领域论文 网站,各类论文网站大全
  19. 说说汉古中医对新型冠状病毒感染的认识和防治
  20. 【http】微信网站使用的是http80端口或者https443端口访问

热门文章

  1. 微信公众号的7个未来
  2. 10.2.0.1到12.2.0.1数据库迁移expdp+dblink导入失败
  3. 一知半解学CubeMX——GPIO:LED
  4. 韩国政府反对ICO,EOS联合创始人Brock Pierce离职 | 区块链日报
  5. Golang - [Iris] 日志写入与日志分割
  6. tooth的用法_tooth的用法总结大全
  7. MAC下安装REDIS和REDIS可视化工具RDM并连接REDIS
  8. matlab主导极点怎么求,Matlab - 以编程方式查找主导极点
  9. 微信三级分销系统开发说明
  10. 万科成都再现欺诈门,业主集体抵制狗洞式入户