Learning-based Video Motion Magnification

哈喽,大家好呀!
这周有点开心,看到了一篇很有趣的论文。最近天气好热,明明已经十一月了,最近的温度却一直在25度以上,甚至有种可以过夏天,穿裙子的感觉。昨天纠结好久,想着今天要不要穿旗袍,因为买来之后就没怎么穿出去过,但又觉得毕竟是要去学校的,还是算了(注意仪表哈哈)。
听说JOJO要来上海了,好开心!我真的好喜欢茸茸小天使!但是没找到帅气的动图,哭哭。真的好爱茸茸!!!放个迪奥大人的动图吧!

(今日论文BGM《黄金处刑曲》
让我们带着黄金精神,开始读这篇我觉得非常有价值的论文!

这篇文章的贡献如下:
1、提出来第一个基于学习的视频运动放大方法,它实现了高质量的放大和更少的边缘伪影(如下图所示,可以看到吊车图片比左边的图像效果更好),并具有更好的噪声特性。
2、提出了一个合成数据生成方法,捕捉小的运动,允许学习的滤波器在真实视频中很好地推广。
接下来,我们分别来讲,首先来看模型,接下来再看数据集

Problem statement

给定一个图像其中,x表示位置,t表示时间,表示关于x,t的运动场,运动放大的目标即放大运动使得,其中,为放大因子。在实际应用中,我们往往只想要放大感兴趣区域,如下:


其中,是选择器,用来选择感兴趣区域(ROI),通常是一个时域带通滤波器。
为了简化训练,只考虑一个简单的两帧输入情况。

模型结构

整个模型分为三个部分,编码器,操纵器和解码器,如下所示:

编码器作为一个空间分解滤波器,提取一个运动表示。
操纵器接收此运动表示并用来放大运动(乘以放大因子)。
最后,解码器将修改后的表示重构为所产生的运动放大帧。

编码器和解码器是完全基于卷积的,并使用残差快来生成高质量的输出。我们在编码器开始时下采样,在解码器结束时进行上采样。实验发现,编码器中有3个3*3的残差块,解码器中有9个残差块效果最好。
我们引入编码器的另一个输出,它表示强度信息(视觉表示),类似于可操纵金字塔分解的振幅。(如图所示有Motion repr.和Visual repr.)这种表示可以减少不期望的强度放大以及最终输出中的噪声。

关于操纵器,我们想学习一个运动表示,
它是线性的。因此,我们的操纵器通过取两个给定帧的运动表示之间的差异,并直接取差之后乘以一个放大系数。
在实际应用中,我们发现操纵器的一些非线性提高了结果的质量。

这里g代表一个33的卷积后面跟ReLU,h是一个33的卷积后面跟一个3*3的残差块。如下图对比了线性和非线性的效果,可以看到非线性的效果更好。

数据集

接下来,我们来看数据集

前景对象和背景图像

我们利用真实的图像数据集因为它们具有真实的纹理。我们使用了来自MS COCO数据集的20万张图像作为背景,我们使用了7000张PASCA VOC数据集分割对象作为前景。随着运动被放大,填充被遮挡区域变得很重要,所以我们将前景对象直接粘贴到背景上进行模拟遮挡。每个训练样本包含7到15个前景对象,从其原始大小进行随机缩放。我们将缩放因子限制在2,以避免纹理模糊。背景和每个物体的运动数量和方向也是随机的,以确保网络学习局部运动。

低对比度的纹理、全局运动和静态场景
上面所讲的训练示例充满了前景和背景相遇的尖锐和强烈的边缘。这导致网络在低对比度纹理上泛化较差。为了提高在这些情况下的泛化性,我们补充了两个例子:
(1)背景是模糊的
(2)在场景中只有一个移动的背景来模仿一个大的物体
这些提高了在真实视频中大的和低对比度的物体上的性能。

小的运动可能与噪声难以区分。我们发现,在数据中包含静态场景有助于网络学习仅由噪声引起的变化。我们再加两个子集,其中:
(1)场景完全是静态的
(2)背景没有移动,但前景在移动
有了这些,我们的数据集总共包含5个部分,每个部分包含20,000个384*384的图像样本。

结果

定性比较

我们的方法很好地保留了边缘,并且具有较少的振铃伪影。如下图,显示了平衡和婴儿序列的比较,基于相位的方法显示了明显的振铃伪影,而我们的方法几乎是无伪影的。这是因为我们的表示是从例子运动端到端训练出来的,而基于相位的方法依赖于手工设计的多尺度表示,不能很好地处理强边。

定量分析

在所有的测试中,我们的方法比基于相位的方法表现得更好。如图9-(a)所示,我们的亚像素性能一直保持得很高,直到0.01像素,并且超过了1个标准差 当运动增加到0.02像素以上时,基于相位的性能。有趣的是,尽管只训练了高达100⇥的放大倍数,但该网络在最小的inpu下表现得相当好 t运动(0.01),其放大系数达到1000⇥。这表明,我们的网络更受它需要产生的输出运动量的限制,而不是它所给出的放大系数。

图9-(b、c)显示了在不同输入运动量的噪声条件下的测试结果。在所有情况下,我们的方法的性能始终高于基于相位的方法 ,当噪声因子增加到1.0以上时,它迅速下降到基线水平。比较不同的输入运动,随着输入运动变小,我们的性能下降得更快( 见图9-(b、c))。这是意料之中的,因为当运动很小时,就很难区分实际的运动和噪声。

【菜鸡读论文】Learning-based Video Motion Magnification相关推荐

  1. 【菜鸡读论文】Research on Micro-Expression Spotting Method Based on Optical Flow Features

    Research on Micro-Expression Spotting Method Based on Optical Flow Features 哈喽,大家好,从今天开始更<菜鸡读论文&g ...

  2. 【菜鸡读论文】Face2Exp: Combating Data Biases for Facial Expression Recognition

    [菜鸡读论文]Face2Exp: Combating Data Biases for Facial Expression Recognition 最近上海开始降温了,而且常常下雨,天气开始变得好冷啊! ...

  3. 【菜鸡读论文】AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition

    [菜鸡读论文]AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition 芜湖!又到了每周分享 ...

  4. 【菜鸡读论文】Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facia

    Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expre ...

  5. 【菜鸡读论文】Former-DFER: Dynamic Facial Expression Recognition Transformer

    Former-DFER: Dynamic Facial Expression Recognition Transformer 哈喽,大家好呀!本菜鸡又来读论文啦!先来个酷炫小叮当作为我们的开场! 粉红 ...

  6. 运动放大、视频放大、Video Motion Magnification、Video Magnification

    目录 背景 方法 拉格朗日法 欧拉法 线性欧拉方法 非线性欧拉方法 深度学习法 总结 挖坑,运动放大.之前研究过一段时间相关内容,比较小众较为古老的领域,才疏学浅,我会把我了解到的知识在本系列中写出来 ...

  7. 论文详读:LEMNA: Explaining Deep Learning based Security Applications

    我以我ppt的内容顺序介绍一下这篇论文,希望有错误的地方大家可以帮我指出嘻嘻 1.论文出处 论文名:LEMNA: Explaining Deep Learning based Security App ...

  8. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  9. 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding

    [论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

最新文章

  1. 实用javaScript技术-屏蔽总结
  2. Hello Android – 迈出android开发第一步
  3. Visual Guide to NoSQL Systems
  4. ABP入门系列(5)——展现层实现增删改查
  5. xcode10 自定义代码块
  6. c语言100位整数变量声明_C ++程序动态声明一个整数变量并打印其内存地址
  7. java基础学习笔记(一)
  8. 崔华 oracle简历,2013数据库大会:崔华-基于Oracle的SQL优化案例分析
  9. python read函数报错_python 使用read_csv读取 CSV 文件时报错
  10. 使用路由器配置DHCP
  11. wifi分析仪怎么看哪个信道好_一定得学的切换WiFi信道技巧,让你的网速如飞!...
  12. 字符转 ASCII 码
  13. 在html中图文结合的怎么写,字形合一,网页设计中的图文配
  14. python接私活王者_Python从青铜到王者这5个实战项目要会
  15. 安卓眼球追踪_iPhone 11 Pro 可配合 Eyeware Beam 眼球追踪玩 PC 大屏游戏
  16. 应用商店上架被拒解决办法
  17. excal怎么设置模板阈值
  18. 个人深度学习工作站配置指南
  19. SpringMVC-restful风格实现简单的页面增删改查
  20. 轻音乐底部评论中的美文美句

热门文章

  1. 【案例】使用CSS3实现天空变化效果
  2. 计算机网络基础中国石油大学,2017中国石油大学继续教育计算机网络基础答案...
  3. 6-2 两个字符串穿插 (10 分)
  4. 百度网盘怎么用迅雷下载文件?
  5. 大连理工大学21年软件学院考研情况 学硕一志愿不足需要调剂!专硕录取平均分接近400!
  6. 微软学生中心开始对学生免费赠送Windows Server 2008 R2标准版
  7. 做一个Java程序员,数学一定要好吗?
  8. PAT乙级真题全集-PAT (Basic Level) Practise (中文)
  9. 定义主函数main()
  10. 多旋翼飞行器设计与控制(二)—— 基本组成