Learning-based Video Motion Magnification

哈喽，大家好呀！
这周有点开心，看到了一篇很有趣的论文。最近天气好热，明明已经十一月了，最近的温度却一直在25度以上，甚至有种可以过夏天，穿裙子的感觉。昨天纠结好久，想着今天要不要穿旗袍，因为买来之后就没怎么穿出去过，但又觉得毕竟是要去学校的，还是算了（注意仪表哈哈）。
听说JOJO要来上海了，好开心！我真的好喜欢茸茸小天使！但是没找到帅气的动图，哭哭。真的好爱茸茸！！！放个迪奥大人的动图吧！

（今日论文BGM：《黄金处刑曲》）
让我们带着黄金精神，开始读这篇我觉得非常有价值的论文！

这篇文章的贡献如下：
1、提出来第一个基于学习的视频运动放大方法，它实现了高质量的放大和更少的边缘伪影（如下图所示，可以看到吊车图片比左边的图像效果更好），并具有更好的噪声特性。
2、提出了一个合成数据生成方法，捕捉小的运动，允许学习的滤波器在真实视频中很好地推广。
接下来，我们分别来讲，首先来看模型，接下来再看数据集

Problem statement

给定一个图像其中，x表示位置，t表示时间，表示关于x，t的运动场，运动放大的目标即放大运动使得，其中，为放大因子。在实际应用中，我们往往只想要放大感兴趣区域，如下：

其中，是选择器，用来选择感兴趣区域（ROI），通常是一个时域带通滤波器。
为了简化训练，只考虑一个简单的两帧输入情况。

模型结构

整个模型分为三个部分，编码器，操纵器和解码器，如下所示：

该编码器作为一个空间分解滤波器，提取一个运动表示。
操纵器接收此运动表示并用来放大运动（乘以放大因子）。
最后，解码器将修改后的表示重构为所产生的运动放大帧。

编码器和解码器是完全基于卷积的，并使用残差快来生成高质量的输出。我们在编码器开始时下采样，在解码器结束时进行上采样。实验发现，编码器中有3个3*3的残差块，解码器中有9个残差块效果最好。
我们引入编码器的另一个输出，它表示强度信息（视觉表示），类似于可操纵金字塔分解的振幅。（如图所示有Motion repr.和Visual repr.）这种表示可以减少不期望的强度放大以及最终输出中的噪声。

关于操纵器，我们想学习一个运动表示，
它是线性的。因此，我们的操纵器通过取两个给定帧的运动表示之间的差异，并直接取差之后乘以一个放大系数。
在实际应用中，我们发现操纵器的一些非线性提高了结果的质量。

这里g代表一个33的卷积后面跟ReLU，h是一个33的卷积后面跟一个3*3的残差块。如下图对比了线性和非线性的效果，可以看到非线性的效果更好。

数据集

接下来，我们来看数据集

前景对象和背景图像

我们利用真实的图像数据集因为它们具有真实的纹理。我们使用了来自MS COCO数据集的20万张图像作为背景，我们使用了7000张PASCA VOC数据集分割对象作为前景。随着运动被放大，填充被遮挡区域变得很重要，所以我们将前景对象直接粘贴到背景上进行模拟遮挡。每个训练样本包含7到15个前景对象，从其原始大小进行随机缩放。我们将缩放因子限制在2，以避免纹理模糊。背景和每个物体的运动数量和方向也是随机的，以确保网络学习局部运动。

低对比度的纹理、全局运动和静态场景
上面所讲的训练示例充满了前景和背景相遇的尖锐和强烈的边缘。这导致网络在低对比度纹理上泛化较差。为了提高在这些情况下的泛化性，我们补充了两个例子：
（1）背景是模糊的
（2）在场景中只有一个移动的背景来模仿一个大的物体
这些提高了在真实视频中大的和低对比度的物体上的性能。

小的运动可能与噪声难以区分。我们发现，在数据中包含静态场景有助于网络学习仅由噪声引起的变化。我们再加两个子集，其中：
（1）场景完全是静态的
（2）背景没有移动，但前景在移动
有了这些，我们的数据集总共包含5个部分，每个部分包含20,000个384*384的图像样本。

结果

定性比较

我们的方法很好地保留了边缘，并且具有较少的振铃伪影。如下图，显示了平衡和婴儿序列的比较，基于相位的方法显示了明显的振铃伪影，而我们的方法几乎是无伪影的。这是因为我们的表示是从例子运动端到端训练出来的，而基于相位的方法依赖于手工设计的多尺度表示，不能很好地处理强边。

定量分析

在所有的测试中，我们的方法比基于相位的方法表现得更好。如图9-(a)所示，我们的亚像素性能一直保持得很高，直到0.01像素，并且超过了1个标准差当运动增加到0.02像素以上时，基于相位的性能。有趣的是，尽管只训练了高达100⇥的放大倍数，但该网络在最小的inpu下表现得相当好 t运动（0.01），其放大系数达到1000⇥。这表明，我们的网络更受它需要产生的输出运动量的限制，而不是它所给出的放大系数。

图9-（b、c）显示了在不同输入运动量的噪声条件下的测试结果。在所有情况下，我们的方法的性能始终高于基于相位的方法，当噪声因子增加到1.0以上时，它迅速下降到基线水平。比较不同的输入运动，随着输入运动变小，我们的性能下降得更快( 见图9-（b、c））。这是意料之中的，因为当运动很小时，就很难区分实际的运动和噪声。

【菜鸡读论文】Learning-based Video Motion Magnification相关推荐

【菜鸡读论文】Research on Micro-Expression Spotting Method Based on Optical Flow Features
Research on Micro-Expression Spotting Method Based on Optical Flow Features 哈喽,大家好,从今天开始更<菜鸡读论文&g ...
【菜鸡读论文】Face2Exp: Combating Data Biases for Facial Expression Recognition
[菜鸡读论文]Face2Exp: Combating Data Biases for Facial Expression Recognition 最近上海开始降温了,而且常常下雨,天气开始变得好冷啊! ...
【菜鸡读论文】AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition
[菜鸡读论文]AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition 芜湖!又到了每周分享 ...
【菜鸡读论文】Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facia
Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expre ...
【菜鸡读论文】Former-DFER: Dynamic Facial Expression Recognition Transformer
Former-DFER: Dynamic Facial Expression Recognition Transformer 哈喽,大家好呀!本菜鸡又来读论文啦!先来个酷炫小叮当作为我们的开场! 粉红 ...
运动放大、视频放大、Video Motion Magnification、Video Magnification
目录背景方法拉格朗日法欧拉法线性欧拉方法非线性欧拉方法深度学习法总结挖坑,运动放大.之前研究过一段时间相关内容,比较小众较为古老的领域,才疏学浅,我会把我了解到的知识在本系列中写出来 ...
论文详读：LEMNA: Explaining Deep Learning based Security Applications
我以我ppt的内容顺序介绍一下这篇论文,希望有错误的地方大家可以帮我指出嘻嘻 1.论文出处论文名:LEMNA: Explaining Deep Learning based Security App ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

【菜鸡读论文】Learning-based Video Motion Magnification

Learning-based Video Motion Magnification

Problem statement

模型结构

数据集

结果

【菜鸡读论文】Learning-based Video Motion Magnification相关推荐

最新文章

热门文章