DEFORMABLE 3D CONVOLUTION FOR VIDEO SUPER-RESOLUTION

`~前言~`

3D卷积可以比2D卷积更关注时空特征。且对于3D Net来说，在所有层使用3×3×3的小卷积核效果更好。

以前的方法多是在空间域上提取特征，在时域上进行动作补偿。因此视频序列中的时空信息无法被共同利用，超分辨视频序列的相干性被削弱。

由于视频帧在时间维度上提供了额外的信息，因此充分利用视频帧的时空依赖性来提高视频SR的性能是非常重要的。

由于三维卷积（C3D）可以同时建模外观与运动，于是C3D应用于视频。但是，C3D的接收域固定，不能有效的模拟大动作。

为了补短板，将可变形卷积与C3D结合，实现可变形3D卷积（D3D）。

D3D仅在空间维度上执行核变形去融合时间先验（时间上越接近参考帧越重要）。

C3D：普通的3D卷积

对输入的特征图用3D卷积采样
通过函数w对采样值计算加权和

具体来说，通过一个3×3×3卷积可以被表示为：

$$y(P_0)=\sum^{N}_{n=1}w(P_n)·x(P_0+P_n)
$$

P_0代表输出特征中的一个位置

P_n代表n_{th}在3×3×3卷积采样网格G中的值。

N=27(3×3×3)是采样网格的尺寸。

Fig.1中所示，在输入特征图中的3×3×3的浅橘色立方体是普通的C3D采样网格，用于生成输出特征中的深橙色立方体。

D3D 可变3D卷积

D3D通过可学习的偏置增大空间接收域来提升外观与动作的建模能力。

Fig.1 C×T×W×H的输入特征图一开始被喂进C3D产生2N×T×W×H的偏置。偏移特征的通道数量被设置为2N，是为了2D空间形变（即沿着高度和宽度维度形变）。学习到的偏置用于指导C3D网格的形变去生成D3D网格。最后，D3D网格被用于产生输出特征。

D3D的表达式为：

$$
y(P_0)=\sum^N_{n=1}w(p_n)·x(p_0+p_n+△p_n)
$$

其中的△p_n代表第n_{th}的值在3×3×3卷积采样网格中对应的偏置。

P_0代表输出特征中的一个位置

P_n代表n_{th}在3×3×3卷积采样网格G中的值。

N=27(3×3×3)是采样网格的尺寸。

D3DNET

一个带有7帧的视频序列被输入一个C3D层产生特征图。

接着喂进5个resD3D层（Fig.2（b）），以达到动作感知深度时空特征提取。

然后，输入瓶颈层去融合提取的特征。

最后这些融合的特征被6个联级残差模块（Fig.2.（c））处理，一个超像素层用于重建。

总结

提出D3Dnet来充分利用时空信息
融合可变卷积与C3D卷积为D3D卷积，拥有高效的时空挖掘与自适应运动补偿。
计算效率高。

效果

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution相关推荐

[video super resolution] ESPCN论文笔记
ESPCN是twitter2017年提出来的实时视频超分辨率的方法.下面记录下对论文的一些理解. 上面这张图就是整个网络的架构.输入t帧的相邻图像,t-1和t+1,在具体的网络中,有输入连续3张,5张 ...
时序图如何表现分支_【Video Recognition】在视频分类任务中如何高效使用3D卷积...
这是我发布的第1篇文章,在这个专栏里,我会持续写一些最近看的文章,希望能够与大家有所交流. 知乎对Markdown不是非常支持,排版上总是不够漂亮,可以访问我的简书主页阅读对应的文章. 欢迎访问我的知 ...
深度学习：从2D卷积到3D卷积的简单理解
很多人容易混淆2D卷积和3D卷积的概念,把多通道的2D卷积当成3D卷积,本文展示了一种直观理解2D卷积和3D卷积的方式. 2D卷积单通道首先了解什么是卷积核,卷积核(filter)是由一组参数构成 ...
卷积神经网络（2D卷积神经网络和3D卷积神经网络理解）
前言卷积神经⽹络(convolutional neural network,CNN)是⼀类强⼤的神经⽹络,正是为处理图像数据而设计的.基于卷积神经⽹络结构的模型在计算机视觉领域中已经占主导地位,当 ...
深度学习中常见卷积（普通卷积、1×1卷积、转置卷积、可分离卷积、膨胀（空洞）卷积、3D卷积）
总是在网络上看到各种名词的卷积,但是有搞不懂是什么含义,于是结合网上查阅的资料,总结一下.目前比较常用的卷积主要有常规的卷积.1×1卷积.转置卷积.可分离卷积.膨胀卷积.3D卷积. 以下是一些 ...
3D 卷积神经网络视频动作识别
转自:http://blog.csdn.net/AUTO1993/article/details/70948249 https://zhuanlan.zhihu.com/p/25912625 http ...
python图像人类检测_OpenCV人类行为识别（3D卷积神经网络）
1. 3D卷积神经网络相比于2D 卷积神经网络,3D卷积神经网络更能很好的利用视频中的时序信息.因此,其主要应用视频.行为识别等领域居多.3D卷积神经网络是将时间维度看成了第三维. 人类行为识别的实 ...
CVPR2017精彩论文解读：结合序列学习和交叉形态卷积的3D生物医学图像分割
雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<结合序列学习和交叉形态卷积的3D生物医学 ...
【CVPR 2021】Cylinder3D：用于LiDAR点云分割的圆柱体非对称3D卷积网络
文章目录 Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation 做了什么 Cylinder3D 整体框 ...

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution

DEFORMABLE 3D CONVOLUTION FOR VIDEO SUPER-RESOLUTION

`~前言~`

C3D：普通的3D卷积

D3D 可变3D卷积

D3DNET

总结

效果

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution相关推荐

最新文章

热门文章

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution

DEFORMABLE 3D CONVOLUTION FOR VIDEO SUPER-RESOLUTION

~前言~

C3D：普通的3D卷积​

D3D 可变3D卷积

D3DNET

总结

效果

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution相关推荐

最新文章

热门文章

`~前言~`

C3D：普通的3D卷积