DEFORMABLE 3D CONVOLUTION FOR VIDEO SUPER-RESOLUTION

~前言~

3D卷积可以比2D卷积更关注时空特征。且对于3D Net来说,在所有层使用3×3×3的小卷积核效果更好。

以前的方法多是在空间域上提取特征,在时域上进行动作补偿。因此视频序列中的时空信息无法被共同利用,超分辨视频序列的相干性被削弱。

由于视频帧在时间维度上提供了额外的信息,因此充分利用视频帧的时空依赖性来提高视频SR的性能是非常重要的。

由于三维卷积(C3D)可以同时建模外观与运动,于是C3D应用于视频。但是,C3D的接收域固定,不能有效的模拟大动作。

为了补短板,将可变形卷积与C3D结合,实现可变形3D卷积(D3D)。

D3D仅在空间维度上执行核变形去融合时间先验(时间上越接近参考帧越重要)。


C3D:普通的3D卷积​

  1. 对输入的特征图用3D卷积采样

  2. 通过函数w对采样值计算加权和

具体来说,通过一个3×3×3卷积可以被表示为:

$$y(P_0)=\sum^{N}_{n=1}w(P_n)·x(P_0+P_n)
$$

P_0​代表输出特征中的一个位置

P_n代表n_{th}​在3×3×3卷积采样网格G中的值。

N=27(3×3×3)是采样网格的尺寸。

Fig.1中所示,在输入特征图中的3×3×3的浅橘色立方体是普通的C3D采样网格,用于生成输出特征中的深橙色立方体。

D3D 可变3D卷积

D3D通过可学习的偏置增大空间接收域来提升外观与动作的建模能力。

Fig.1 C×T×W×H的输入特征图一开始被喂进C3D产生2N×T×W×H的偏置。偏移特征的通道数量被设置为2N,是为了2D空间形变(即沿着高度和宽度维度形变)。学习到的偏置用于指导C3D网格的形变去生成D3D网格。最后,D3D网格被用于产生输出特征。

D3D的表达式为:

$$
y(P_0)=\sum^N_{n=1}w(p_n)·x(p_0+p_n+△p_n)
$$

其中的△p_n​​​代表第n_{th}​​​​的值在3×3×3卷积采样网格中对应的偏置。

P_0​代表输出特征中的一个位置

P_n代表n_{th}​在3×3×3卷积采样网格G中的值。

N=27(3×3×3)是采样网格的尺寸。

D3DNET

一个带有7帧的视频序列被输入一个C3D层产生特征图。

接着喂进5个resD3D层(Fig.2(b)),以达到动作感知深度时空特征提取。

然后,输入瓶颈层去融合提取的特征。

最后这些融合的特征被6个联级残差模块(Fig.2.(c))处理,一个超像素层用于重建。

总结

  1. 提出D3Dnet来充分利用时空信息

  2. 融合可变卷积与C3D卷积为D3D卷积,拥有高效的时空挖掘与自适应运动补偿。

  3. 计算效率高。

效果

可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution相关推荐

  1. [video super resolution] ESPCN论文笔记

    ESPCN是twitter2017年提出来的实时视频超分辨率的方法.下面记录下对论文的一些理解. 上面这张图就是整个网络的架构.输入t帧的相邻图像,t-1和t+1,在具体的网络中,有输入连续3张,5张 ...

  2. 时序图如何表现分支_【Video Recognition】在视频分类任务中如何高效使用3D卷积...

    这是我发布的第1篇文章,在这个专栏里,我会持续写一些最近看的文章,希望能够与大家有所交流. 知乎对Markdown不是非常支持,排版上总是不够漂亮,可以访问我的简书主页阅读对应的文章. 欢迎访问我的知 ...

  3. 深度学习:从2D卷积到3D卷积的简单理解

    很多人容易混淆2D卷积和3D卷积的概念,把多通道的2D卷积当成3D卷积,本文展示了一种直观理解2D卷积和3D卷积的方式. 2D卷积 单通道 首先了解什么是卷积核,卷积核(filter)是由一组参数构成 ...

  4. 卷积神经网络(2D卷积神经网络和3D卷积神经网络理解)

    前言 卷积神经⽹络(convolutional neural network,CNN)是⼀类强⼤的神经⽹络,正是为处理图像 数据而设计的.基于卷积神经⽹络结构的模型在计算机视觉领域中已经占主导地位,当 ...

  5. 深度学习中常见卷积(普通卷积、1×1卷积、转置卷积、可分离卷积、膨胀(空洞)卷积、3D卷积)

      总是在网络上看到各种名词的卷积,但是有搞不懂是什么含义,于是结合网上查阅的资料,总结一下.目前比较常用的卷积主要有常规的卷积.1×1卷积.转置卷积.可分离卷积.膨胀卷积.3D卷积.   以下是一些 ...

  6. 3D 卷积神经网络 视频动作识别

    转自:http://blog.csdn.net/AUTO1993/article/details/70948249 https://zhuanlan.zhihu.com/p/25912625 http ...

  7. python图像人类检测_OpenCV人类行为识别(3D卷积神经网络)

    1. 3D卷积神经网络 相比于2D 卷积神经网络,3D卷积神经网络更能很好的利用视频中的时序信息.因此,其主要应用视频.行为识别等领域居多.3D卷积神经网络是将时间维度看成了第三维. 人类行为识别的实 ...

  8. CVPR2017精彩论文解读:结合序列学习和交叉形态卷积的3D生物医学图像分割

    雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<结合序列学习和交叉形态卷积的3D生物医学 ...

  9. 【CVPR 2021】Cylinder3D:用于LiDAR点云分割的圆柱体非对称3D卷积网络

    文章目录 Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation 做了什么 Cylinder3D 整体框 ...

最新文章

  1. P4887 【模板】莫队二次离线(第十四分块(前体))
  2. angularjs loading, animate
  3. vivox3android系统,vivo X3手机系统是什么 vivo X3手机能升级安卓4.3
  4. java中用数组模拟的酒店管理系统
  5. python中使用什么注释语句和运算_Python基础知识
  6. 使用Spring跟踪异常–第2部分–委托模式
  7. 轮询锁使用时遇到的问题与解决方案!
  8. 马云:搞AI严防叶公好龙;李彦宏:不拥抱AI的公司会死掉
  9. react native项目增加devtools工具
  10. STM32驱动NRF24L01无线模块
  11. 人工智能和大数据案例课程
  12. 简单快速的视觉里程计入门(Visual odometry)
  13. 通过Calendar来判断今天星期几以及获取当前时间前几天等
  14. 基于奇异值分解的图像压缩和信息隐藏
  15. Web服务器工作原理详解(基础篇)
  16. “我不是坚强,我只是走投无路”,从职高到杭电、浙大、麻省计算机博士!...
  17. 导数——平均变化率与瞬时变化率
  18. 分享五个可以自助小程序搭建的网站
  19. 【020】基于51单片机智能路灯系统Proteus仿真与实物设计
  20. mcsm服务器管理系统,使用MCSManager搭建Minecraft服务器

热门文章

  1. [DASCTF Apr.2023 X SU战队2023开局之战] crypto复现
  2. 关闭Linux防火墙
  3. 负载均衡技术应用介绍
  4. 最有效的一种技术领导是“以身作则”
  5. garch dcc用matlab,MRS DCC GARCH 模型的MATLAB 程序修改
  6. 汽车销售发票扫描识别系统助力汽车业
  7. 宿主软件中文版含乐器包和插件包-AVID Pro Tools 10.3.10 Mac
  8. 苹果电脑怎么安装python库_Mac环境下安装python库时出现ModuleNotFoundError: No module named 'XXX'...
  9. 电脑开机为什么会出现黑屏
  10. STM32系列--从入门到精通