可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution
DEFORMABLE 3D CONVOLUTION FOR VIDEO SUPER-RESOLUTION
~前言~
3D卷积可以比2D卷积更关注时空特征。且对于3D Net来说,在所有层使用3×3×3的小卷积核效果更好。
以前的方法多是在空间域上提取特征,在时域上进行动作补偿。因此视频序列中的时空信息无法被共同利用,超分辨视频序列的相干性被削弱。
由于视频帧在时间维度上提供了额外的信息,因此充分利用视频帧的时空依赖性来提高视频SR的性能是非常重要的。
由于三维卷积(C3D)可以同时建模外观与运动,于是C3D应用于视频。但是,C3D的接收域固定,不能有效的模拟大动作。
为了补短板,将可变形卷积与C3D结合,实现可变形3D卷积(D3D)。
D3D仅在空间维度上执行核变形去融合时间先验(时间上越接近参考帧越重要)。
C3D:普通的3D卷积
对输入的特征图用3D卷积采样
通过函数w对采样值计算加权和
具体来说,通过一个3×3×3卷积可以被表示为:
$$y(P_0)=\sum^{N}_{n=1}w(P_n)·x(P_0+P_n)
$$
P_0代表输出特征中的一个位置
P_n代表n_{th}在3×3×3卷积采样网格G中的值。
N=27(3×3×3)是采样网格的尺寸。
Fig.1中所示,在输入特征图中的3×3×3的浅橘色立方体是普通的C3D采样网格,用于生成输出特征中的深橙色立方体。
D3D 可变3D卷积
D3D通过可学习的偏置增大空间接收域来提升外观与动作的建模能力。
Fig.1 C×T×W×H的输入特征图一开始被喂进C3D产生2N×T×W×H的偏置。偏移特征的通道数量被设置为2N,是为了2D空间形变(即沿着高度和宽度维度形变)。学习到的偏置用于指导C3D网格的形变去生成D3D网格。最后,D3D网格被用于产生输出特征。
D3D的表达式为:
$$
y(P_0)=\sum^N_{n=1}w(p_n)·x(p_0+p_n+△p_n)
$$
其中的△p_n代表第n_{th}的值在3×3×3卷积采样网格中对应的偏置。
P_0代表输出特征中的一个位置
P_n代表n_{th}在3×3×3卷积采样网格G中的值。
N=27(3×3×3)是采样网格的尺寸。
D3DNET
一个带有7帧的视频序列被输入一个C3D层产生特征图。
接着喂进5个resD3D层(Fig.2(b)),以达到动作感知深度时空特征提取。
然后,输入瓶颈层去融合提取的特征。
最后这些融合的特征被6个联级残差模块(Fig.2.(c))处理,一个超像素层用于重建。
总结
提出D3Dnet来充分利用时空信息
融合可变卷积与C3D卷积为D3D卷积,拥有高效的时空挖掘与自适应运动补偿。
计算效率高。
效果
可变3D卷积|| Deformable 3D Convolution for Video Super-Resolution相关推荐
- [video super resolution] ESPCN论文笔记
ESPCN是twitter2017年提出来的实时视频超分辨率的方法.下面记录下对论文的一些理解. 上面这张图就是整个网络的架构.输入t帧的相邻图像,t-1和t+1,在具体的网络中,有输入连续3张,5张 ...
- 时序图如何表现分支_【Video Recognition】在视频分类任务中如何高效使用3D卷积...
这是我发布的第1篇文章,在这个专栏里,我会持续写一些最近看的文章,希望能够与大家有所交流. 知乎对Markdown不是非常支持,排版上总是不够漂亮,可以访问我的简书主页阅读对应的文章. 欢迎访问我的知 ...
- 深度学习:从2D卷积到3D卷积的简单理解
很多人容易混淆2D卷积和3D卷积的概念,把多通道的2D卷积当成3D卷积,本文展示了一种直观理解2D卷积和3D卷积的方式. 2D卷积 单通道 首先了解什么是卷积核,卷积核(filter)是由一组参数构成 ...
- 卷积神经网络(2D卷积神经网络和3D卷积神经网络理解)
前言 卷积神经⽹络(convolutional neural network,CNN)是⼀类强⼤的神经⽹络,正是为处理图像 数据而设计的.基于卷积神经⽹络结构的模型在计算机视觉领域中已经占主导地位,当 ...
- 深度学习中常见卷积(普通卷积、1×1卷积、转置卷积、可分离卷积、膨胀(空洞)卷积、3D卷积)
总是在网络上看到各种名词的卷积,但是有搞不懂是什么含义,于是结合网上查阅的资料,总结一下.目前比较常用的卷积主要有常规的卷积.1×1卷积.转置卷积.可分离卷积.膨胀卷积.3D卷积. 以下是一些 ...
- 3D 卷积神经网络 视频动作识别
转自:http://blog.csdn.net/AUTO1993/article/details/70948249 https://zhuanlan.zhihu.com/p/25912625 http ...
- python图像人类检测_OpenCV人类行为识别(3D卷积神经网络)
1. 3D卷积神经网络 相比于2D 卷积神经网络,3D卷积神经网络更能很好的利用视频中的时序信息.因此,其主要应用视频.行为识别等领域居多.3D卷积神经网络是将时间维度看成了第三维. 人类行为识别的实 ...
- CVPR2017精彩论文解读:结合序列学习和交叉形态卷积的3D生物医学图像分割
雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续.下文是宜远智能的首席科学家刘凯对此次大会收录的<结合序列学习和交叉形态卷积的3D生物医学 ...
- 【CVPR 2021】Cylinder3D:用于LiDAR点云分割的圆柱体非对称3D卷积网络
文章目录 Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation 做了什么 Cylinder3D 整体框 ...
最新文章
- P4887 【模板】莫队二次离线(第十四分块(前体))
- angularjs loading, animate
- vivox3android系统,vivo X3手机系统是什么 vivo X3手机能升级安卓4.3
- java中用数组模拟的酒店管理系统
- python中使用什么注释语句和运算_Python基础知识
- 使用Spring跟踪异常–第2部分–委托模式
- 轮询锁使用时遇到的问题与解决方案!
- 马云:搞AI严防叶公好龙;李彦宏:不拥抱AI的公司会死掉
- react native项目增加devtools工具
- STM32驱动NRF24L01无线模块
- 人工智能和大数据案例课程
- 简单快速的视觉里程计入门(Visual odometry)
- 通过Calendar来判断今天星期几以及获取当前时间前几天等
- 基于奇异值分解的图像压缩和信息隐藏
- Web服务器工作原理详解(基础篇)
- “我不是坚强,我只是走投无路”,从职高到杭电、浙大、麻省计算机博士!...
- 导数——平均变化率与瞬时变化率
- 分享五个可以自助小程序搭建的网站
- 【020】基于51单片机智能路灯系统Proteus仿真与实物设计
- mcsm服务器管理系统,使用MCSManager搭建Minecraft服务器
热门文章
- [DASCTF Apr.2023 X SU战队2023开局之战] crypto复现
- 关闭Linux防火墙
- 负载均衡技术应用介绍
- 最有效的一种技术领导是“以身作则”
- garch dcc用matlab,MRS DCC GARCH 模型的MATLAB 程序修改
- 汽车销售发票扫描识别系统助力汽车业
- 宿主软件中文版含乐器包和插件包-AVID Pro Tools 10.3.10 Mac
- 苹果电脑怎么安装python库_Mac环境下安装python库时出现ModuleNotFoundError: No module named 'XXX'...
- 电脑开机为什么会出现黑屏
- STM32系列--从入门到精通