视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能。

近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络(D3Dnet),通过将可变形卷积(Deformable Convolution)和三维卷积(3D Convolution)有机结合,同时实现高效时空信息建模与灵活帧间运动补偿。

实验表明,该网络生成视频的清晰度、流畅度与网络的运行效率均处于领域先进水平。

论文信息如下:

  • 论文地址:

    https://arxiv.org/pdf/2004.02803.pdf

  • 代码地址:

    https://github.com/XinyiYing/D3Dnet

    01    

引言(Introduction)

随着当前高分辨率视频的需求增多,视频超分辨技术被广泛应用于视频监控与高清影音设备中。相较于单幅图像超分辨,视频超分辨的核心与难点在于充分利用时域互补信息。然而,视频的帧间运动给该任务带来了较大的挑战。

现有的视频超分辨算法大多是两阶段的(two-stage),即先在空域进行特征提取,然后在时域进行帧间运动补偿。此类框架无法充分结合视频序列内的时空信息,从而限制了超分辨性能,降低了输出视频序列的流畅性。

针对以上问题,该文提出可变形三维卷积网络(D3Dnet)实现单阶段(one-stage)的视频超分辨,即使用可变形三维卷积(D3D)对时空信息进行渐进式融合,并自适应地完成帧间运动补偿。

该文在公开数据集Vid4,Vimeo-90K,SPMC-11上对所提算法进行了测试评估,实验结果表明,相比于领域内其他先进算法,D3Dnet能够重建出精度更高且更加流畅的视频序列,同时具有合理的参数量与较高的运行效率。

    02    

方法(Method)

1、可变形三维卷积(D3D)

图1 可变形三维卷积(D3D)结构示意图

如图1所示,D3D将可变形二维卷积(Deformable Convolution, DCN)与三维卷积(3D Convolution, C3D)进行结合,输入特征中的浅橙色立方体代表3×3×3的C3D卷积核,深橙色立方体代表3×3×3的D3D卷积核。

其中,D3D卷积核的偏移量(offset)由偏移量生成器(3×3×3的C3D卷积)产生。

如图1上方部分所示,位于偏移空间(offset field)的特征的通道维度为2N(此处N为27),代表对应3×3×3卷积核在高度H和宽度W上的偏移量。

2、可变形三维卷积网络(D3Dnet)

图2 D3Dnet结构图

基于D3D,该文构建了D3Dnet,如图2所示。

首先,将7帧视频序列送入C3D进行初始特征提取。随后,将提取的特征输入5个级联的残差D3D模块(ResD3D),同时实现时空信息进行提取与帧间运动补偿。

而后,采用瓶颈层(bottleneck)将运动补偿后的视频特征进行融合,并将融合后的特征送入6个级联的残差块(Resblock)进行重建。

最后,将重建后的特征依次输入1×1卷积层,pixel-shuffle层,1×1卷积层,得到高分辨率参考帧图像。

    03    

实验(Experiments)

1、消融学习(Ablation Study)

实验部分首先通过消融学习对网络中不同模块和方案的有效性进行验证。

1)双阶段方法(two-stage)和单阶段方法(C3D,D3D)。

图3 双阶段方法(two-stage)和单阶段方法(C3D, D3D)性能对比,横坐标代表模型中的残差模块的数量。

图3实验表明,相较于two-stage 算法,one-stage算法能够更加充分地利用视频中的时空信息,以较少的参数获得更好的性能;

相较于C3D,D3D能够灵活地提取时空信息,有效对帧间运动进行补偿,获得质量更高的超分辨视频序列。

2)输入视频的帧数。

表1 不同视频输入帧数的性能对比

表1实验表明,输入视频帧数的增加引入了更多的时域信息,从而提升了超分辨性能。

2、算法对比(Comparison to the State-of-the-arts)

该文在表2所示的3个公开数据集上将D3Dnet与单帧超分辨算法DBPN(CVPR18)、RCAN(ECCV18)以及视频超分辨算法VSRnet(TCI16),VESPCN(CVPR17),SOF-VSR(TIP20),以及TDAN(CVPR20)进行了比较。

此外,该文还采用了双三次插值的结果作为基准对照组。算法对比的结果如下。

1)数值结果

表2 不同超分辨方法数值结果比较(PSNR/SSIM)

2)视觉效果

图4 不同超分辨算法视觉效果比较

3)流畅度与运行效率

表3 不同超分辨方法生成的视频流畅度和运行效率比较

与单帧超分辨算法DBPN(CVPR18)、RCAN(ECCV18)相比,D3Dnet具有优异的性能和运行效率。

与视频超分辨算法TDAN(CVPR20)、SOF-VSR(TIP20)相比,D3Dnet通过合理增加计算成本进一步提升了视频超分辨的性能(更高的PSNR/SSIM指标、更好的视觉效果、更优的视频流畅度)。

图5 不同超分辨算法视频流畅度比较

    04    

结论(Conclusion)

该文提出基于可变形三维卷积的视频超分辨网络(D3Dnet),通过将可变形卷积与三维卷积相结合,设计了可变形三维卷积(D3D)以同时进行时空信息提取与帧间运动补偿。

D3Dnet结构简单、设计精巧,相比于领域内其他先进算法,在不大幅度增加计算开销的前提下,显著提升了视频超分辨的性能。

得益于较好的时空建模与帧间运动补偿能力,D3Dnet输出的视频具有更高的流畅度。

END

备注:超分辨率

超分辨率交流群

图像视频超分辨率,可见光、红外、遥感超分辨率等技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源相关推荐

  1. 国防科大提出基于可变形三维卷积(D3DNET)的视频超分辨

    视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能. 近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络 ...

  2. 国防科大提出基于可变形三维卷积的视频超分辨,代码已开源

    原文链接:https://bbs.cvmart.net/articles/3041 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 视频是 ...

  3. 国科大提出FreeAnchor,新一代通用目标检测方法,代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(ID:AI_era),请勿二次转载.   新智元专栏   作者:张小松 (中国科学院大学) [新智元导读]中国科学院大学联合厦门大学和 ...

  4. D3Dnet:基于可变形三维卷积的视频超分辨,编译好的D3DNet可行变卷积python文件已经放在我的CSDN下载资源---->D3D.so

    视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能. 近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络 ...

  5. CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

    点击我爱计算机视觉置顶,更快获取CVML新技术 导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑.去噪.锐化是增强,现在研究比较多的去雾.去雨雪.暗光图像恢复也是增强 ...

  6. BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者介绍了一种自监督视觉表示模型BEIT (B idirectional E ncoder representation from I mage ...

  7. 用于视频超分辨率的可变形三维卷积

    作者单位:电子科技大学.国防科技大学 译者:Wangsy 论文.代码地址:在公众号「3D视觉工坊」,后台回复「三维卷积」,即可直接下载. 看点 问题:之前的方法的空间特征提取和时间运动补偿往往是顺序的 ...

  8. CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 近年来,双摄像头成像系统在智能手机.自动驾驶等领域取得了广泛的应用. 近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息 ...

  9. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

最新文章

  1. 重磅!脑机接口突破登Nature封面,脑中“笔迹”转屏幕文字破纪录,准确率超99%...
  2. 如何用命令将本地项目上传到git
  3. re2c编译选项的说明
  4. QT,C++多项式计算器—version3(厌倦CMD黑框框的走起!)
  5. 主成分分析和因子分析区别与联系
  6. 如何在while和for中使用ssh
  7. 【Spring】Spring Bean 生命周期
  8. 关于JAVA调用oracle存储过程
  9. js Object.is 相等判断
  10. python用matplotlib或boxplot作图的时候,中文标注无法正常显示,乱码为小方框的解决办法
  11. AVATR阿维塔11维修手册电路图技术资料
  12. Java 实现MD5加密
  13. pox控制器学习笔记
  14. UI常见面试题-整体素养篇
  15. java.io.ioexception 设备未就绪_AxisFault faultString: java.io.IOException: 设备未就绪。
  16. Matplotlib填图
  17. 三菱FX系列PLC以太网连接kepwareopc软件
  18. java dubbo协议_Dubbo同时支持多种协议(以dubbo和rest为例)
  19. 传真服务器的常见问题处理
  20. 为什么你在公司说话没分量,得不到别人的重视?

热门文章

  1. toj 4596 一行盒子
  2. 【初学线段树,看这篇文章准没错】线段树(单点修改and区间修改)acm寒假集训日记22/1/10
  3. [linux]【编译】【高级01】 - 动态库的设定和依赖性的检查 20160921更新 文章没有最终结案
  4. vs 正则表达式转大写_liunx之通配符amp;正则表达式
  5. 岭南师范C语言程序设计真题_2021南京师范大学现代教育技术考研经验分享
  6. java antd实现登录,AntDesign(React)学习-4 登录页面提交数据简单实现
  7. linux桌面下雪,Ubuntu添加下雪效果
  8. java符号引用 直接引用_java虚拟机的符号引用和直接引用
  9. mysql报904_数据库错误码[-904]
  10. 财经计算机财务函数,会计财务最常用的15个公式函数