视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能。

近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络(D3Dnet),通过将可变形卷积(Deformable Convolution)和三维卷积(3D Convolution)有机结合,同时实现高效时空信息建模与灵活帧间运动补偿。

实验表明,该网络生成视频的清晰度、流畅度与网络的运行效率均处于领域先进水平。

论文信息如下:

论文地址:

https://arxiv.org/pdf/2004.02803.pdf

代码地址:

https://github.com/XinyiYing/D3Dnet

                                    01    引言(Introduction)

随着当前高分辨率视频的需求增多,视频超分辨技术被广泛应用于视频监控与高清影音设备中。相较于单幅图像超分辨,视频超分辨的核心与难点在于充分利用时域互补信息。然而,视频的帧间运动给该任务带来了较大的挑战。

现有的视频超分辨算法大多是两阶段的(two-stage),即先在空域进行特征提取,然后在时域进行帧间运动补偿。此类框架无法充分结合视频序列内的时空信息,从而限制了超分辨性能,降低了输出视频序列的流畅性。

针对以上问题,该文提出可变形三维卷积网络(D3Dnet)实现单阶段(one-stage)的视频超分辨,即使用可变形三维卷积(D3D)对时空信息进行渐进式融合,并自适应地完成帧间运动补偿。

该文在公开数据集Vid4,Vimeo-90K,SPMC-11上对所提算法进行了测试评估,实验结果表明,相比于领域内其他先进算法,D3Dnet能够重建出精度更高且更加流畅的视频序列,同时具有合理的参数量与较高的运行效率。

                                        02 方法(Method)

1、可变形三维卷积(D3D)

图1 可变形三维卷积(D3D)结构示意图

如图1所示,D3D将可变形二维卷积(Deformable Convolution, DCN)与三维卷积(3D Convolution, C3D)进行结合,输入特征中的浅橙色立方体代表3×3×3的C3D卷积核,深橙色立方体代表3×3×3的D3D卷积核。

其中,D3D卷积核的偏移量(offset)由偏移量生成器(3×3×3的C3D卷积)产生。

如图1上方部分所示,位于偏移空间(offset field)的特征的通道维度为2N(此处N为27),代表对应3×3×3卷积核在高度H和宽度W上的偏移量。

2、可变形三维卷积网络(D3Dnet)

图2 D3Dnet结构图

基于D3D,该文构建了D3Dnet,如图2所示。

首先,将7帧视频序列送入C3D进行初始特征提取。随后,将提取的特征输入5个级联的残差D3D模块(ResD3D),同时实现时空信息进行提取与帧间运动补偿。

而后,采用瓶颈层(bottleneck)将运动补偿后的视频特征进行融合,并将融合后的特征送入6个级联的残差块(Resblock)进行重建。

最后,将重建后的特征依次输入1×1卷积层,pixel-shuffle层,1×1卷积层,得到高分辨率参考帧图像。

                                   03 实验(Experiments)

1、消融学习(ABLATION STUDY)
实验部分首先通过消融学习对网络中不同模块和方案的有效性进行验证。

1)双阶段方法(TWO-STAGE)和单阶段方法(C3D,D3D)。

图3 双阶段方法(two-stage)和单阶段方法(C3D, D3D)性能对比,横坐标代表模型中的残差模块的数量。

图3实验表明,相较于two-stage 算法,one-stage算法能够更加充分地利用视频中的时空信息,以较少的参数获得更好的性能;

相较于C3D,D3D能够灵活地提取时空信息,有效对帧间运动进行补偿,获得质量更高的超分辨视频序列。

2)输入视频的帧数。

表1 不同视频输入帧数的性能对比

表1实验表明,输入视频帧数的增加引入了更多的时域信息,从而提升了超分辨性能。

2、算法对比(Comparison to the State-of-the-arts)

该文在表2所示的3个公开数据集上将D3Dnet与单帧超分辨算法DBPN(CVPR18)、RCAN(ECCV18)以及视频超分辨算法VSRnet(TCI16),VESPCN(CVPR17),SOF-VSR(TIP20),以及TDAN(CVPR20)进行了比较。

此外,该文还采用了双三次插值的结果作为基准对照组。算法对比的结果如下。

1)数值结果

表2 不同超分辨方法数值结果比较(PSNR/SSIM)

2)视觉效果

图4 不同超分辨算法视觉效果比较

3)流畅度与运行效率

表3 不同超分辨方法生成的视频流畅度和运行效率比较

与单帧超分辨算法DBPN(CVPR18)、RCAN(ECCV18)相比,D3Dnet具有优异的性能和运行效率。

与视频超分辨算法TDAN(CVPR20)、SOF-VSR(TIP20)相比,D3Dnet通过合理增加计算成本进一步提升了视频超分辨的性能(更高的PSNR/SSIM指标、更好的视觉效果、更优的视频流畅度)

图5 不同超分辨算法视频流畅度比较

                                  04  结论(Conclusion)

该文提出基于可变形三维卷积的视频超分辨网络(D3Dnet),通过将可变形卷积与三维卷积相结合,设计了可变形三维卷积(D3D)以同时进行时空信息提取与帧间运动补偿。

D3Dnet结构简单、设计精巧,相比于领域内其他先进算法,在不大幅度增加计算开销的前提下,显著提升了视频超分辨的性能。

得益于较好的时空建模与帧间运动补偿能力,D3Dnet输出的视频具有更高的流畅度。

END

本文的3D可行变卷积我已经编译好,有需要自行下载,地址如下:

https://download.csdn.net/download/nizhenshishuai/85000374

将下载后的egg文件放在dcn\funtions目录下。

国防科大提出基于可变形三维卷积(D3DNET)的视频超分辨相关推荐

  1. 国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源

    视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能. 近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络 ...

  2. 国防科大提出基于可变形三维卷积的视频超分辨,代码已开源

    原文链接:https://bbs.cvmart.net/articles/3041 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 视频是 ...

  3. 国科大提出FreeAnchor,新一代通用目标检测方法,代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(ID:AI_era),请勿二次转载.   新智元专栏   作者:张小松 (中国科学院大学) [新智元导读]中国科学院大学联合厦门大学和 ...

  4. D3Dnet:基于可变形三维卷积的视频超分辨,编译好的D3DNet可行变卷积python文件已经放在我的CSDN下载资源---->D3D.so

    视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能. 近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络 ...

  5. CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

    点击我爱计算机视觉置顶,更快获取CVML新技术 导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑.去噪.锐化是增强,现在研究比较多的去雾.去雨雪.暗光图像恢复也是增强 ...

  6. BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者介绍了一种自监督视觉表示模型BEIT (B idirectional E ncoder representation from I mage ...

  7. 用于视频超分辨率的可变形三维卷积

    作者单位:电子科技大学.国防科技大学 译者:Wangsy 论文.代码地址:在公众号「3D视觉工坊」,后台回复「三维卷积」,即可直接下载. 看点 问题:之前的方法的空间特征提取和时间运动补偿往往是顺序的 ...

  8. CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 近年来,双摄像头成像系统在智能手机.自动驾驶等领域取得了广泛的应用. 近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息 ...

  9. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

最新文章

  1. 《神经架构搜索NAS》最新进展综述,25页pdf
  2. WPF 自定义列表筛选 自定义TreeView模板 自定义ListBox模板
  3. oeasy php,oeasy教您玩转linux010106这儿都有啥 ls
  4. vue-cli 没有build如何配置_webpack4配置实现浏览器长期缓存
  5. Java程序设计基础--流程控制
  6. cmake使用方法(详细)
  7. CC1310在868MHz的电路设计
  8. [Cacti] cacti监控mongodb性能实战
  9. 迁移性好、多用途,港中文提出特征分离的无监督人类三维姿态表征
  10. 爬虫原理与数据抓取----- Requests模块
  11. jQuery选择器的的优点
  12. PostGis路径分析
  13. thinkphp 3.2.2 图片上传gif类型生成缩略图错误
  14. SQL读取系统时间的语法(转)
  15. GoJS 去水印方法
  16. dropbox访问_使用PHP访问Dropbox
  17. hdu3966树链剖分 分析
  18. Unity学习笔记(六)——顶点动画
  19. RADAR毫米波雷达传感器
  20. 数据库实验 MySQL查询语句练习

热门文章

  1. 7道腾讯算法编程真题,你能做对几道?包含一道趣味题
  2. Linux操作系统(第二版)(RHEL 8/CentOS 8)
  3. 企业直播平台服务有哪些
  4. 记录我和几个女人的情感经历
  5. 获取bing壁纸php,php获取bing每日壁纸示例分享
  6. 我为什么要旗帜鲜明地、不留余地地反对冯大辉
  7. JAVA 解决 unable to find valid certification path to requested target 证书认证
  8. 汇川机器人视觉标定_汇川:做机器人背后的技术王者
  9. SpringBoot智能养老公寓系统
  10. 计算机纸牌游戏攻略,电脑中纸牌的技巧有哪些?