点击我爱计算机视觉标星,更快获取CVML新技术


近年来,双摄像头成像系统在智能手机、自动驾驶等领域取得了广泛的应用。

近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息提升图像超分辨效果;

另外,他们构建了一个大型双目图像超分辨数据集,用于双目图像超分辨算法的训练和评估。代码已开源,相关论文已被CVPR 2019录用。

以下是论文作者信息:

论文链接:

https://arxiv.org/pdf/1903.05784.pdf 
代码链接:

https://github.com/LongguangWang/PASSRnet 
数据集链接:

https://yingqianwang.github.io/Flickr1024/

引言

双摄系统提供了同一场景两个不同视角的观测信息。然而在实际应用中,由于相机基线、焦距、场景深度以及成像分辨率不同,双目图像的视差具有较大差异。因此如何高效、灵活地利用双摄系统来提升图像的分辨率存在较大的挑战。

本文提出了一种基于视差注意力机制(Parallax Attention Mechanism)的双目图像超分辨网络(Parallax Attention Stereo SR Network, PASSRnet),利用视差注意力机制实现了对双目图像左右图信息的高效融合。

同时本文构建并公开了一个大型双目图像超分辨数据集Flickr1024,用于双目图像超分辨算法的训练和评估。

本文将双目视觉中的对极几何(EPI)关系引入到注意力机制中,计算双目图像不同视差位置间的相似性,并基于这一相似性测度实现对左右图特征的融合。

视差注意力机制能够对双目图像中沿视差方向的全局信息进行融合,不受视差大小的限制,具有更强的灵活性与鲁棒性。

本文所提算法在Middlebury、KITTI2012以及KITTI2015数据集上与主流算法进行了对比,实验结果证明了PASSRnet的优越性。

方法

PASSRnet的网络结构如图1所示,其输入为低分辨率双目RGB图像,输出为高分辨率左视角RGB图像。

图1 PASSRnet网络结构图

● 残差空洞金字塔模块(Residual ASPP Module)

PASSRnet首先利用一个共享权值的Residual ASPP模块对输入的双目图像进行多尺度特征提取,扩大了网络的接受野。

如图1(a)所示,Residual ASPP模块由残差空洞金字塔块(Residual ASPP Block)与残差块交替连接组成。

如图1(b)所示,Residual ASPP Block由三组空洞卷积组(ASPP Group)组成,在每个ASPP Group中,首先利用三个膨胀系数分别为1、4、8的3*3卷积层进行特征提取,之后利用一个1*1卷积对三个膨胀卷积层提取的特征进行融合。

与ASPP Block相比,Residual ASPP Block利用残差连接进一步丰富了特征提取的尺度,实现了更密集的多尺度特征提取。

● 视差注意力模块(Parallax Attention Module)

在提取双目图像的多尺度特征之后,PASSRnet利用视差注意力模块(Parallax Attention Module)对左右图特征进行融合。受“自注意力机制”启发,本文将双目视觉中的对极几何关系引入注意力机制中,将注意力机制的搜索空间限制在极线上。

图2 视差注意力与自注意力示意图

如图2所示,与自注意力机制在图像全局范围内进行搜索不同,视差注意力机制只沿着极线方向进行搜索。对于左图中任意一点(i,j),视差注意力机制将其与右图极线上任意一点进行相似性计算,得到视差注意力图。

Mright->left为例,Mright->left(i,j,k)表示右图中位置(i,k)对左图中位置(i,j)的权值,也就是说,视差注意力图上的权值分布形态能够描述左右图间的对应关系。利用视差注意力图的这一特性,Parallax Attention Module能够通过批次化矩阵乘实现左右图特征的有效融合(如图3所示)。

图3 批次化矩阵乘示意图

● 损失函数(Loss Function)

本文所提PASSRnet在训练中所采用的损失函数为:

其中设为0.005,各个Loss项的含义如下:

➢ 超分辨损失:

超分辨损失反映了输出图像与Groundtruth间的均方误差(MSE)。

➢ 照度损失:

照度损失反映了双目图像间照度的左右一致性。本文利用视差注意力图计算照度损失。视差注意力图能够较好地反映左右图之间的对应关系,

比如视差注意力图与右图的批次化矩阵乘可以得到左图,反之亦然。

➢ 循环一致性损失:

在照度损失的基础上,受cycle GAN中循环损失启发,本文设计了循环一致性损失,以自封闭的形式进一步对双目图像间的潜在几何关系进行正则。循环一致性损失可以理解为,左图(或右图)经过两次注意力图的映射后,应当能够得到左图(或右图)本身。

➢ 平滑损失:

本文设计了定义在视差注意力图上的平滑损失。根据视差注意力图的物理意义可以看出,这一损失在反映了视差在局部区域内的平滑性。

数据集

图4 Flickr1024数据集

在双目视觉领域,现有的数据集(例如KITTI数据集、Middlebury数据集以及ETH3D数据集)更多地针对深度估计与光流估计等任务,在场景数量、场景多样性以及图像质量等方面无法满足双目超分辨算法的需求。因此,本文收集了1024幅双目图像,构建并公开了一个大型双目图像超分辨数据集Flickr1024,用于对双目超分辨算法进行训练和评估。

实验结果

实验部分首先通过消融学习对网络中不同模块以及不同Loss函数的有效性进行了验证:

● 网络结构

表1 不同网络结构的结果对比

● 损失函数

表2 不同损失函数的结果对比

● 算法对比(Comparison to the State-of-the-arts):

本文在Middlebury, KITTI2012以及KITTI2015三个公开数据集上将PASSRnet与双目超分辨算法StereoSR(CVPR18),单图超分辨算法SRCNN(ECCV14)、VDSR(CVPR16)、DRCN(CVPR16)、LapSRN(CVPR17)以及DRRN(CVPR17)进行了对比,结果如下表所示:

表3 不同方法的结果对比

图5与图6进一步展示了本文提出的PASSRnet与其他对比算法超分辨结果的可视化效果:

图5 不同超分辨算法结果对比

图6 不同超分辨算法结果对比

● 灵活性

本文进一步测试了PASSRnet算法和StereoSR算法在处理不同视差图像时的灵活性。实验通过对测试集图像的缩放得到不同分辨率、不同视差大小的测试图像,数值结果如下表所示:

表4 不同方法的灵活性对比

由上表可见,随着输入图像分辨率的增加,双目图像间的视差不断增大,PASSRnet相比于StereoSR的优势不断增强,这主要是因为StereoSR算法无法对视差超过64像素的图像信息进行融合,而PASSRnet采用了视差注意力机制,可以对双目图像全局信息进行有效融合;

当图像水平分辨率低于64像元时,StereoSR需要对图像进行Zero Padding至64像元,造成了不必要的计算开销。相比之下,PASSRnet具有更高的计算效率。

超分辨率结果视觉比较示例(请点击查看大图):

论文链接:

https://arxiv.org/pdf/1903.05784.pdf

代码链接:

https://github.com/LongguangWang/PASSRnet

数据集链接:

https://yingqianwang.github.io/Flickr1024/

超分辨率交流群

关注最新的图像视频超分辨率技术,欢迎加入52CV-超分辨率专业交流群,扫码添加CV君拉你入群,

(请务必注明:SR):

喜欢在QQ交流的童鞋可以加52CV官方QQ群:702781905。

(不会时时在线,如果没能及时通过还请见谅)


长按关注我爱计算机视觉

CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源相关推荐

  1. ECCV 2020 | 空间-角度信息交互的光场图像超分辨,性能优异代码已开源

    光场相机可以记录当前场景不同视角的图像,每个视角图像的上下文信息(空间信息)与不同视角之间的互补信息(角度信息)都有助于提升图像超分辨的性能. 近日,来自国防科技大学.上海科技大学等单位的学者提出了新 ...

  2. 转换图像分辨率c++代码_哈工大等提出轻量级盲超分辨模型LESRCNN,代码已开源...

    近年来图像超分辨率(super-resolution ,SR)已经获得长足发展,但计算量大仍阻碍相关研究进入产品,来自哈工大等单位的学者提出一种轻量级SR 模型,在取得了state-of-the-ar ...

  3. 哈工大等提出轻量级盲超分辨模型LESRCNN,代码已开源

    近年来图像超分辨率(super-resolution ,SR)已经获得长足发展,但计算量大仍阻碍相关研究进入产品,来自哈工大等单位的学者提出一种轻量级SR 模型,在取得了state-of-the-ar ...

  4. CVPR小样本检测:蒸馏上下文助力小样本检测(代码已开源)

    计算机视觉研究院专栏 作者:Edison_G 目标检测现在的框架越来越多,我们"计算机视觉研究院"最近也分享了众多的目标检测框架!今天我们继续分享一个最新的检测框架--YOLOR. ...

  5. CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

    点击我爱计算机视觉置顶,更快获取CVML新技术 导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑.去噪.锐化是增强,现在研究比较多的去雾.去雨雪.暗光图像恢复也是增强 ...

  6. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

  7. 国科大提出FreeAnchor,新一代通用目标检测方法,代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(ID:AI_era),请勿二次转载.   新智元专栏   作者:张小松 (中国科学院大学) [新智元导读]中国科学院大学联合厦门大学和 ...

  8. MS-TCT:InriaSBU提出用于动作检测的多尺度时间Transformer,效果SOTA!已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...

  9. 基于java的语义分割,NeruIPS2019 | 深圳大学提出点云语义分割框架ELGS,效果拔群(代码已开源)...

    标题:Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point ...

最新文章

  1. MySQLFabric概述
  2. vscode去除控制台ES6报错
  3. 【Linux网络编程】IP地址分类和介绍
  4. 23种设计模式----------代理模式(一)
  5. linux编译ffmepg,在Ubuntu下编译FFmpeg
  6. delphi 整数类型的表述
  7. dockerfile 创建Jenkins镜像
  8. linux完全卸载mysql_mysql完全卸载教程(图文详细)
  9. PHP_$_SERVER中QUERY_STRING,REQUEST_URI的用法
  10. 图解数据库左连接、右连接、内连接、外连接、全连接的区别
  11. vue无法加载ps1
  12. 缺氧游戏 游戏泉修改_自己用的
  13. TextClock 24小时制
  14. Qt5 源代码自动跳转
  15. 很黄很暴力的图片搜索引擎
  16. 状态空间方程转换传递函数
  17. [T-ARA][남주긴 아까워][给别人可惜了]
  18. Java基础编程\第四-六章(面向对象编程)
  19. 刘志军为什么能一手遮天
  20. slowfast网络解读

热门文章

  1. 最少换乘(最短路+恶心的输入)acm寒假集训日记22/1/3 or 22/1/4
  2. 暴力 gcd __gcd (详解)C语言求两个数的最大公约数
  3. c语言中代码参数太少,C语言不定参数探究
  4. vue监听字符串长度_Vue 的 computed 和 watch 的区别
  5. php5向下兼容php4吗,PHP5与PHP4的区别小议
  6. 计算器百分号如何用代码实现_如何用 100 行 Python 代码实现新闻爬虫?这样可算成功?...
  7. 如何限制iframe内网页打开新窗口_网页外链用了 target=quot;_blankquot;,结果悲剧了...
  8. win10更新后开不了机_win7在线更新window10系统
  9. 苹果手机显示iphone已停用连接itunes_iphone忘记密码怎么办 iphone忘记密码解决方法【详细步骤】...
  10. python3获取用户输入_python3.4控制用户输入与输出