双目图像超分辨:现状、挑战与展望
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
双目图像超分辨(Stereo Image SR)当前处于起步阶段,领域内算法数量不多,性能还有较大的提升空间。笔者将在本文中简述双目图像超分辨领域近年来的主要工作,并简要分析该领域存在的挑战与未来工作。
一、简介与相关工作
大家检查视力时经常会有这样的体验:有时左眼与右眼均无法单独看清视力表的某一行,但是双眼一起就能看清。其中所蕴含的原理让我们深思:左眼与右眼所成图像通常含有互补信息,其有利于对图像的重建与细节的恢复。这便是双目图像超分辨的核心思想——利用左右图的互补信息提升图像的分辨率。随着双摄像头成像设备的发展,双目图像超分辨在手机摄像、遥感、侦察监视、智能机器人等领域具有光明的发展前景。
1. StereoSR(CVPR2018)
StereoSR 出自韩国科学技术院(KAIST),可以算作是双目图像超分辨领域的 “开山之作”(不是严格意义上的)。其设计思路相对比较简单,网络结构如下图:
StereoSR在解决双目图像视差方面的思路为:将右图水平移动不同像素,生成64张副本图像,将其与左图级联后送入网络进行重建。对于图像中的任一区域(前提是视差不太大),左图总会和移动某个像素值之后的右图对应,从而对左右图的互补信息进行利用。其网络结构类似于单图超分辨网络VDSR,在生成高分辨率Y通道图像后,该算法又利用另外一个子网络去学习YCbCr到RGB的转换。StereoSR是双目图像超分辨领域一个比较初级的奠基性的工作,实验结果也仅仅展示了其性能优于SISR网络SRCNN 与 VDSR。
2. PASSRnet(CVPR2019)& Flickr1024 Dataset(ICCVW2019)
PASSRnet 出自笔者所在课题组,前期已有公众号对该工作进行了报道,内容见链接。相比于StereoSR,PASSRnet的网络设计更加精巧,巧妙地将注意力机制引入到双目视觉中并提出“视差注意力机制”,其网络结构如下:
PASSRnet网络主要分为特征提取模块(包含残差ASPP与残差块)、视差注意力机制模块(PAM)以及图像重建模块。视差注意力机制模块能够沿双目图像视差方向融合互补信息,不受视差大小的限制,相比于StereoSR具有更强的灵活性与鲁棒性。实验结果方面,PASSRnet的性能超越了单图超分辨算法SRCNN、VDSR、DRCN、LapSRN、DRRN,以及双目图像超分辨算法StereoSR。
数据集方面,双目视觉领域现有的数据集(例如KITTI数据集、Middlebury数据集以及ETH3D数据集)更多地针对深度估计与光流估计等任务,在场景数量、场景多样性以及图像质量等方面无法满足双目超分辨算法的需求。因此,笔者在这个工作中收集了1024幅双目图像,构建并公开了一个大型双目图像超分辨数据集Flickr1024,用于对双目超分辨算法进行训练和评估。
在数据集对应的论文中,笔者对在不同数据集上分别训练的StereoSR和PASSRnet算法进行了交叉数据集评测(cross-dataset evaluation),实验结果表明,算法在Flickr1024数据集上训练可以达到更高的性能。
值得一提的是,2019年有一个Parallax-based Spatial and Channel Attention Stereo SR network(PSCASSRnet)工作发表在 IEEE Access 期刊上,论文见链接。其沿用了PASSRnet的网络框架,提出的改进为:1)在Parallax Attention的基础上增加了 Channel Attention;2)给网络增加了全局残差连接。PSCASSRnet相比于PASSRnet能够取得更好的性能。
3. SAM(SPL2020)
此处介绍笔者所在课题组的一个最新工作,相关论文 A Stereo Attention Module for Stereo Image Super-Resolution 已被 IEEE Signal Processing Letters 期刊录用。该文首先分析了双目图像超分辨任务面临的挑战(见本文第三节),而后针对这些挑战提出了一个通用的模块 Stereo Attention Module(SAM)。论文将多个SAM安插至现有的单图超分辨网络中,并在双目图像数据集上进行微调,从而实现在原有单图超分辨网络的基础上多次交互并利用左右图的信息,达到了很好的双目图像超分辨性能。SAM的结构图如下所示:
图中,(a)为SAM安插到两个相同的单图超分辨网络,实现左右图信息交互的示意图;(b)为SAM的结构图。SAM相比于视差注意力模块(PAM),能够更加紧凑地实现左右图双向信息传递,为左右图的多次信息交互提供了基础。实验结果表明,将SAM安插到单图超分辨网络SRCNN、VDSR、LapSRN、SRDenseNet、SRResNet中,均可相应提升其超分辨性能;同时SRResNet+SAM的组合相比于PASSRnet可以取得更好的超分辨效果。
4. Stereoscopic Image Super‑Resolution with Stereo Consistent Feature(AAAI2020)
这是笔者关注到的Stereo Image SR领域的一个最新工作,出自韩国延世大学(Yonsei University),目前论文还未公开。从题目上看,该算法应该是利用了双目图像的特征一致性。
三、总结与展望
双目图像超分辨任务的挑战可以总结为以下几个方面:
双目图像超分辨既要像单图超分辨一样充分利用一幅图内的信息,又要充分结合左右图的互补信息。
设计高效的网络结构同时利用好这两种信息是具有挑战性的。
当前最新的双目超分辨算法性能仍低于最新的单图超分辨算法,性能还有较大的提升空间;
双目图像中视差的巨大变化使得左右图互补信息难以被充分利用,遮挡问题造成的左右图信息不对称也给重建过程带来了挑战。
虽然Flickr1024数据集较大程度上丰富了双目图像超分辨算法的训练集,但是相比于单图超分辨算法的训练集(例如DIV2K)而言,双目图像数据集仍然在数量、质量、场景多样性方面存在弱势,从而限制了双目图像超分辨算法的性能。
而受限于设备,获取双目图像数据集比获取单图数据集难度更大。
双目图像超分辨工作可以从以下几个方面考虑改进:
可以通过参考stereo matching等任务的网络框架,设计能够高效利用左右图信息的新的机制。
参考领域内最新的单图超分辨算法(例如RCAN、SAN、IMDN等),考虑如何在结合左右图互补信息的同时不丢失单图内部的信息,从而实现在单图超分辨的基础上提升性能。
考虑构建更高质量的双目图像数据集,或者考虑将单图超分辨算法学习到的先验知识利用到双目图像超分辨中(例如进行知识蒸馏等)。
以上是笔者的个人观点,欢迎读者留言交流。
上述内容,如有侵犯版权,请联系作者,会自行删文。
推荐阅读:
吐血整理|3D视觉系统化学习路线
那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)
超全的3D视觉数据集汇总
大盘点|6D姿态估计算法汇总(上)
大盘点|6D姿态估计算法汇总(下)
机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划
汇总|3D点云目标检测算法
汇总|3D人脸重建算法
那些年,我们一起刷过的计算机视觉比赛
总结|深度学习实现缺陷检测
深度学习在3-D环境重建中的应用
汇总|医学图像分析领域论文
大盘点|OCR算法汇总
重磅!3DCVer-知识星球和学术交流群已成立
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导,550+的星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加群或投稿
双目图像超分辨:现状、挑战与展望相关推荐
- 近期两篇双目图像超分辨算法论文解读 |AAAI2020 SPL2020
点击我爱计算机视觉标星,更快获取CVML新技术 本文为52CV群友谦Sir投稿. 双目图像可以提供同一场景左右两个视角的信息.合理利用双目图像所包含的互补信息可以进一步提升图像超分辨的性能. 随着双摄 ...
- 论文精读-基于双目图像的视差估计方法研究以及实现
基于双目图像的视差估计方法研究及实现 第一章 绪论 1.1 课题的研究背景与意义 1.2 双目视差估计的研究现状 1.2.1 传统立体匹配方法研究现状 1.2.2 统计学习方法研究现状 1.2.3 深 ...
- CVPR 2019 论文解读 | 基于多级神经纹理迁移的图像超分辨方法 (Adobe Research)
基于多级神经纹理迁移的图像超分辨方法 超分辨(Super-Resolution)图像恢复旨在从低分辨模糊图像中恢复出高分辨的清晰图像,是计算机视觉中的一个重要任务,在工业界有非常强的应用前景.CVPR ...
- 点云综述一稿 点云硬件、点云软件、点云处理算法、点云应用以及点云的挑战与展望
经过一周的综述撰写,深感点云算法应用之浩瀚,只能仰仗前辈们的文章作一些整理: 点云硬件: 点云获取技术可分为接触式扫描仪.激光雷达.结构光.三角测距(Triangulation).以及立体视觉等多种. ...
- 从单张图像学习双目图像
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:Learning Stereo from Single Images 作者: Jamie Wat ...
- BidNet:无视差估计的双目图像去雾(CVPR2020)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:陈翔 https://zhuanlan.zhihu.com/p/148344528 本文仅做学术 ...
- 【项目实战课】基于Pytorch的SRGAN图像超分辨实战
欢迎大家来到我们的项目实战课,本期内容是<基于Pytorch的SRGAN图像超分辨实战>.所谓项目实战课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战 ...
- 【视频课】业界最强数据增强库使用与人脸图像超分辨实践!
前言 数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的学习人员.数据增强又是其中至关重要的内容,为了让大家能够掌握好深度学习中数据的使用,我们开设 ...
- 【每周CV论文】初学深度学习图像超分辨应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...
最新文章
- Python的知识点 plt.plot()函数细节
- 1.15 Java访问控制修饰符(public、 private、protected 和 friendly)
- 矩阵快速幂求大斐波那契poj3070(java)
- 狄利克雷卷积_一些狄利克雷卷积性质的证明
- 为什么要Zipkin
- 程序员面试金典 - 面试题 01.08. 零矩阵
- integer 负数字符串比较_JAVA源码之Integer-1
- Python中的字符串与字符编码:编码和转换问题
- 1034. 有理数四则运算(20)-PAT乙级真题
- mysql8区别_mysql8之与标准sql的区别
- 基础 - 常见字符的ASCII码
- C++学习笔记——opencv2模块(图像处理)
- js ws 状态_使用ws
- Visual Stdio fopen错误
- 矩阵键盘mega16 c语言程序,51单片机对矩阵键盘实现16个按键操作的电路设计
- 计算机硬盘常用分区工具,三款好用的磁盘分区工具推荐
- zkdemo可以直接调用html,中控指纹机ZKBIOOnline BS开发包 含示例DEMO
- 8.19华为笔试题目c++
- 车载导航应用的哪些计算机知识,三维模拟智能车载导航系统的设计与实现
- 加装固态,重装系统(双系统)