点击我爱计算机视觉标星,更快获取CVML新技术


本文为52CV群友谦Sir投稿。

双目图像可以提供同一场景左右两个视角的信息。合理利用双目图像所包含的互补信息可以进一步提升图像超分辨的性能。

随着双摄像头成像设备的发展,双目图像超分辨在手机摄像、自动驾驶、遥感与侦察监视、智能机器人等领域具有光明的发展前景。

本文将解读双目图像超分辨领域2020年的两个最新工作:

一、Stereoscopic Image Super Resolution with Stereo Consistent Feature(AAAI2020 oral)

论文地址:

https://www.aaai.org/Papers/AAAI/2020GB/AAAI-SongW.10348.pdf

引言:在双目图像超分辨领域,StereoSR(CVPR2018)算法和PASSRnet(CVPR2019)算法均以低分辨率的双目图像作为网络输入,生成高分辨率的左视角图像。这两个算法虽然可以在一定程度上融合左右视图的信息,但是在超分辨过程中未考虑左右图的特征一致性——双目图像在未被遮挡的对应区域具有相同的纹理特征。该算法将此先验加以考虑,同时超分辨左右两个视图,并通过改进PASSRnet的网络结构与设计新的双目一致性损失函数,充分利用了左右视图纹理的一致性,实现了较PASSRnet算法更加优越的超分辨性能,如下图所示:

网络结构:该论文提出 Self and Parallax Attention Mechanism (SPAM),将自注意力机制与视差注意力机制相结合,网络结构如下(下文称其为SPAMnet):

SPAMnet采用和PASSRnet相同的特征提取模块,并在原有视差注意力机制的基础上引入了分块自注意力机制,旨在利用单幅图像的自相似性信息。SPAM的示意图如下:

由图可见,SPAMnet将左右图的信息融合分为了两个阶段。拿从右到左的转换来举例,在第一个阶段中,右图通过视差注意力图转到左图,并与左图特征(经残差块转换)以及左图经过自注意机制转换得到的特征级联,而后初步融合;在第二阶段中,SPAMnet利用左右视角的视差注意力图计算得到两边视角的disparity map,并通过比对左右图 disparity 的一致性得到左右图的valid masks,实现occlusion-aware 的左右特征融合。

损失函数方面,SPAMnet在PASSRnet的损失函数基础上引入了一个新的损失—— Stereo-consistency Loss

这项损失函数的含义为:超分辨得到的左右图不仅要跟其对应视图的groundtruth image“平行地”做Loss,还要经过计算得到disparity的转换,在未被遮挡的区域与对面视角的groundtruth image“交叉地”做Loss。

在训练过程中,这两类loss占有相同的权重。Stereo-consistency Loss 的设计充分利用了双目图像的对称性,经过Ablation Study验证,可以提升双目超分辨的性能。

最后,算法在 Middlebury、Flickr1024、以及KITTI数据集上与领域内算法进行了比较,结果如下。

二、A Stereo Attention Module for Stereo Image Super-Resolution(SPL2020)

Motivation:领域内现有的双目超分辨工作 StereoSR(CVPR2018)、PASSRnet(CVPR2019)、SPAMnet (AAAI2020)都是通过设计不同的网络结构实现双目图像超分辨任务。受限于现有双目图像数据集的数量和质量,此类方法难以从双目场景中学到丰富的图像结构和纹理的先验知识。为解决此问题,该论文提出了一个新的范例:通过设计一个通用的双目注意力模块(Stereo Attention Module,SAM),将其安插至预训练好的SISR网络中(如SRCNN,VDSR等)并在双目图像数据集Flickr1024上进行微调,实现在结合左右图互补信息的同时保持对单图信息的充分利用,从而进一步提升超分辨性能。论文验证了 SRResNet + SAM的性能优于PASSRnet(SRResNet本身的性能弱于PASSRnet)。该论文被IEEE Signal Processing Letters收录并被列为受欢迎论文Top20(Feb,2020)。

论文信息如下:

论文链接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8998204

代码链接:

https://github.com/XinyiYing/SAM

该文首先分析了双目图像超分辨任务面临的挑战:

1. 双目图像超分辨需要有效地结合双目图像中的互补信息,而双目图像中的视差变化使得左右图互补信息难以被充分利用,遮挡问题造成的左右图信息不对称也给超分辨过程带来了挑战。

2. 双目图像超分辨还需要充分利用单幅图像内的结构和纹理信息。当前,双目图像超分辨算法的性能仍弱于很多SISR算法,训练集的差异产生了很大的影响。相比于SISR数据集(例如DIV2K),双目图像数据集在数量、质量、场景多样性方面处于弱势,从而限制了双目图像超分辨算法的性能。而受限于设备,获取双目图像数据集比获取单图数据集难度更大。

该论文针对以上挑战提出了解决方案,通过将多个SAM安插至现有的预训练好的两个相同的SISR网络中,并将组合而成的网络在Flickr1024数据集上微调,从而将原有的SISR网络扩展为双目超分辨网络,间接利用了SISR数据集带来的增益。SAM的结构图如下所示:

以VDSR网络为例,图(a)展示了在两个相同的VDSR骨干网络中插入了若干个SAM实现左右图双向信息交互,VDSR+SAM可以同时将输入的双目低分辨率图像重建为双目高分辨率图像;

(b)为SAM的内部结构示意图。SAM首先将输入的左右图特征进行视差注意力关联(同PASSRnet中的PAM),而后在相互正交的两个的方向上分别进行Softmax操作,得到L→R和R→L的视差注意力图。

左右图的特征分别与对应的视差注意力图进行分批次矩阵乘得到视角转换后的特征,转换后的特征与原特征以及Valid Mask级联并通过卷积整合,得到融合后的特征。

相比于视差注意力模块(PAM),SAM仅进行一次视差注意力关联便可以进行左右图双向信息的交互,结构更加紧凑高效。而左右图双向信息交互也为在SISR骨干网络中插入多个SAM奠定了基础。

论文将PAM和SAM得到的Attention Map进行了可视化,如下图所示:

从上图可以看出,SAM产生的Attention Map (b与c)同PAM产生的Attention Map(a)较为相似,从而说明SAM可以像PAM一样建立左右视图的视差关联。

实验:论文将SAM安插到单图超分辨网络SRCNN、VDSR、LapSRN、SRDenseNet、SRResNet中,均可相应提升其超分辨性能,说明了SAM的通用性和有效性;同时SRResNet+SAM的组合相比于PASSRnet可以取得更好的超分辨效果。

此外,论文针对SAM进行了三项Ablation Study:

(1)论文以VDSR网络为例,验证了将SAM安插至在单图数据集上预训练过的VDSR网络中,并在Flickr1024数据集上进行微调,可以达到相对于其他方式更好的性能。

(2)论文调查了将SAM安插至VDSR网络不同阶段带来的增益大小。实验结果表明,将SAM安插至VDSR网络的中间部分可以实现更好的性能。

(3)论文调查了在VDSR网络中安插不同数量的SAM所带来的增益。实验结果表明,随着所安插SAM数量的增加,性能能够得到提升但是慢慢趋向于饱和。

结语:

以上两个工作均从“视差注意力机制”着手,对如何进一步提升双目图像超分辨的性能做出了启发性的探索:SPAMnet强调超分辨过程中双目图像特征的一致性,并通过设计stereo-consistency loss利用了左右图特征一致性的先验;SAM强调在利用双目图像互补信息的同时也要加强对于单幅图像纹理结构先验的学习,并通过在预训练的SISR骨干网络中安插SAM模块克服了双目数据集较单目数据集上的劣势,以达到在SISR基础上进一步的性能提升。


超分辨率交流群

关注最新最前沿的图像视频超分辨率、可见光、红外、遥感超分辨率技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:超分辨率):

喜欢在QQ交流的童鞋可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过还请见谅)


长按关注我爱计算机视觉

近期两篇双目图像超分辨算法论文解读 |AAAI2020 SPL2020相关推荐

  1. 双目图像超分辨:现状、挑战与展望

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 双目图像超分辨(Stereo Image SR)当前处于起步阶段,领域内算法数量不多,性能还有较大的提 ...

  2. 双目立体匹配 等 算法 论文 综述 全局局部算法 CSCA NLCA SegmentTree树 DoubleBP Belief-Propagation AD-Census SGM

    双目立体匹配 等 算法 论文 综述 本文GITHUB 博文末尾支持二维码赞赏哦 _ 双目立体视觉技术实质就是模拟人的双眼视觉处理系统来处理通过摄像机采集所 获取的图像,它利用两台或多台摄像机在一定约束 ...

  3. 基于LM的双目图像校准算法源码第一部分

    这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一 ...

  4. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  5. CVPR2020行人重识别算法论文解读

    CVPR2020行人重识别算法论文解读 Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer 具有特定共享特征变换 ...

  6. 从近期两篇论文看大规模商品图嵌入

    ©PaperWeekly 原创 · 作者|桑运鑫 学校|上海交通大学硕士生 研究方向|图神经网络在金融领域的应用 GATNE 论文标题:Representation Learning for Attr ...

  7. 北航成AAAI 2021最大赢家,两篇一作斩获最佳论文、提名奖,研究皆与Transformer相关...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当地时间2月4日,AAAI 2021最佳论文奖出炉! 由AAAI 2021程序委员会主席Mausam在开幕式上宣布,共有3篇论文获得了最佳论 ...

  8. 模型会忘了你是谁吗?两篇Machine Unlearning顶会论文告诉你什么是模型遗忘

    ©作者 | 顾洲洪 单位 | 复旦大学博士生 研究方向 | 知识图谱.知识工程 任务定义 模型遗忘是针对于特定的数据而言的,让模型遗忘掉某个数据之后模型的表现能力,应该等同于这个数据没有参与模型训练时 ...

  9. 必看,61篇NeurIPS深度强化学习论文解读都这里了

    作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...

最新文章

  1. 关于CALayer的contentsGravity属性
  2. k8s查看pod的yaml文件_K8S系列学习,Pod实战那些事儿,有必要知道知道
  3. log4j的详细介绍
  4. 从零开始学 Web 之 jQuery(二)获取和操作元素的属性
  5. C语言:动态爱心代码
  6. matlab迭代实验总结,0618法matlab实验报告
  7. 横向合计代码 锐浪报表_报表开发常见问题解答 - 锐浪报表工具
  8. vue前端实现语音提示功能
  9. ‘vue‘ 不是内部或外部命令,也不是可运行的程序或批处理文件
  10. 【转载】电磁波中的波段划分:L波段、S波段、C波段、X波段、Ku波段、K波段、Ka波段 等等
  11. ckfinder java 配置_JAVA里使用CKEditor和CKFinder的配置
  12. 周浩正:写给编辑人的信 从“紫牛”说起
  13. 四大险种之间有什么区别?理赔会冲突吗?
  14. 初识MQ和RabbitMQ
  15. 2021第六届数维杯大学生数学建模竞赛题目
  16. 厘米与像素的单位转换
  17. Python:利用多种方式解微分方程(以二阶微分系统零状态响应为例)
  18. 江苏省发布大数据引领推动融合发展专项行动计划
  19. 微信11个超级实用的小技巧,值得一试
  20. C++实现K-means,聚类原理解析(并用在图片像素点聚类)

热门文章

  1. cookie购物车php简单,cookie的优化与购物车实例
  2. P1948 [USACO08JAN]Telephone Lines S(二分+spfa)
  3. 【编撰】Directfb 深入 001 初始化简介 01
  4. mpi如何选择合适的进程数量_洗涤工厂如何选择合适的洗衣龙
  5. dhcp软件_tp-link无线路由器软件如何升级【教程图解】
  6. java 图形应用有必要学吗_儿童英语口语怎么学?有必要报班吗?
  7. mysql 密码eba_MySQL-体系结构及授权管理
  8. python监听键盘库_python监听、操作键盘鼠标库pynput详细教程|python基础教程|python入门|python教程...
  9. 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始
  10. mysql 悲观锁 共享锁_MySQL 乐观锁 悲观锁 共享锁 排他锁