编辑:Happy
首发:AIWalker

本文是旷视科技&快手科技&电子科大联合提出的一种新颖的图像超分框架。本文从图像超分“病态”特性出发,提出一种两阶段的超分框架。在divergence阶段,本文构建了一种新颖的树状深度网络用于输出具有发散性质的预测结果,为达到该效果,引入triplet损失;在convergence阶段,我们采用数据自适应加权方式对divergence分支的结果进行融合得到最终的输出。此外,本文还提出了一个新的用于x8超分任务的Real-world数据集D2CRealSR。所提方法在RealSR、DRealSR以及D2cRealSR等数据集上取得了大幅超越其他方案的效果,相比次优模型CDC,所提方法取得了0.2~0.5dB不等的性能提升。

Abstract

本文提出一种新颖的框架D2C-SR用于图像超分。图像超分作为一种病态问题,其关键挑战在于:给定低分辨率输入存在多个合理预测。大部分经典方法与早期深度学习方法忽略了该基本事实,将图像超分建模为确定性处理,这就导致不理想结果。

受近期工作(如SRFLow)启发,我们采用半概率方式解决该问题,提出一种两阶段方案:divergence阶段采用离散形势学习潜在高分辨率输出分布;convergence阶段则用于将所学习预测融合为最终的输出。更具体来首,我们提出一种树状深度网络,每个分支用于学习一种可能的高分辨率预测。训练过程中,每个分支分别训练以拟合Ground-truth,我们采用triple损失迫使不同分支的输出具有发散性。然后,我们添加一个融合模块合并多个输出作为最终的输出,融合模块可以通过端到端方式训练。

我们在多个基准数据集上进行了评估,并提出了一个8x超分数据集。实验结果表明:所提D2C-SR取得了SOTA性能(PSNR与SSIM),且具有更少的恶计算量。

本文主要贡献包含以下几点:

  • 提出一种新颖的版概率框架D2C-SR用于图像超分,它包含divergence与convergence两个阶段;
  • 提出采用半监督方式训练divergence阶段模型,它采用triplet损失迫使预测的发散性;
  • 在多个主流基准数据集上,D2C-SR取得了SOTA性能;
  • 构建了一个8x超分数据集D2CRealSR;
  • 我们对D2C-SR框架中的不用设计选择进行了深度分析。

Method

上图给出了本文所提D2C-SR框架示意图,它包含两个阶段:divergence与convergence。接下来,我们将针对这两个阶段进行相似介绍。

Divergence Network

在所提Divergence网络中,我们通过显示地设计一个具有发散多输出的网络解决图像超分这个病态问题。具体来说,我们设计了一个树状结构网络得到期望预测。

该树状深度网络包含三个主要模块:

  • 浅层特征提取模块:它由一个卷积构成;
  • 基础分支模块:它由多个残差组构成,每个残差组包含B个残差通道注意力模块(类似RCAN);
  • 上采样模块:它由卷积+pixelshuffle构成。

该网络有L个分支,每个分支由基础分支模块构成并包含C个子分支。以前面图示为例,divergence网络从浅层特征提取模块开始,然后按照树状结构逐层通过网络得到输出。需要注意的是:每个分支的权值不进行共享。divergence网络生成了P个预测结果,它们具有不同的高频成分。这些预测可以表示为:ID=F(ILR;ΘD)I_D = F(I_{LR};\Theta_D)ID​=F(ILR​;ΘD​)。

Deep Residual Structure 我们在divergence网络中构建了相对深的残差,这种深度残差结构使得每个分支可以学习深度残差特征,它的子分支可以学习更深的残差结果。每个分支聚焦于学习比父分支更进一步的残差,进而促进高频学习。

Divergence loss divergence网络中的发散损失由L2L_2L2​损失与triplet损失构成。每个预测结果IDiI_D^iIDi​与HR图像计算L2L_2L2​损失并相加构成最终的L2L_2L2​损失,定义如下:
L2D=∑i=1P∥IDi−IHR∥2L_2^D = \sum_{i=1}^P \| I_D^i - I_{HR} \|_2 L2D​=i=1∑P​∥IDi​−IHR​∥2​
为使得divergence网络生成更发散结果,我们采用了triplet损失。我们目标在于使得IDiI_D^iIDi​与HR尽可能相近,且两两之间距离变远。然而直接在RGB空间使用triplet损失会导致网络聚焦于学习其他不同的方向(比如亮度)而非纹理。因此,我们提出了对IDiI_D^iIDi​进行如下处理:
G(IDi)=YDi−μYDiσYDiG(I_D^i) = \frac{Y_D^i - \mu_{Y_D^i}}{\sigma_{Y_D^i}} G(IDi​)=σYDi​​YDi​−μYDi​​​
注:Y表示YCbCr空间中的Y通道。上述操作使得网络聚焦于学习纹理特征差异。由于超分病态问题主要源于高频区域,因此我们在残差域计算triplet损失,残差定义如下:
resIDi=∥G(IDi)−G(IHR)∥res_{I_D^i} = \|G(I_D^i) - G(I_{HR}) \| resIDi​​=∥G(IDi​)−G(IHR​)∥
triplet损失定义如下:
trip(a,p,n)=Max[d(a,p)−d(a,n)+margin,0]trip(a,p,n) = Max[d(a,p) - d(a,n) + margin, 0] trip(a,p,n)=Max[d(a,p)−d(a,n)+margin,0]
因此,最终的损失定义如下:
TD=∑i=1P∑i=1,j≠iPβij∗trip(resIDi,zero,resIDj)P(P−1)T_D = \frac{\sum_{i=1}^P \sum_{i=1,j\ne i}^P \beta_{ij} * trip(res_{I_D^i}, zero, res_{I_D^j})}{P(P-1)} TD​=P(P−1)∑i=1P​∑i=1,j​=iP​βij​∗trip(resIDi​​,zero,resIDj​​)​
注:βij=θl−1,l∈[1,L]\beta_{ij} = \theta^{l-1},l\in[1,L]βij​=θl−1,l∈[1,L]表示注意力系数,它用于控制不同分支的相似性。最终的总体损失则定义如下:
LD=L2D+α∗TDL_D = L_2^D + \alpha * T_D LD​=L2D​+α∗TD​

Convergence Network

组合divergence网络的多个输出可以生成更精确的结果。我们认为不同分支的预测对于最终结果具有不同的贡献,因此我哦们构建了convergence网络采用加权方式组合divergence网络的多个输出。

convergence网络采用divergence网络的M个输出作为输入,输出每个预测的权值,定义如下:
W=F(Concat(ID);ΘC)W = F(Concat(I_D); \Theta_C) W=F(Concat(ID​);ΘC​)
然后采用所得权值与divergence网路输出加权得到最终的结果:
ISR=∑i=1P(IDi⋅Wi)I_{SR} = \sum_{i=1}^P(I_D^i \cdot W_i) ISR​=i=1∑P​(IDi​⋅Wi​)

从上图可以看到:在合并过程中,不同分支在不同区域具有不同的加权权值。

Convergence loss convergence网络的目标是合并divergence网络的输出,因此该网络的损失称之为convergence损失,它仅仅包含L2L_2L2​损失。定义如下:
L2C=∥ISR−IHR∥2L_2^C = \| I_{SR} - I_{HR} \|_2 L2C​=∥ISR​−IHR​∥2​

Training Strategy

该框架的两个网络分别训练,我们首先训练divergence网络到稳定状态;然后固定divergence网络参数训练convergence网络。

Experiments

D2CRealSR 现有RealSR数据仅仅包含x2、x3与x4倍率数据,缺乏更大倍率数据。我们构建了一个x8倍率数据D2CRealSR,它包含115图像对,其中15个用于测试,其他用作训练。

Existing Dataset 现有Real-world超分数据有RealSR与DRealSR两个。由于DRealSR部分数据存在不对齐问题,因此我们仅仅在DRealSR的测试集上进行验证性能。

Implementation Detail 实验过程中,L=2,C=2,G2,B=4L=2,C=2,G2,B=4L=2,C=2,G2,B=4。优化器为Adam,初始学习率0.0001,每个2000epoch折半,LR的图像块尺寸为96×9696\times 9696×96。

上表给出了不同方法在不同数据集上的性能对比,从中可以看到:在不同倍率下,所提方法均大幅优于其他方案,超出次优模型0.2~0.5dB不等。

上图给出了DRealSR数据集上X4超分的视觉效果对比,下图给出了D2CRealSR数据集上X8超分的视觉效果对比。可以看到:相比其他方案,所提方法可以复原更多高频细节

上图给出了RealSR数据集上不同模型大小性能的对比,可以看到:

  • 所提0.23M模型可以取得更好的性能;而基线5.88M参数模型可以取得更高的指标,具有更好的模型大小与性能均衡。
  • 在同等PSNR水平下,CDC需要39.92M参数量,RCAN需要15M参数量。

上表给出了不同深度、不同宽度模型的性能对比,可以看到:深度与宽度的提升均可以带来一致性的性能提升。

上表给出了不同损失下的模型性能对比,可以看到:

  • 不带convergence损失时,模型性能均出现了显著下降,x2超分指标下降0.17dB
  • 单一分支的性能明显低于convergence网络的性能
  • 树结构有助于网路聚焦高频信息学习,移除树状结构后,模型的性能出现了显著的下降,比如x2任务下降了0.12dB。

上图给出了不同分支的视觉效果对比,由于convergence损失的恶存在,不同分支的预测具有不同的高频预测。

推荐阅读

  1. Attention in Attention for Super-Resolution
  2. CMDSR | 为解决多退化盲图像超分问题,浙江大学&字节跳动提出了具有退化信息提取功能的CMDSR
  3. CVPR2021|超分性能不变,计算量降低50%,董超等人提出用于low-level加速的ClassSR
  4. CVPR2021 | 性能不变,计算量减少41%,国防科大提出加速图像超分高效推理的SMSR
  5. SANet|融合空域与通道注意力,南京大学提出置换注意力机制
  6. GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
  7. RepVGG|让你的ConVNet一卷到底,plain网络首次超过80%top1精度
  8. Transformer再下一城!low-level多个任务榜首被占领
  9. 46FPS+1080Px2超分+手机NPU,arm提出一种基于重参数化思想的超高效图像超分方案
  10. CVPR2021|将无监督对比学习与超分相结合,国防科大提出了用于盲图像超分的无监督退化表达学习DASR

RealSR性能大幅提升,旷视科技+快手科技+电子科大联合提出“先发散再收敛”的D2CSR相关推荐

  1. 北京智源人工智能研究院启动“智源学者计划”,与旷视发布首个智源联合实验室

    4月16日,北京智源人工智能研究院与中国人工智能领军企业旷视召开"智源学者计划暨联合实验室发布会".北京市科委副主任张光连,海淀区委常委.副区长李俊杰,以及来自科技部.北京市科委. ...

  2. 计算机视觉算法实习生:大厂面试经历(百度、京东、滴滴、字节、美团,旷视,快手,小米)

    一.自我介绍: 不谈自我介绍直接说经验,就是耍流氓,软性条件决定了简历筛选和面试的侧重点. 一些内容我可能没复习到,但不是说不重要,明确这点! 学历:985硕士 实习:清华大学(2020.4~2022 ...

  3. AI 一分钟 | 独角兽旷视被爆明年一季度上市;阿里达摩院再得顶级大牛,计算机理论最高奖得主马里奥加盟量子实验室

    一分钟AI 独角兽旷视被爆将在明年第一季度上市,目前估值14.6亿美金. 计算机最高奖哥德尔奖得主.匈牙利裔美国计算机科学家马里奥·塞格德加盟阿里达摩院! 致力于开发家庭机器人的人工智能公司 Roki ...

  4. HINet | 性能炸裂,旷视科技提出适用于low-level问题的Half Instance Normalization

    编辑:Happy 首发: AIWalker 大家好,我是Happy. 一直以来,甚少有normalization技术在low-level得到广泛应用并取得优异性能,就算得到应用其性能也会受限或者造成异 ...

  5. 荣誉 | 旷视再次入选《麻省理工科技评论》50家聪明公司​

    昨日,国际权威科技媒体<麻省理工科技评论>(MIT Technology Review)揭晓了"2019 年 50 大聪明公司"榜单(以下简称"MIT TR5 ...

  6. 旷视首席科学家孙剑:深度学习变革视觉计算

    https://www.toutiao.com/i6714941914564526596/ 孙剑从视觉智能.计算机摄影学以及AI计算3个方面介绍了计算机视觉研究领域的变革. 作者 | 张栋 AI科技评 ...

  7. 63万张!旷视发布最大物体检测数据集Objects365 | 技术头条

    编辑 | 琥珀 来源 | AI科技大本营(id:rgznai100) 昨日,在旷视科技联合北京智源人工智能研究院举办的发布会上,旷视研究院发布了物体检测数据集 Objects365,包含 63 万张图 ...

  8. 旷视5号员工陈可卿:1991生于绍兴、10岁买电脑改变命运,信息奥赛金牌保送清华...

    允中 发自 融科资讯中心  量子位 出品 | 公众号 QbitAI 陈可卿,28岁,旷视创始员工,工号No.5. 他生于1991年,曾是信息学奥赛金牌选手,高中保送进清华. 大二以实习生身份进旷视,是 ...

  9. 63万张!旷视发布最大物体检测数据集Objects365,物体检测竞赛登陆CVPR

    郭一璞 发自 北京会议中心  量子位 报道 | 公众号 QbitAI 比ImageNet大的图像数据集来了. 在4月16日的智源学者计划启动暨联合实验室发布会上,旷视科技发布了通用物体检测数据集Obj ...

  10. 再破纪录!ECCV 2020 旷视研究院15篇成果总览

    图:ECCV 2020 词云分析结果 8月23-28日,全球计算机视觉三大顶会之一,两年一度的 ECCV 2020(欧洲计算机视觉国际会议)即将召开.受到疫情影响,今年的 ECCV 将以线上形式举办. ...

最新文章

  1. JSP基本语法:文件结构、脚本元素、指令元素、动作元素
  2. MVC项目开发中那些用到的知识点(登录权限认证)
  3. python mysql 性能监控_MySQL性能监控工具 orzdba python版本
  4. [SpringSecurity]web权限方案_用户授权_注解使用
  5. ZK实际应用:MVVM –与ZK客户端API一起使用
  6. 10个实战及面试常用Linux Shell脚本编写
  7. 机器学习与计算机视觉(深度学习)
  8. php 父类命名空间,对命名空间的理解、类的继承与实现——2019年7月31号22时03分...
  9. KVM,QEMU,libvirt入门学习笔记【转】
  10. 转: 为什么做java的web开发我们会使用struts2,springMVC和spring这样的框架?
  11. java连接数据库驱动代码综合共享
  12. 转换PDF技巧1之PDF虚拟打印机操作详解
  13. 地区 经纬度 json 数据
  14. 史上最详细的Stacked Hourglass姿态检测算法详解(源码分析)
  15. 数据分析实用工具——EXCEL下的power query自动取数
  16. 【AI每日播报】马云启动NASA计划 Intel150亿美元收购Mobileye
  17. springboot 微信太阳码_springboot教务管理系统+微信小程序云开发
  18. ppt中加入html,如何在ppt中插入html网页.ppt
  19. [VM]解决虚拟机声音滋滋声
  20. linux学习笔记 linux内核6.0.2目录结构

热门文章

  1. PHP微信怎么计步数,微信运动怎么关注好友步数(微信运动计步功能使用方法介绍)...
  2. TI-RTOS---Semaphores
  3. 01-SA8155 QNX 虚拟机Hypervisor
  4. c语言等差数列试题及其答案,等差数列练习题
  5. 树莓派raspi-config配置工具
  6. 识人 用人 激人 留人 斩人
  7. nmap的下载与安装
  8. 委托代理问题------The principal-agent problem
  9. 温度转换示例(有每一步代码的解释)
  10. linux cp omitting 复制,Linux中复制目录报错cp:omitting directory的解决办法