团队模型、论文、博文、直播合集，点击此处浏览

一、背景

近10年来，深度学习技术得到了长足进步，在图像增强领域取得了显著的成果，尤其是以GAN为代表的生成式模型在图像复原、老片修复，图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面，用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时，保持细节特征，补充生成真实的纹理，其中应用广泛的工作是Real-ESRGAN。

不过随着扩散模型DiffusionModel在理论和实践中的有效性得到越来越多的验证，在大数据、大模型的加持下，多模态学习发展如火如荼，促成了当今AIGC的火爆。同时以此为基础的视觉增强底层任务，也带来了一些突破性成果。今天重点给大家展示下，扩散模型在图像超分辨率这方面的新的应用，展现出其超过GAN的生成多样性和真实性。看完后，你会发现，还在用GAN做图像超分辨率吗？已经OUT了，快来试试DiffusionModel吧！

二、方法

1.）经典算法Real-ESRGAN

先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN，如图1基本流程。

图1: 来源Real-ESRGAN: Training Real-World Blind Super-Resolutionwith Pure Synthetic Data

生成网络是ESRGAN的生成网络，保持不变，首先用L1 loss，训练以PSRN为导向的网络，获得的模型称为Real-ESRNet，然后Real-ESRNet的网络参数进行网络初始化，同时使用 L1 loss、perceptual loss、 GAN loss损失函数，训练最终的网络Real-ESRGAN。

训练数据可以自己收集，使用退化方法，构建样本对。细节的生成能力依托GAN的作用，GAN的生成能力的发展进化已经经历了多年，在此不做赘述，但从实际应用中看，对于图片生成的真实性和多样性仍然有待提升。

2.）扩散模型简介

扩散模型（DiffusionModel）近几年开始受到广泛的关注，下面可以通俗地以denoising diffusion probabilistic models(DDPM)为基础的扩散模型的基本原理。

图2: 来源Score-Based Generative Modeling through StochasticDifferential Equations

扩散模型的前向过程：不断给图片加噪声的过程。

扩散模型的逆向过程：一步步去除图片噪声的过程。

图3:来源 Denoising Diffusion ProbabilisticModels

DiffusionMolde的训练大致可以概括为，通过构建一个Unet网络，预测每一步加噪声的强度，通过理论推导，可以得知这个训练只需要使用L2loss监督。训练完成后，就可以从高斯噪声开始，根据逆向过程的采样方式，恢复出清晰图像。

近两年，越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

3.）扩散模型在图像超分上的应用

下面重点看下在图像超分辨率方向上扩散模型的应用。

a.）SR3 (Image Super-Resolution via Iterative Refinement )

这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单，直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导，得到对应的高分辨率图像SR。

图4: 来源Image Super-Resolution via Iterative Refinement

b.）LatentDiffusion(High-Resolution Image Synthesis with Latent DiffusionModels )

接下来重点介绍这个工作，LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间，减少了计算量，增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意：

图5:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

LatentDiffusion也就是如今大火的StableDiffusion的基本方案，技术框架大致如下图所示：

图6:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

基于latentdiffusion model的图像超分辨率方案，我们称做LDM-SR，和SR3的做法相似，这里直接将LR和Latenspace 噪声合并一起，输入到Unet，后面通过Decoder4倍上采样，生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值，并且视觉效果上更自然细腻。

图7:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

总体来说，基于扩散模型的超分辨率方案相比GAN，取得了长足的进步，在细节和纹理生成能力上上了一个大台阶。

4.）ours方法

达摩院开放视觉团队，在图像超分辨率技术上演进上，应用最新的Diffusion Model，搜集了大量几十万张高清图像数据集，训练了新的基于扩散模型的图像超分辨率模型，已经上线了，可以来试试效果吧。

体验地址：

生成式超分服务官网

达摩院视觉开放平台

下面给出几组，基于LDM-SR和Real-ESRGAN的效果对比，直观感受下吧！

原图

Real-ESRGANx4

LDM_SR x4

原图

Real-ESRGANx4

LDM_SR x4

三、总结与展望

LDM是Stable V1的基本构成，最新的工作StableDiffusion V2 ，将多模态技术引入了图像超分辨率方案中。文本信息的引导，使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线，继续关注达摩院最新技术发布！

【达摩院OpenVI】AIGC技术在图像超分上的创新应用相关推荐

【论文解读】图像超分最新记录！南洋理工提出图神经网络嵌入新思路，复原效果惊艳...
文章来源于极市平台,作者Happy paper: https://arxiv.org/abs/2006.16673 code: https://github.com/sczhou/IGNN(尚未开源) ...
《深度学习》图像超分初识
一:简介图像超分(super-Resolution)是将低分辨率的图像或者视频序列恢复出高分辨率图像. 可以用在视频数字高清播放,视频监控,视频编码,图像还原和医学影像等领域,按照类别可分为单个图像 ...
图像超分中的深度学习网络
图像超分中的深度学习网络质量评估操作通道有监督算法预上采样后采样超分逐步上采样迭代上下采样上采样的学习方式残差块递归学习多路径学习密集连接通道注意力机制其他卷积像素递归网 ...
图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)
文章目录一.目的二.研究背景三.存在的问题四.研究现状五.各算法创新点及核心代码总结 SRCNN ESPCN VDSR DRCN DRRN EDSR SRGAN ESRGAN RDN WDS ...
深度学习磁共振图像超分与重建论文阅读
深度学习磁共振图像超分与重建算法研究 Super-resolution reconstruction of MR image with a novel residual learning networ ...
HarmonyOS之AI能力·文字图像超分
一.简介文字图像超分辨率可以对包含文字内容的图像进行 9 倍放大(高宽各放大 3 倍),同时增强图像内文字的清晰度,称为"文字图像超分辨率",简称"文字图像超分&quo ...
计算摄影——图像超分
这一节主要介绍一下基于单张图的图像超分算法.图像超分,就是要从低分辨率的图像恢复为高分辨率的图像,它在日常的图像和视频存储与浏览中都有广泛的应用. 基于深度学习的图像超分算法不同的采样结构图像超分 ...
46FPS+1080Px2超分+手机NPU，arm提出一种基于重参数化思想的超高效图像超分方案
编辑:Happy 首发:AIWalker 本文是ARM的研究员在大分辨率图像超分方面的一次探索,它将重参数化思想嵌入到图像超分结构中,并结合手机NPU硬件性能对现有超分的性能进行的对比分析.在Arm ...
图像超分算法小合集二：FSRCNN、DRCN、RDN、EDSR
目录 FSRCNN DRCN RDN EDSR 文章: FSRCNN : Accelerating the Super-Resolution Convolutional Neural Network ...

【达摩院OpenVI】AIGC技术在图像超分上的创新应用