Learning Multi-Scale Photo Exposure Correction阅读札记

论文发表于2021年的CVPR。

Abstract

本文目标：
同时校正过曝光和欠曝光的问题。
贡献：
（1）提出一个由粗到细的深度学习方法，用于校正sRGB图像中存在的过曝光和欠曝光错误：将曝光校正问题表述为颜色增强和细节增强这两个子问题，使用深度神经网络（DNN）模型，以端到端方式进行训练，首先校正全局颜色信息，然后再改善图像细节。
（2）提出一个新的数据集，其中包含24000多张从raw-RGB到sRGB的图像，这些图像具有不同的曝光设置，并且每张图像有对应的适当曝光的参考图像gtgtgt。

Dataset

本文数据集由MIT-Adobe FiveK数据集渲染，使用相对EV为 -1.5，-1，+0，+1 和 +1.5 去渲染每个raw-RGB图像，模拟欠曝光、正常曝光和过曝光图像。使用专业摄影师手动修正图像作为gtgtgt参考图像，而不是使用渲染的相对EV为+0的图像（因为MIT-Adobe FiveK数据集中原始图像中包含一定曝光错误）。最后将渲染后的图像转换为标准的8位sRGB颜色空间编码。
数据集分为三个集合：（i）包含有17675个图像的训练集，（ii）包含有750个图像的验证集，（iii）包含有5905个图像的测试集。训练、验证、测试图像不共享任何共同的图像。

Method

输入一个8位的sRGB图像III，使用拉普拉斯金字塔将III进行多分辨率分解，再按顺序处理多分辨率图像来校正颜色和细节错误，输出一个曝光错误比III少的校正图像YYY。

1、由粗到细的曝光校正

令表示III的nnn层拉普拉斯金字塔，X(l)X_{(l) }X(l)表示XXX的第lll层。金字塔的最后一层X(n)X_{(n)}X(n)存储III的低频信息——全局颜色信息；第一层X(1)X_{(1)}X(1)到倒数第二层X(n−1)X_{(n-1)}X(n−1)存储III的高频信息——由粗到细的细节信息。

上图的（A）和（B）分别显示了过曝光图像和对应的良好曝光图像。如图（C）所示，在拉普拉斯金字塔中，仅替换低频层（即全局颜色信息）即可获得显著的曝光校正。如图（D）所示，可以通过校正拉普拉斯金字塔的每一层，以顺序的方式增强细节来改进最终图像。然而在实际处理过程中是无法获得图（B）中的正确曝光图像，因此需要预测在拉普拉斯金字塔每一层损失的颜色和细节信息。

2、由粗到细的网络

本文提出的模型包含nnn个子网络，依次处理输入图像III的nnn层拉普拉斯金字塔，其中每一个子网络都是一个类U-Net架构，具有不固定的权重。根据每个子问题（即全局颜色校正和细节增强）对最终结果的影响程度，给相应的子网络分配不同的权重。网络框架图如下：

（1）最大的（按权重计算）子网络（黄色部分所示）用于处理III的全局颜色信息，即对低频层X(n)X_{(n)}X(n)处理，生成一个放大后的图片Y(n)Y_{(n)}Y(n)，其中放大过程使用具有可训练权重的跨步转置卷积将子网络的输出放大两倍。
（2）添加第一个中频层X(n−1)X_{(n-1)}X(n−1)到Y(n)Y_{(n)}Y(n)，由模型中第二个子网络处理。这个子网络增强了当前层的相应细节，并生成了一个残差层，然后添加到Y(n)+X(n−1)Y_{(n)}+ X_{(n-1)}Y(n)+X(n−1)中以重建图像Y(n−1)Y_{(n-1)}Y(n−1)，这相当于对应的高斯金字塔n–1n – 1n–1层。
…
（n）细化上采样过程一直进行到产生最终输出图像YYY。

3、损失

对模型进行端到端训练，以最小化以下损失函数：

重构损失LrecL_{rec}Lrec

在重构的参考图像和适当曝光的参考图像之间使用L1L_1L1损失函数：

h,wh,wh,w：训练图像的高度和宽度
ppp：校正后图像YYY和适当曝光的参考图像TTT中每个像素的索引

金字塔损失LpyrL_{pyr}Lpyr

为了引导每个子网络遵循拉普拉斯金字塔重建过程，于是在金字塔的每一层引入专用损失：

T(l)T_{(l)}T(l)：参考图像TTT两倍上采样后的高斯金字塔的第lll层（使用一个简单的插值过程进行上采样操作）
hl,wlh_l, w_lhl,wl：训练图像拉普拉斯金字塔第lll层高度和宽度的两倍
ppp：校正后图像在第lll层Y(l)Y_{(l)}Y(l)和适当曝光参考图像的第lll层T(l)T_{(l)}T(l)的每个像素的索引
金字塔损失不仅对每个子网络的任务给出原则性的解释，而且与仅使用重建损失的训练相比，视觉伪影更少，如下图所示：

对抗损失LadvL_{adv}Ladv

为了从真实感和吸引力方面感知增强校正后图像输出的重建，还考虑了对抗损失作为正则化器：

SSS：sigmoid函数
DDD：与主网络一起训练的鉴别器DNN。
⭐受前人工作启发，最初训练没有对抗损失项LadvL_{adv}Ladv以加速主网络的收敛，在收敛时再添加对抗损失项LadvL_{adv}Ladv微调网络以增强初始结果。

Experiment

1、定量评估

评估指标：
（i）峰值信噪比（PSNR）
（ii）结构相似性指数测度（SSIM）
（iii）感知指数（PI）
PI定义为：

Ma，NIQE：无参考图像质量指标。

与前人方法进行比较：

将本文方法训练出的模型来测试其他的数据集，来评估方法的泛化能力：

2、定性评估

对不同过曝光和欠曝光图像的结果：

对Flickr上的图像的结果：

3、限制

本文方法在语义信息不足的区域产生的结果不理想，如图所示：
当输入图像部分区域完全饱和，网络无法约束改区域的颜色信息

当输入图像有极端黑暗区域时，本文方法可能会引入噪声。