Learning to See in the Dark阅读札记

论文发表于2018年的CVPR。

Abstract

本文目标：
实现极端低光图像增强，包括降噪和正确的颜色变换。
贡献：
（1）引入一个新的数据集See-in-the-Dark，包含原始的短曝光微光图像数据，以及相应的长曝光参考图像。
（2）利用所提出的数据集，基于全卷积网络的端到端训练开发了一个处理微光图像的pipeline，该网络直接对原始传感器数据进行操作。

See-in-the-Dark Dataset

采集环境：
SID包含室内和室外图像，室外场景中摄像机的照度一般在0.2-5 luxluxlux之间。室内场景中摄像机的照度一般在0.03-0.3 luxluxlux之间。
参数设置：
输入图像的曝光设置在1/30-1/10sss之间，以100到300倍的曝光时间（即10-30sss）捕获相应的参考（gtgtgt）图像。
采集过程：
使用两台相机拍摄图像：Sony α7S II和Fujifilm X-T2。相机固定在三脚架上，这里使用无反光镜相机来避免因反光镜飘动给图像造成模糊。对于每个场景都重新调整光圈、ISO、焦距和焦距等设置，以最大限度提高参考（长时间曝光）图像的质量。拍摄长曝光参考图像后，使用手机app远程操控相机，将曝光时间减少100到300倍，实现一系列短曝光图像的拍摄。
采集结果：
See-in-the-Dark (SID)数据集包含5094张原始短曝光图像，424张长曝光参考图像（多个短曝光图像可以对应同一个长曝光参考图像）。Sony图像的分辨率为4240×2832，Fuji图像的分辨率为6000×4000。

数据集总结如表所示：

参考图像的小样本如图所示：

Method

1、pipeline

本文方法不是对普通sRGB图像进行操作，而是对原始传感器数据进行操作。如图所示，对于Bayer阵列, 将输入打包成四个通道，并相应地将每个维度的空间分辨率降低两倍。(对于X-Trans阵列（图中未显示），原始数据按6×6块排列；通过交换相邻元素将其打包成9个通道而不是36个通道) 。将打包的四个通道减去black level 并按所需的放大率（例如x100或x300）缩放数据。打包和放大的数据被输入到一个完全卷积的网络中。输出是具有一半空间分辨率的12通道图像。这个半尺寸的输出由一个子像素层处理以恢复原始分辨率。管道核心的全卷积网络架构是U-Net。
放大率决定了输出的亮度，这里的放大率是在外部设置的，并作为输入提供给管道，类似于相机中的ISO设置。下图显示了不同放大率的影响。用户可以通过设置不同的放大倍数来调整输出图像的亮度。

2、training

使用L1L_1L1损失和AdamAdamAdam优化器从头开始训练网络。在训练期间，网络的输入是短曝光图像的原始数据，gtgtgt是sRGB空间中对应的长曝光图像（由原始图像处理库libraw处理）。放大率设置为训练和测试的输入图像和参考图像（例如x100、x250或x300）之间的曝光比。在每次迭代中，随机裁剪一个512×512的patch进行训练，并应用随机翻转和旋转进行数据增强。学习率最初设置为10−410^{-4}10−4，在2000个epoch后降低到10−510^{-5}10−5。训练进行了4000个epoch。

Experiment

1、定性结果和感知实验

Comparison to traditional pipeline.

Comparison to denoising and burst processing.

Qualitative results on smartphone images.
将在SID的Sony子集上训练的模型应用于iPhone 6s智能手机捕获的图像，该智能手机还具有Bayer过滤器数组和14 位原始数据。使用应用程序手动设置ISO和其他参数，并导出原始数据进行处理。具有代表性的结果如图所示。

2、控制实验

下表根据峰值信噪比 (PSNR) 和结构相似性 (SSIM) 报告了所呈现管道的准确性，根据一系列控制实验，以评估管道中不同元素的影响。

Network structure.
上表（第2行）表明了用CAN 替换U-Net 的结果。U-Net在两组上都有更高的 PSNR。虽然CAN生成的图像具有更高的SSIM，但它们有时会遭受色彩损失。下图显示了来自Fuji x300的patch，CAN无法正确恢复颜色。

Input color space.
与对sRGB图像进行操作相比，在极端低光照条件下，直接对原始传感器数据进行操作更为有效，如表（第3行）所示。
Loss functions.
如表（第4行和第5行）所示，用L2L_2L2或SSIMSSIMSSIM替换L1L_1L1损失会产生可比较的结果。
Data arrangement.
如表（第6行）所示，对 Bayer数据（Sony子集）进行masking产生的 PSNR / SSIM低于packing。masking典型感知伪影是输出中的某些色调丢失。
X-Trans数据在结构上与Bayer数据有很大不同，排列为6×6块。本文在相邻元素之间交换一些值以创建一个3×3模式，该模式被打包到9个通道中。如表（第7行）所示，6×6封装产生较低的PSNR/SSIM。典型的感知伪影是颜色和细节的损失。
Postprocessing.
如表（第 8行）所示，当将直方图拉伸应用于参考图像时，网络的准确度显著下降（因此网络必须学习直方图拉伸）。实验表明，管道不容易学习建模和操作整个图像的全局直方图统计数据，并且在面对此任务时容易过度拟合训练数据。因此从管道中排除直方图拉伸，并将其应用为后处理。下图显示了一个典型结果，其中尝试学习直方图拉伸会在测试时产生可见的伪影。在未拉伸的参考图像上训练的结果更暗但更清晰。

Discussion

未来研究方向

（1）本文工作没有解决 HDR色调映射。
（2）SID 数据集的局限性在于不包含人和动态对象。
（3）本文方法另一个限制在于必须在外部选择放大率。从输入中推断出良好的放大率会很有用，类似于自动ISO。
（4）本文方法是为给定相机传感器训练一个专用的网络，未来工作可以进一步研究低光成像网络的泛化能力。
（5）实现进一步运行时优化。本文方法分别需要0.38 和0.66秒来处理全分辨率Sony和Fuji图像，这对于全分辨率的实时处理来说还不够快。